Это перевод оригинальной статьи Андрея Карпатого.2025 оказался насыщенным годом для больших языковых моделей. Ниже — список лично для меня заметных и немного неЭто перевод оригинальной статьи Андрея Карпатого.2025 оказался насыщенным годом для больших языковых моделей. Ниже — список лично для меня заметных и немного не

[Перевод] 2025: год, когда LLM-ы по-настоящему изменились

Это перевод оригинальной статьи Андрея Карпатого.

2025 оказался насыщенным годом для больших языковых моделей. Ниже — список лично для меня заметных и немного неожиданных «смен парадигм». Вещи, которые изменили ландшафт и концептуально запомнились.

1. Reinforcement Learning from Verifiable Rewards (RLVR)

В начале 2025 года стек производства LLM во всех лабораториях выглядел примерно так:

  • Претрейнинг (GPT-2/3, ~2020)

  • Supervised Finetuning (InstructGPT, ~2022)

  • RLHF — обучение с подкреплением на основе человеческой обратной связи (~2022)

Это был устоявшийся, проверенный рецепт для обучения продакшн-моделей. В 2025 году к этому миксу добавился новый большой этап — RLVR, обучение с подкреплением на верифицируемых наградах. Работает это так: модели тренируются на задачах, где можно автоматически проверить правильность ответа — математика, кодовые головоломки и тому подобное. И вот что интересно: в процессе LLM-ы спонтанно вырабатывают стратегии, которые для людей выглядят как «рассуждение». Они учатся разбивать решение на промежуточные шаги, пробовать разные подходы, возвращаться назад и перепроверять себя. В статье DeepSeek R1 много примеров.

Раньше добиться такого поведения было сложно. Непонятно ведь, как должны выглядеть оптимальные цепочки рассуждений для конкретной модели — она сама должна найти то, что работает именно для неё через оптимизацию на награды.

В отличие от SFT и RLHF, которые представляют собой относительно короткие этапы (небольшой дообучение с точки зрения вычислений), RLVR позволяет оптимизировать модель намного дольше — потому что функция награды объективная, её нельзя «обмануть». Оказалось, что RLVR даёт отличное соотношение способностей на доллар затрат, и он сожрал вычислительные ресурсы, изначально планировавшиеся на претрейнинг. Поэтому основной прогресс 2025 года определялся тем, что лаборатории «прожёвывали» накопившийся потенциал этого нового этапа: модели остались примерно такого же размера, но RL-прогоны стали намного длиннее.

И ещё одна уникальная особенность RLVR: появилась новая ручка настройки (со своим законом масштабирования) — можно управлять способностями модели через вычисления на этапе инференса, генерируя более длинные цепочки рассуждений и увеличивая «время на размышление».

OpenAI o1 в конце 2024 года стал первой демонстрацией RLVR-модели. Но именно релиз o3 в начале 2025-го стал точкой перелома — разницу можно было почувствовать интуитивно.

2. Призраки против животных / Рваный интеллект

2025-й — это год, когда я (и, кажется, вся индустрия тоже) впервые по-настоящему прочувствовал «форму» интеллекта LLM. Мы не «выращиваем животных» — мы «призываем духов». Всё в стеке LLM принципиально другое: архитектура нейросети, обучающие данные, алгоритмы, а главное — давление оптимизации. Неудивительно, что мы получаем совершенно иные сущности в пространстве интеллекта, и думать о них в терминах животных — неправильно.

С точки зрения битов супервизии: человеческие нейросети оптимизированы для выживания племени в джунглях, а нейросети LLM оптимизированы для имитации человеческих текстов, сбора наград в математических головоломках и получения лайков от людей на LM Arena.

Поскольку верифицируемые области позволяют применять RLVR, LLM-ы «выстреливают» в способностях вблизи этих областей. В результате их характеристики производительности забавно неровные: они одновременно гениальные полиматы и растерянные, когнитивно ограниченные школьники, которых через секунду можно обмануть джейлбрейком и заставить слить ваши данные.

(Человеческий интеллект — синий, ИИ — красный. Мне нравится эта версия мема (к сожалению, потерял ссылку на оригинальный пост в X) за то, что она показывает: человеческий интеллект тоже рваный, просто по-своему.)

С этим связана моя общая апатия и потеря доверия к бенчмаркам в 2025 году. Проблема в том, что бенчмарки почти по определению — верифицируемые среды, а значит, сразу подвержены RLVR и его более слабым формам через генерацию синтетических данных. В типичном процессе «бенчмарк-максинга» команды в лабораториях неизбежно строят среды, смежные с маленькими карманами пространства эмбеддингов, занятых бенчмарками, и наращивают «рваные выступы», чтобы их покрыть. Тренировка на тестовом наборе — это новая форма искусства.

Как выглядит мир, где все бенчмарки разгромлены, а AGI всё ещё нет?

Подробнее на эту тему я писал здесь:

  • Animals vs. Ghosts

  • Verifiability

  • The Space of Minds

3. Cursor / Новый слой LLM-приложений

Самое примечательное в Cursor (помимо его стремительного взлёта в этом году) — он убедительно показал новый слой «LLM-приложения». Люди начали говорить «Cursor для X». Как я подчеркнул в своём выступлении на Y Combinator в этом году (транскрипт и видео), LLM-приложения вроде Cursor объединяют и оркестрируют вызовы LLM для конкретных вертикалей:

  • Они занимаются «контекстной инженерией»

  • Они оркестрируют несколько вызовов LLM под капотом, связывая их во всё более сложные DAG-и, тщательно балансируя производительность и стоимость

  • Они предоставляют GUI, специфичный для приложения, для человека в цикле

  • Они предлагают «ползунок автономности»

В 2025 году много обсуждали, насколько «толстый» этот новый слой приложений. Захватят ли лаборатории LLM все приложения, или для LLM-приложений есть зелёные пастбища? Лично я думаю, что лаборатории LLM будут выпускать универсально способного выпускника колледжа, а LLM-приложения будут организовывать, дообучать и превращать команды таких выпускников в работающих профессионалов в конкретных вертикалях — поставляя приватные данные, сенсоры, актуаторы и петли обратной связи.

4. Claude Code / ИИ, который живёт на вашем компьютере

Claude Code (CC) стал первой убедительной демонстрацией того, как выглядит LLM-агент — нечто, что в цикле связывает использование инструментов и рассуждения для длительного решения задач. Кроме того, CC примечателен тем, что он работает на вашем компьютере, с вашим приватным окружением, данными и контекстом.

Мне кажется, OpenAI тут ошиблись, потому что сфокусировали усилия по Codex/агентам на облачных деплоях в контейнерах, оркестрируемых из ChatGPT, вместо localhost. И хотя рои агентов в облаке ощущаются как «эндгейм AGI», мы живём в промежуточном мире с достаточно медленным взлётом и рваными способностями, где имеет смысл просто запускать агентов на компьютере, рука об руку с разработчиками и их конкретным сетапом.

CC правильно расставил приоритеты и упаковал это в красивый, минималистичный, убедительный CLI-формат, который изменил то, как выглядит ИИ. Это не просто сайт, на который ты заходишь как в Google. Это маленький дух/призрак, который «живёт» на твоём компьютере. Это новая, отдельная парадигма взаимодействия с ИИ.

5. Вайбкодинг

2025 — год, когда ИИ перешёл порог способностей, необходимый для создания всевозможных впечатляющих программ просто на английском языке, забывая, что код вообще существует. Забавно, что я придумал термин «vibe coding» в этом потоке мыслей в твиттере, совершенно не представляя, как далеко он зайдёт :)

С вайбкодингом программирование больше не зарезервировано строго для высококвалифицированных профессионалов — это то, что может делать кто угодно. В этом смысле это ещё один пример того, о чём я писал в «Power to the people: How LLMs flip the script on technology diffusion»: в отличие от всех предыдущих технологий, обычные люди получают от LLM намного больше пользы, чем профессионалы, корпорации и правительства.

Но вайбкодинг не только наделяет обычных людей способностью подступиться к программированию — он даёт профессионалам возможность писать намного больше (вайбкодированного) софта, который иначе никогда бы не был написан. В nanochat я вайбкодил свой собственный высокоэффективный BPE-токенизатор на Rust вместо того, чтобы адаптировать существующие библиотеки или изучать Rust на таком уровне. Я вайбкодил много проектов в этом году как быстрые демо-приложения чего-то, что хотел чтобы существовало (например, menugen, llm-council, reader3, HN time capsule). И я вайбкодил целые эфемерные приложения просто чтобы найти один баг — а почему бы и нет: код вдруг стал бесплатным, эфемерным, податливым, одноразовым. Вайбкодинг терраформирует софт и изменит должностные обязанности.

6. Nano Banana / GUI для LLM

Google Gemini Nano Banana — одна из самых невероятных, меняющих парадигму моделей 2025 года. В моей картине мира LLM-ы — это следующая большая вычислительная парадигма, похожая на компьютеры 1970-х, 80-х и так далее. Поэтому мы увидим аналогичные виды инноваций по принципиально схожим причинам. Мы увидим эквиваленты персональных компьютеров, микроконтроллеров (когнитивное ядро), интернета (агентов) и так далее.

В частности, в плане UI/UX «чатиться» с LLM — это немного как вводить команды в консоль компьютера в 1980-х. Текст — это сырой/предпочтительный формат данных для компьютеров (и LLM), но это не предпочтительный формат для людей, особенно на входе. Люди на самом деле не любят читать текст — это медленно и требует усилий. Вместо этого люди любят потреблять информацию визуально и пространственно — поэтому GUI и был изобретён в традиционных вычислениях.

Точно так же LLM должны говорить с нами в нашем предпочтительном формате — в изображениях, инфографике, слайдах, досках, анимациях/видео, веб-приложениях и так далее. Ранняя и нынешняя версия этого — конечно, эмодзи и Markdown, которые являются способами «приодеть» и разложить текст визуально для более лёгкого восприятия с заголовками, жирным, курсивом, списками, таблицами и так далее.

Но кто на самом деле построит GUI для LLM? В этой картине мира Nano Banana — первый ранний намёк на то, как это может выглядеть. И важно: дело не только в генерации изображений самой по себе, а в совместной способности, возникающей из генерации текста, генерации изображений и знания о мире, всё переплетённое в весах модели.

Резюме. 2025 был волнующим и немного неожиданным годом для LLM. LLM-ы проявляются как новый вид интеллекта — одновременно намного умнее, чем я ожидал, и намного тупее, чем я ожидал. В любом случае они чрезвычайно полезны, и мне кажется, индустрия не реализовала и близко 10% их потенциала даже при нынешних способностях. Между тем, так много идей, которые можно попробовать, и концептуально область ощущается широко открытой. И как я упомянул в подкасте у Дваркеша ранее в этом году, я одновременно (и на первый взгляд парадоксально) верю, что мы и увидим быстрый, продолжающийся прогресс, и что ещё очень много работы впереди. Пристегнитесь.

Источник

Возможности рынка
Логотип Large Language Model
Large Language Model Курс (LLM)
$0.0003334
$0.0003334$0.0003334
-3.27%
USD
График цены Large Language Model (LLM) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

«Смерть DeFi» или новая эра? Глава Maple Finance рассказал о будущем финансов

«Смерть DeFi» или новая эра? Глава Maple Finance рассказал о будущем финансов

В ближайшие годы границы между децентрализованными и традиционными финансами исчезнут, заявил CEO Maple Finance Сид Пауэлл в интервью CoinDesk. По его мнению, и
Поделиться
ProBlockChain2025/12/22 13:08
В Южной Корее призвали легализовать стейблкоины для защиты финансового суверенитета

В Южной Корее призвали легализовать стейблкоины для защиты финансового суверенитета

Южная Корея должна ускорить создание законодательной базы для стейблкоинов. Об этом сообщают местные СМИ со ссылкой на заявление депутата от Демократической пар
Поделиться
Incrypted2025/12/22 17:41
Акции Metaplanet взлетели после того, как инвесторы поддержали план капитализации с фокусом на Bitcoin

Акции Metaplanet взлетели после того, как инвесторы поддержали план капитализации с фокусом на Bitcoin

Статья Акции Metaplanet растут, поскольку инвесторы поддерживают план капитала, ориентированный на Bitcoin, впервые появилась на Coinpedia Fintech News Стратегия Metaplanet в отношении Bitcoin получила еще одно
Поделиться
CoinPedia2025/12/22 17:24