Рынок ИИ в последние месяцы словно постоянно на старте нового забега: компании всеми силами стараются заявить о «прорыве» раньше остальных и доказать, что их модель переворачивает всё с ног на голову. Похоже, сейчас соревнуются не столько в качестве, сколько в количестве анонсов. На этом фоне OpenAI возвращается после короткой паузы и выпускает GPT‑5.2 - не временную версию или лёгкий апдейт, а действительно новую ступеньку в своей длинной лестницы.
Первые намёки появились задолго до официального релиза. Сначала тихие утечки, затем публикации в профильных медиа: The Verge упоминал, что OpenAI готовит что‑то объёмное, а The Information сообщала, что внутри компании несколько месяцев держали режим молчания именно ради этой версии.
Интерес подогревали и другие детали. Осенью инженеры работали над экспериментальной моделью с рабочим названием Shallotpeat, где акцент сместился от обучения через обратную связь к базовому предобучению. Это важно, потому что в этой области конкуренты вроде Google и Anthropic заметно ускорились и опередили OpenAI. Кроме того, внутри команды обсуждали проект garlic - ещё одно рабочее название, которое отражало эксперименты по вливанию в компактную модель большого объёма знаний без роста затрат. Альтман даже подшучивал на эту тему в X.
Между релизами GPT‑5 и GPT‑5.1 прошло около трёх месяцев, а вот GPT‑5.2 появилась почти сразу после предыдущей версии. Будем честны, конкуренция с Claude Opus 4.5 и Gemini 3 Pro подтолкнула компанию ускорить запуск, чтобы не терять темп на рынке. И это не всё. По слухам, до конца года кроме GPT‑5.2 должны выйти обновлённые версии Grok 4.20, Gemini 3 Flash и даже Nano Banana 2 Flash - то есть конкуренция в индустрии не торопится стихать.
Тем временем на Reddit пользователи обсуждают GPT‑5.1 и утверждают, что в ряде задач она работает лучше, чем новая версия. Обсуждения полны противоречивых комментариев, поэтому мы здесь!
Сегодня будем тестировать обе модели (GPT‑5.1 и GPT‑5.2) и посмотрим, какая из них справится с реальными задачами лучше, где новая версия выигрывает, а где старый движок всё ещё держит марку.
Приятного чтения!
Начнем с самого заметного - knowledge cutoff. У GPT-5.1 он был октябрь 2024, а у GPT-5.2 уже август 2025-го. Когда модель работает на своих знаниях без интернета, она даёт более надёжные ответы, особенно если нужно пройти через длинные логические цепочки. Плюс делает это быстрее. Для меня это, пожалуй, главное улучшение.
OpenAI утверждает, что с выключенным веб-поиском GPT-5.2 галлюцинирует на треть реже. А с включённым поиск ошибок всего 1%. Классный показатель, но нужно помнить, что чем реже модель ошибается, тем больше соблазн полностью ей доверять. А этот редкий 1% иногда может преподнести сюрприз.
Компьютерное зрение стало ещё сильнее: по разным тестам рост на 10–30%. Для сравнения, Gemini 3 Pro умеет буквально видеть, кто и в чём был одет, кто на какой секунде видео на кого посмотрел косо, и даже 20–30 минутные ролики разбирает без проблем. Если GPT-5.2 дотянется хотя бы до такого уровня - будет очень круто.
И это уже принесло реальные результаты. В бенчмарке GDPVal GPT-5.2 набирает 70,9%, тогда как GPT-5 держится на 38,8%. Этот тест проверяет, как модель справляется с рутинными задачами вроде финансовых отчётов, презентаций, инженерных чертежей, юридических документов и видео. Простые задачи, но именно с них начинается интеграция ИИ в рабочие процессы.
Теперь модель лучше работает с графиками, интерфейсами и техническими схемами. Интерпретация GUI стала точнее почти в два раза.
Особое внимание заслуживают бенчмарки ARC-AGI-1 и ARC-AGI-2, где проверяется абстрактное мышление.
ARC Prize опубликовала результаты, которые позиционируются сложным тестом на абстрактное мышление. Да, GPT-5.2 Pro забрала золото в обоих. ARC-AGI-2 была релизнута недавно и многие пишут, что задачи оттуда не были в дата-сетах для обучения ИИ.
Раньше ИИ там с трудом решал задачи: Claude Opus 4 Thinking - 8,6%, GPT-5 Thinking - 9,9%. Сейчас GPT-5.2 Thinking берёт 43,3%, а GPT-5 Pro - целых 54,2%! Если результаты честные, это серьезный шаг к умным агентам.
Другие тесты тоже впечатляют: SWE Bench Pro - с 50,8% до 55,6%, GPQA Diamond - с 88,1% до 92,4%, AIME 2025 - 100% выполнения против 94% у GPT-5. В целом OpenAI почти догнала Gemini 3 Pro и Claude Opus 4.5, хотя в веб-дизайне ещё немного проигрывает.
А вот GPT-5.1 значительно отстает от последних релизов Google и Anthropic почти по всем параметрам.
Все, новичка похвалили, теперь давайте к делу.
В качестве платформы я буду использовать BotHub, поскольку сервис обходит некоторые сложности с сайтом моделей.
Если тоже испытываете проблемы с доступом, а протестировать хочется, то по ссылке вы можете получить 100 000 бесплатных токенов для теста GPT-5.2 на своих задачах.
Модель уже доступна на платформе, а мы забираем бонус и переходим к тестам!
Давайте сразу поднимем градус и проверим логику и математику. Разработчики заявили об улучшениях в навыках рассуждения, так что самое время узнать, как модели справляются с задачами разного уровня сложности.
Начнём с моей любимой задачей на логику, которая на первый взгляд выглядит элементарно, но есть подвох...
Только GPT-5.2 учла водителя. Интересно, что она не вдавалась в подробные рассуждения, и её ответ уместился в строке, когда 5.1 рассуждала в аж 6 пунктов. Но задачка на логику, значит балл уходит 5.2.
Давайте дадим младшей модели еще шанс. Предлагаю такую задачку:
Новые результаты перед нами. Все дали правильный ответ. GPT-5.2 снова отличается краткостью, но при этом модель не избегает уравнений. Балл уходит двум моделям!
А теперь время серьезной артиллерии - работа с ранжированием элементов системы. Один из моих любимых тестов. Здесь мы дадим задачу уровня старших курсов университета. Её можно найти в интернете, но мы интересуемся именно тем, как модели построят решение шаг за шагом через матрицу полных путей.
Задача выглядит так:
Ожидаемое решение: R1 = 0.5, R2 ≈ 0.1538, R3 ≈ 0.1153, R4 ≈ 0.1153, R5 ≈ 0.1153.
Обе модели построили матрицу смежности, но на этом их успех закончился. Как минимум, диагональ найденной матрицы полных путей оказалась нулевой. Задача не обязательно решается через последовательное разложение квазиминоров, хотя именно этот метод часто встречается на сайтах при поиске решения.
Возможно, стоило бы составить более подробный промпт, тогда модели могли бы дать более корректный результат, ведь логика решения у моделей в целом схожа. Либо задачу нужно решать пошагово, чтобы достичь верного ответа.
Но, что бы не говорили, на данный момент алгоритмы не способны заменить старшекурсника-бакалавра.
Ну, и GPT-5.2 снова блеснул краткостью, а балл никто не получает.
Сейчас я подам на вход скриншот страницы и попрошу каждую из моделей написать код для нее.
Будем копировать интерфейс нашего сервиса!
Да, GPT-5.1 сильно отстает. Расположение иконок, шрифт, даже фон, который просто синий - все минус. Но зато создал флаг Казахстана, которого там быть не должно. Балл уходит новой версии. Также мне показалось, что версия 5.2 сильно сгладила иконки и они стали неестественными.
Кстати, у GPT наблюдается неплохой прогресс, вот итог от легендарной 4o:
Балл уходит новой версии, а мы идем дальше!
Теперь посмотрим как хорошо модели пишут тексты. Многие используют GPT именно для этого!
Просим следующее:
*Здесь ответы моделей спрячу под спойлеры, потому как скриншот выйдут нечитаемыми.
GPT-5.1Предварительная подготовка деталей
1.1. Охлаждающая среда
Заготовить 2–2,5 литра кваса (или кефира/сыворотки, в зависимости от выбранной модификации агрегата).
Поместить в холодильный отсек минимум на 3–4 часа до момента сборки, чтобы рабочая жидкость была строго холодной.
1.2. Основные конструкционные элементы
Картофель варёный в мундире – 5–6 штук среднего калибра. Охладить, очистить.
Яйцо куриное – 4–5 штук, отварить вкрутую, охладить, очистить.
Огурец свежий – 4–5 штук среднего размера, вымыть, концы обрезать.
Колбаса варёная / отварное мясо (говядина, курица) – 300–400 г.
Зелёный лук – 1 пучок.
Укроп – 1 пучок.
Сметана – 200–250 г.
Соль, перец – по вкусу, но строго в соответствии с требованиями оператора.
Инструменты и рабочее место
2.1. Инструменты
Нож разделочный – 1 шт.
Доска разделочная – 1 шт.
Ёмкость сборочная (кастрюля 3–4 л) – 1 шт.
Венчик или ложка для перемешивания – 1 шт.
2.2. Рабочее место
Оснастить горизонтальной поверхностью.
Обеспечить доступ к холодильному отсеку и источнику воды.
Оператор обязан вымыть руки.
Обработка и нарезка компонентов
3.1. Картофельный модуль
Картофель нарезать кубиками размером 8–10 мм.
Переместить в сборочную ёмкость.
3.2. Белково-мясной модуль
Яйца нарезать кубиком аналогичного формата и добавить к картофелю.
Колбасу или мясо нарезать кубиками той же величины. Добавить в сборочную ёмкость.
3.3. Овощной модуль
Огурцы нарезать кубиками 8–10 мм. При образовании избыточного сока – не удалять, он участвует в общей смазке системы.
Зелёный лук мелко нашинковать.
Укроп мелко нарезать.
Формирование ароматической смеси (заправочный узел)
4.1. Предварительное смешивание зелени
В отдельной малой ёмкости соединить зелёный лук и укроп.
Добавить 0,5 чайной ложки соли.
Интенсивно подавить зелень ложкой до появления яркого аромата – происходит активация эфирных масел (аналог приработки деталей).
4.2. Введение сметанного модуля
В зелёную смесь добавить сметану.
Перемешивать до получения однородной густой эмульсии.
При необходимости добавить 2–3 столовые ложки кваса/кефира для регулировки вязкости.
Сборка агрегата
5.1. Консолидация твёрдых элементов
Переместить зелёно-сметанную смесь в основную сборочную ёмкость к картофелю, яйцам, мясу и огурцам.
Тщательно перемешать до равномерного распределения всех фракций по объёму.
5.2. Заправка охлаждающей жидкостью
Влить в сборочную ёмкость предварительно охлаждённый квас (или кефир).
Объём рабочей жидкости устанавливается по желаемой «жидкости» агрегата:
для густой модификации – до уровня чуть выше твёрдых компонентов;
для «походной» (более жидкой) – ещё +300–500 мл.
Перемешать. Провести дегустационный контроль: при необходимости добавить соль и перец.
Цикл стабилизации
Закрыть сборочную ёмкость крышкой.
Поместить в холодильный отсек минимум на 30–40 минут.
В этот период происходит пропитка и «синхронизация» компонентов – аналог выхода трактора на рабочий режим после обкатки.
Пуск и эксплуатация
7.1. Подача к рабочему месту оператора
Разлить окрошку по сервировочным ёмкостям (тарелкам/глубоким мискам).
При необходимости дополнительно дооснастить:
1 столовой ложкой сметаны сверху;
свежим укропом;
кубиками льда при эксплуатации в условиях повышенной температуры окружающей среды.
7.2. Режим потребления
Эксплуатировать агрегат малыми порциями, равномерно захватывая твёрдую и жидкую части.
Соблюдать правила техники безопасности: не запивать горячими напитками, чтобы не нарушить температурный режим системы охлаждения оператора.
Техническое обслуживание
Остатки продукта хранить в холодильнике не более 24 часов.
Перед повторным запуском тщательно перемешать – возможно расслоение рабочей жидкости и твёрдых элементов.
В результате сборки оператор получает полностью готовый «охлаждающий трактор» – окрошку, способную стабильно поддерживать бодрость и температуру тела в жаркий сезон.
Агрегат предназначен для охлаждения оператора в тёплый сезон и повышения производительности отдыха.
База (шасси):
Картофель — 3–4 шт. (средние)
Яйца — 3–4 шт.
Силовой блок (мясной/белковый модуль, выбрать один):
Ветчина/колбаса — 250–300 гили отварная говядина/курица — 250–300 г
Навесное оборудование (овощной пакет):
Огурцы — 2–3 шт.
Редис — 6–10 шт.
Зелёный лук — 1 пучок
Укроп — 1 пучок (опционально)
(Опционально) зелень/петрушка по допуску
Охлаждающая рабочая жидкость (выбрать тип топлива):
Квас — 1–1.5 лили кефир/айран — 1–1.5 л (можно разбавить водой 1:1)
Смазка и регулировочные материалы:
Сметана — 2–4 ст. л.
Горчица — 1–2 ч. л. (опционально)
Хрен — 1 ч. л. (опционально)
Соль, перец — по техусловиям
Кастрюля (для термообработки узлов)
Нож, доска
Тёрка/давилка (для лука, по желанию)
Большая миска (сборочный стапель)
Ложка/лопатка (для перемешивания)
Холодильник (камера предварительного охлаждения)
Картофель: отварить “в мундире” до готовности, охладить, очистить.
Яйца: сварить вкрутую (около 10 минут после закипания), охладить, очистить.
Нарезать кубиком:
картофель,
яйца,
мясной модуль,
огурцы,
редис (можно полукружьями — допускается).
Зелёный лук и укроп мелко нашинковать.
В сборочную ёмкость (миску) загрузить:
картофельный блок,
яйценесущий модуль,
мясной модуль,
огуречно-редисный пакет,
зелёный лук и укроп.
Добавить соль и перец. Выполнить сухую предварительную протяжку (перемешать).
Ввести сметану как смазочно-уплотнительный материал.
При необходимости установить опции:
горчица (режим “бодрый запуск”),
хрен (режим “повышенная тяга”).
Залить выбранную рабочую жидкость:
квас (классическая конфигурация),
или кефир/айран (молочная комплектация).
Перемешать до однородности, проверить “ход” (вкус). При необходимости:
досолить,
добавить жидкости для нужной вязкости/плотности.
Отправить агрегат в холодильник на 20–40 минут для стабилизации системы.
Подать в порционных ёмкостях.
Эксплуатация допускается с дополнительным охлаждением (лёд) при экстремальной жаре.
Не затягивать с хранением: оптимальная работа агрегата — в день сборки.
Не перегружать горчицей на первых испытаниях — возможен несанкционированный “форсаж”.
При использовании магазинного кваса выбирать несладкий, иначе агрегат уйдёт в режим “компот”.
Модели неплохо справились с задачей и превратили рецепт окрошки в инструкцию по сборке трактора. Честно говоря, ответ 5.2 впечатлил больше всего - охх уж этот энтузиазм. Версия 5.1, на мой взгляд, слишком строго придерживался структуры с пунктами (1.1–7.2) и какая-то сухая. Балл отдаю 5.2!
OpenAI пишут, что 5.2 работает с таблицами на 9,3% лучше, чем GPT-5.1. Пусть небольшой, но прирост. Давайте затестим!
В этом тесте мне больше всего понравилась 5.2, хотя и 5.1 справилась с заданием, но больше похоже на набор квадратиков, кое где даже цифры стоят на границе, есть и пустые квадраты. А кого бы выбрали вы?
Не будем давать создание типичного калькулятора или змейки. Пусть будет 55-ая задача на динамическое программирование с LeetCode.
Промпт:
Первое, что бросается в глаза - ответ 5.2 снова наименее подробный. Описание самого алгоритма поверхностное в сравнении с 5.1, однако все-таки объясняет почему он работает. А если говорить про код, то 5.2 представил его более лаконичным в сравнении с 5.1. Конечно, это не Opus или Sonnet, но все же.
По данным OpenAI, стоимость выросла примерно на сорок процентов по сравнению с предыдущей версией. В режиме Thinking цена составляет 1.75 доллара за миллион токенов на входе и 14 долларов за миллион токенов на выходе. Это выше, чем у GPT-5.1, но ниже стоимости того же Gemini 3 Pro и, по сути, сопоставимо с позиционированием модели в сегменте премиум.
Да, очень круто, что ребята на рынке конкурируют между собой и заставляют друг друга двигаться дальше. Тем не менее, после тестирования появилось мнение, что при таком ажиотаже результаты GPT‑5.2 могли быть и лучше. Будто стоило дать возможность OpenAI доработать эту модель до 5.5. Но модель вышла и вот она тут. Время покажет, как она приживется в наших повседневных проектах, и на мой взгляд, GPT-5.2 значительно выше предшественника.
В конце хочется напомнить, что нейросетям всё ещё рано безоговорочно доверять. Они ошибаются, фантазируют и иногда удивляют не в ту сторону. Они неплохи, но только как помощники, не более.
Поэтому доверяйте, но проверяйте. И не забывайте, именно вы направляете всё это в нужное русло!
Спасибо за прочтение! А что вы думаете насчет новой модели и какие сильные стороны смогли выделить для себя?
Источник


![[Перевод] Поговорим об основах машинного обучения](https://mexc-rainbown-activityimages.s3.ap-northeast-1.amazonaws.com/banner/F20250806143935710fjLhu90Kl0ipEV.png)