Новые нейросети появляются на свет с пугающей скоростью. И речь не только о крупных гигантах вроде OpenAI – на арену выходят десятки моделей, которые можно запуНовые нейросети появляются на свет с пугающей скоростью. И речь не только о крупных гигантах вроде OpenAI – на арену выходят десятки моделей, которые можно запу

Какая нейросеть лидирует в генерации кода сейчас? ChatGPT vs Gemini vs Claude

2026/03/10 21:12
11м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Новые нейросети появляются на свет с пугающей скоростью. И речь не только о крупных гигантах вроде OpenAI – на арену выходят десятки моделей, которые можно запустить локально у себя на компьютере.

На моем счету уже есть статьи, в которых я не раз сталкивал лбами разные ИИ. Но из всех узконаправленных сравнений моя самая любимая сфера – без сомнения, программирование.

Игроки первого эшелона – Anthropic, OpenAI и Google – не так давно подкинули нам новые версии своих моделей. Конечно, многие ждали выхода новой DeepSeek, но, к сожалению, чуда не произошло. Поэтому в сегодняшнем материале мы сосредоточимся на доступных нам флагманах.

В сегодняшней статье я сравню последние флагманские модели от ИИ-гигантов в кодинге. Не обещаю, что задания сами по себе будут сложными, но по крайней мере постараюсь, чтобы они ранжировались по возрастанию трудности их выполнения. Принимайте стратегически удобное положение, ну а я начинаю!

2b29d236823fb4889f1e59bcde106d4b.png

Немного об участниках сравнения

ChatGPT 5.4

Модель от OpenAI, которая по представленным бенчмаркам показывает хорошие результаты во многих тестах. Новая серия привнесла ряд важных улучшений.

Для начала модель гораздо лучше ищет информацию в интернете и лучше справляется с ответами на объединенные вопросы из множества источников. Не будем забывать, что контекстное окно было увеличено до 1 миллиона токенов.

Компания проработала и улучшила базовые способности модели, но и сделала акцент на агентный режим. GPT-5.4 может анализировать скриншоты, пользоваться браузером, выполнять действия мышью и клавиатурой, вызывать API и инструменты. Понятное дело, не напрямую, через специальное ПО.

Claude Opus 4.6

Anthropic при разработке этой модели стремилась создать инструмент, который будет максимально полезен в условиях реальной промышленной эксплуатации. Claude Opus получил ряд глубоких обновлений, которые касаются не только скорости обработки запросов, но и самой логики построения ответов.

Одной из центральных инноваций в новой версии стала технология внутреннего планирования. В отличие от прошлых итераций, Opus теперь не просто генерирует слово за словом, а выстраивает предварительную карту рассуждений. В задачах модель сначала проведет внутреннюю верификацию каждого этапа.

Если рассматривать опыт использования модели в разработке программного обеспечения, то здесь обновленный Opus делает серьезный шаг вперед. Благодаря контекстному окну объемом полтора миллиона токенов, вы можете оперировать не отдельными фрагментами, а целыми модулями системы. Это позволяет загрузить в память нейросети практически всю кодовую базу небольшого проекта.

Gemini 3.1 Pro

Google не стал мелочиться и назвал Gemini 3.1 Pro своей самой интеллектуальной моделью для сложных задач. Звучит достаточно гордо.

Главная фишка апдейта – это улучшенное базовое мышление. Если прошлые обновления Gemini 3 Pro были больше про расширение возможностей, то здесь инженеры Google DeepMind занимались прокачкой внутреннего процессора модели.

Фактически технология глубокого мышления, которую на добавили в отдельный режим, теперь интегрирована прямо в основу модели. Это значит, что 3.1 Pro умеет думать над задачей дольше и качественнее, прокладывая несколько путей решения одновременно, а потом выбирая лучший.

Контекстное окно у модели, все так же 1 миллион токенов на входе. На выходе модель выдает до 64 тысяч токенов. То есть она способна сгенерировать целую небольшую повесть или очень объемный кусок кода.

Разработчики утверждают, что 3.1 Pro специально оптимизирована для задач программирования и агентных рабочих процессов. Это когда вы даете ей не один запрос, а целую цепочку задач.


Небольшое отступление

Все модели для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен – от работы с текстом до транскрибации и генерации видео. По специальной ссылке для регистрации можно получить 300 000 капсов для собственных экспериментов.


Условия тестирования

Сравнение не будет проходить на каких-то задачах сложного уровня. Грубо говоря, тут не появятся поэтапные многоэтажные проекты из 101 файла.

Модели пройдут через задачи разного уровня сложности. Всего их будет 4: от легкого до сложного. Каждая задача будет оценивать от 1 до 5 баллов. При этом только лучший из представленных вариантов может получить максимальный балл, а для всех других – 4. В оценивание входит не только сам функционал, но и, конечно же оформление, если оно есть.

Первое задание

Скрытый текст

Создай десктопное приложение "Инженерный калькулятор" на Python с использованием библиотеки Tkinter. Весь код должен находиться в одном файле. Интерфейс программы представляет собой сетку кнопок, включающую цифры от нуля до девяти, базовые арифметические операции сложения, вычитания, умножения и деления, а также функции возведения в степень, извлечения квадратного корня, тригонометрические функции синуса, косинуса и тангенса, кнопку сброса и знак равенства, а также поле для ввода и вывода чисел. Логика работы калькулятора должна обеспечивать корректную обработку нажатий кнопок и вычисление результата при нажатии на равно, причем для математических функций необходимо задействовать модуль math. Справа от основного блока кнопок требуется разместить текстовое поле для отображения истории последних десяти-двадцати выполненных операций в формате "2 + 2 = 4", при этом история должна сохраняться только в памяти в течение текущей сессии работы с программой. Также необходимо предусмотреть обработку ошибок, таких как деление на ноль или некорректные вводы, с выводом сообщения "Error" в поле результата.

Второе задание

Скрытый текст

Разработай текстово-графическую RPG-игру на Python с графическим интерфейсом на базе Tkinter, умещающуюся в один файл и сфокусированную на выборе и развитии персонажа. При запуске приложения пользователь попадает на экран создания персонажа, где ему предлагается выбрать одну из рас, например человека, эльфа или орка, причем каждая раса обладает уникальными стартовыми характеристиками в виде силы, ловкости и интеллекта, которые отображаются при наведении или выборе варианта, а также здесь присутствует поле для ввода имени героя. После создания персонажа открывается основное игровое окно, разделенное на несколько функциональных зон: текстовый лог в виде многострочного текстового поля для описания событий, набор кнопок действий, таких как "Исследовать", "Сражаться", "Отдохнуть" или "Инвентарь", и панель статуса с отображением текущих показателей здоровья, уровня и характеристик. Игровая механика включает простую систему событий: кнопка "Исследовать" генерирует случайное событие вроде находки золота, встречи с врагом или обретения зелья, а кнопка "Сражаться" запускает симуляцию боя с простым расчетом урона на основе силы противника и персонажа, при этом результат каждого действия выводится в текстовый лог. Для визуального разнообразия используется холст Canvas для отображения простого спрайта персонажа или противника в виде закрашенной фигуры, которая меняет свой цвет в зависимости от происходящего события, например красный для боя и зеленый для отдыха.

Третье задание

Скрытый текст

Напиши полноценную игру "Арканоид" на Python с использованием библиотеки Pygame, причем весь игровой движок и интерфейс должны быть реализованы строго в одном файле. При запуске игры пользователь видит графическое меню с пунктами "Новая игра", "Выбор уровня", где доступны как минимум уровень первый и уровень второй, и "Выход". Сама игровая механика соответствует классическому геймплею: внизу экрана располагается платформа, летает шарик, а вверху находятся разрушаемые кирпичи, при этом шарик должен физически корректно отскакивать от стен, платформы и кирпичей, а кирпичи исчезать при столкновении с ними, и если шарик касается нижней границы экрана, игрок теряет жизнь или проигрывает. При разрушении некоторых кирпичей со случайной вероятностью должны выпадать и подбираться платформой различные бонусы, такие как увеличение платформы, замедление шарика или его умножение, причем достаточно реализовать хотя бы два различных типа бонусов. Уровни должны быть реализованы как минимум в двух различных вариациях, отличающихся расположением кирпичей и, возможно, появлением более прочных кирпичей, требующих нескольких попаданий. В процессе игры на экране необходимо отображать текущий счет и количество оставшихся жизней игрока.

Четвертое задание

Скрытый текст

Создай симулятор эволюции организмов на Python с использованием библиотек Pygame и NumPy в рамках одного файла, причем эта задача включает элементы машинного обучения в виде простой нейросети и генетического алгоритма. Основная концепция заключается в том, что на экране существуют существа в виде кружков, которые пытаются выжить, поедая еду в виде зеленых квадратов, причем у каждого существа есть свой мозг – простая нейросеть, например с несколькими входами, одним скрытым слоем и двумя выходами для управления поворотом и движением. Каждое существо обладает уникальным геномом, представляющим собой веса его нейросети, который передается потомкам с некоторыми мутациями, а в качестве входных данных для нейросети используется зрение существ, то есть вектор направления и дистанция до ближайшей еды. Движение существ должно тратить их энергию, а поедание еды - восполнять ее, и когда уровень энергии достигает определенного порога, существо клонируется или размножается, передавая свой геном с мутацией, а если энергия падает до нуля, существо умирает. На экране должна отображаться вся динамика процесса с помощью Pygame, включая движущиеся существа и периодически появляющуюся еду, а также должен присутствовать простой график или счетчик, показывающий текущее поколение и статистику вроде максимального или среднего возраста существ. Для удобства наблюдения пользователь может нажимать пробел, чтобы ускорять или замедлять симуляцию. Ключевая цель этой симуляции состоит в том, чтобы со временем, в ходе эволюции, существа научились находить еду более эффективно, чем их первые поколения.


Сравнение

Первое задание

ChatGPT 5.4

40a3c9f682257175818b0b28898e379a.png

Обычный калькулятор, со всеми работающими функциями. Дизайн не назвать феерическим. Чего-то выделяющегося в этом варианте, я, увы, не нашел. Четыре балла в копилку модели.

Gemini 3.1 Pro

ffd27114eb2fa6e9f9817fe590f85035.png

Изначально калькулятор выглядел как показано выше, то есть немного срезанным. В принципе, неприятно, но критичным это никак не назвать. Исправляется самостоятельно ручками менее чем за минуту.

19bcd7c594f4227e5e3394a9bcd7786c.png

Далее, в принципе, ничего особо отличающегося от результата ChatGPT тут нет. Единственное, пожалуй, дизайн. Gemini решил раскрасить пару кнопок. Опять же, четыре балла в копилку модели.

Claude Opus 4.6

9b65b0bf4b4345535e98e119b0807585.png

А вот Opus демонстрирует достаточно приятный результат. Для начала – функционал калькулятора. Здесь он немного, но все же больше, чем то количество, которое представлено нам другими участниками сравнения. В финале – сам дизайн, который, пожалуй, самый приятный из рассмотренных нами. Заслуженно максимальный балл.

Второе задание

ChatGPT 5.4

ebeb50f31a9c887327b750afa5922987.png4e384df10417516a5af9798498deba6a.png

Хоть и можно сказать, что задание ChatGPT выполнил, но поставить даже 4 балла за этот вариант я не могу. Дизайн – нулевой, никаких особенностей, ничего интересного. Дам три балла в копилку, но не более.

Gemini 3.1 Pro

c61d3f929992c20e8db8ce73d57a8446.png840bd77c3788aa961bf098bbae3f8504.png

Gemini показывает результат уже значительно лучше. Хотя, сам функционал или механики почти не отличаются от ChatGPT, но дизайн выглядит значительно приятнее глазу. Четыре балла в копилку модели.

Claude Opus 4.6

542bdd73ae000fb68fbdc6c166309d05.pngcd07ac3b4fac8ffd44b3bd8652c13503.png

Пожалуй, лучший вариант. Дизайн – мое почтение. Можно увидеть даже вашего персонажа, у которого в зависимости от событий меняется полоска здоровья. Максимальный балл в копилку модели.

Третье задание

ChatGPT 5.4

dac58b8d50a19490afd604058b68b1d9.png1ebd1da8450db2dd0281c6c5bfe5504b.png

На этот раз ChatGPT показывает достаточно хороший результат. Каких-то багов тут я не заметил. Как и говорилось в задании, есть два уровня, ранжированных по сложности. Бонус всего один - увеличение размера каретки. Четыре балла в копилку модели.

Gemini 3.1 Pro

0382c4852017f4e721408a977963119c.png94d3a0e0ec792a97539601f814398cca.png

Gemini показывает вариант получше, в плане дизайна. Да и по функционалу здесь больше бонусов, в остальном все так же. Четыре балла в копилку модели.

Claude Opus 4.6

7d90790876e6ffc32ded9da22178cb77.png0f24033a4e53bd0a54c10f9b90c01350.png

Opus опять же показывает лучший результат из имеющихся. Хороший дизайн, много бонусов. Тут уже максимальный балл.

На самом деле ожидал, что хотя бы одна модель допустит ошибку в уравнении для подсчета траектории мяча. Нейросети наоборот отлично справились с этим элементом игры, в отличие от предыдущего раза с прошлыми версиями рассматриваемых участников.

Четвертое задание

ChatGPT 5.4

9e8c820d8e1b7c336b9e728b07f9fc53.png

Нетипичное для меня задание, в принципе, я его в первый раз решил закинуть в модельку.

ChatGPT выполнил все условия, привел статистику на данный момент времени. Суть в том, что симуляция начинается с минимального количества существ, затем они начинают кушать и размножаться за этот счет. Не хватило еды? Смерть. Четыре балла в копилку модели.

Gemini 3.1 Pro

b295652526c7d883bad8aca82bf807cd.png276d66ad03e9f7ee6cef408ae0ec25bc.png

Gemini выдал похожий результат, но дорисовал траектории движения организмов. В обоих случаях со временем существа приходят к одной тактике - кружение на одном месте, а затем рывок к ближайшей еде, при ее появлении. Четыре балла в копилку модели, все же это не предел.

Claude Opus 4.6

f45abc54d30cc547135d102279591b95.png65e3e4606b047814b36d6e8c41f2c0cb.png

Opus опять же показывает максимально приятный и хороший результат. Во-первых появились графики, во-вторых сама статистика получила несколько новых параметров. В финале, у каждого организма появилась полоска здоровья. Максимальный балл в копилку модели.


Итог

ChatGPT 5.4

Gemini 3.1 Pro

Claude Opus 4.6

Первое задание

4

4

5

Второе задание

3

4

5

Третье задание

4

4

5

Четвертое задание

4

4

5

Сумма

15

16

20

Вот чего я не ожидал, так это увидеть Opus 4.6 на первом месте. Модель вышла не так давно, но потестить ее в разных задачах я уже успел. Результат в тех тестах мне не очень понравился, а тут, мое мнение о нейросети поменялось значительно.

Самой слабой моделью, по моему мнению, пожалуй, является ChatGPT 5.4. Мало того, что результаты генераций нельзя назвать лучшими, модель еще является самой дорогой из представленных в использовании.

Claude Opus 4.6 показал лучший результат, при этом его цена на самом деле средняя и не бьет так по карману, как вариант от OpenAI.

В финале Gemini 3.1 Pro показал себя как неплохой вариант, который показывает хороший результат за небольшую цену. По крайней мере, он вышел дешевле, чем две другие модели. Уровень генерации же на самом деле хватит за глаза в задачах уровня, который я рассматривал сегодня.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно