Самые интересные новости за неделю для практикующих инженеров: вайбкодер случайно получил доступ к 7 000+ пылесосам, вышли Sonnet 4.6 и Gemini 3.1 Pro, Haiku соСамые интересные новости за неделю для практикующих инженеров: вайбкодер случайно получил доступ к 7 000+ пылесосам, вышли Sonnet 4.6 и Gemini 3.1 Pro, Haiku со

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний

2026/02/25 15:45
6м. чтение

Самые интересные новости за неделю для практикующих инженеров: вайбкодер случайно получил доступ к 7 000+ пылесосам, вышли Sonnet 4.6 и Gemini 3.1 Pro, Haiku со скиллами обошла Opus без них, Claude Code Security и потеря $1,78 млн из-за кода от Claude.

Вайбкодер случайно получил доступ к 7 000+ роботам-пылесосам

У меня после прочтения этой новости сразу перед глазами следующая сцена:

4777ab8250bee09f0fda3dbbdbda124a.jpg

Аздуфаль — вайбкодер из Испании, по совместительству директор по AI-стратегии в компании Emerald State — решил научиться управлять роботом-пылесосом геймпадом от PS5. Взял Claude Code, зареверс-инжинерил протокол управления, написал приложение. Всё заработало. Но когда приложение было готово, оказалось, что он может управлять не только своим пылесосом, а ещё 7 000+ устройствами по всему миру.

Произошло это потому, что токен авторизации от одного конкретного пылесоса давал доступ к серверам DJI (да, тех самых DJI — я сам не знал, что они делают пылесосы), и через этот токен можно было получить информацию обо всех устройствах на платформе. Причём в 2016 году у DJI была похожая проблема с дронами: безопасность легко обходилась. По всей видимости, на своих ошибках они не особо учатся.

Отдельно интересно другое: каким образом он занимался реверс-инженирингом? Если попросить модель напрямую помочь со взломом ПО — она откажется. Но, как рассказывают, стоит сказать, что занимаешься этим в исследовательских целях или по заданию профессора — и модель с удовольствием продолжит.

Sonnet 4.6 и Gemini 3.1 Pro

На прошлой неделе состоялись два крупных релиза.

У Sonnet 4.6 появилось контекстное окно в 1 млн токенов (бета) — раньше это было только у Opus. В Claude Code пользователи выбирали 4.6 вместо 4.5 в ~70% случаев. Цена без изменений, повышена устойчивость к prompt injection.

3bc7635d89711510819dae5cb33d451f.png

Gemini 3.1 Pro — всё то же самое: бенчмарки выросли на несколько процентных пунктов, снова топ-1 по большинству параметров.

587dead1d0e6fa78b5ea6e0e70761025.png

Может, я бы даже не включал эти новости в текущий дайджест, но с хайпом на AI это сделать сложновато. При этом ощущение такое: в плане улучшения самих языковых моделей мы упёрлись в некоторый предел. В масштабе прошлого года изменения были значительные, но я думаю, что через год они будут уже не такими заметными. Сдвиг сейчас происходит в другую сторону — про это следующая новость.

SkillsBench: скиллы дают реальный буст, но только если их писал человек

Вот где сейчас реальный сдвиг — в инструментарии, которым пользуется модель. MCP, скиллы — всё это доказывает, что инструменты влияют на результат разительно.

Для тех, кто не в курсе: скиллы — это конкретные инструкции для модели, как решать определённую задачу. Не абстрактный промпт, а прямо пошаговое описание: как вызвать метод, как реализовать сервис, как работать с конкретной технологией.

Исследование провели масштабное: больше 100 экспертов, 86 задач из 11 доменов (не только программирование — медицина, финансы, маркетинг), больше 7000 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от самой модели и со скиллами от человека.

Два главных результата. Первый: модели сами для себя не умеют писать скиллы — эффект от человеческих скиллов кратно выше. Второй (это прямо вау): Haiku 4.5 со скиллами обогнала Opus 4.5 без скиллов. Самая маленькая и дешёвая модель Anthropic обошла самую большую — просто за счёт инструкций.

a07f12c38f508f97c15f4c1d9a51856a.png

Мы в Amplicode занимаемся разработкой Spring MCP — тулов, которые агент использует для написания кода на Spring сразу по лучшим практикам. Всю экспертизу, которую мы нарабатывали почти десятилетиями, упаковали в MCP-тулы. Бенчмарки планируем опубликовать в ближайшее время, но забегая вперёд — результаты соответствуют тому, что показывает SkillsBench.

Меньше двух недель до запрета иностранных слов в России

Речь про публичные рекламные активности предпринимателей и компаний. Иностранные слова можно использовать без перевода, только если они зарегистрированы как товарный знак или входят в один из четырёх нормативных словарей.

b3ea5c860fa563e6e91f271b3a4f9371.png

Слово «бэкэнд» в словаре есть, а «фронтэнд» — нет. Вот и думайте :D

Поддержка Clojure в OpenIDE

В маркетплейсе OpenIDE появились два плагина для Clojure: Clojure LSP и Clojure REPL. До этого уже было больше 400 плагинов, поддерживались Java, Kotlin, Python, Go, JavaScript, TypeScript. Теперь список пополнился, а в этом году планируется ещё и C#.

c567c7a6cf78b30f490ce633cd40dba9.png

Я после этой новости полез смотреть, что за язык. Оказалось, в России есть довольно большое комьюнити — в Телеграме больше тысячи человек. Clojure — язык от Рича Хики, где реализован подход транзитивной памяти: всё иммутабельно, но тебе не нужно за этим следить вручную. Из знаковых проектов — база данных Datomic. Если пишете на Clojure — напишите в комментариях, интересно, чем живёте.

Anthopic представили Claude Code Security

Anthropic представили Claude Code Security — инструмент для поиска уязвимостей, встроенный в Claude Code. В отличие от обычных статических анализаторов, которые ищут слитые пароли или устаревшее шифрование, здесь модель смотрит на систему целиком: как двигаются данные, что с ними происходит, и пытается выявить паттерны. При этом система сама себя челленджит — проверяет, что выдвинутое предположение действительно релевантно.

По заявлению Anthropic, с помощью Claude Code 4.6 нашли больше 500 уязвимостей в продакшн-коде открытых проектов. Многие из них оставались в репозиториях долгое время, и никто их не находил.

Попутно наткнулся на материал: физик проанализировала более 100 000 исправленных багов ядра Linux, и больше 20% из них оставались в репозитории дольше 5 лет. Огромная кодовая база, никто не будет вручную перечитывать код, не связанный с текущей задачей. Моделям же — в прикол этим заниматься.

d8dfebb2e8fad0586249006dc0e300a4.png

Но складывается ощущение, что цикл замыкается: раньше люди генерировали баги, другие люди фиксили. Сейчас модели генерируют баги — и модели же их фиксят. Вот конкретный пример: DeFi-протокол Moonwell потерял $1,78 млн из-за ошибки в коде, который написал Claude. Баг был тривиальный — отсутствовало умножение при вычислении стоимости криптоактива. Вместо 2 000 долларов система выдавала 2. Те, кто заметили дисконт, за минуты нанесли ущерб почти на 2 млн.

Claude Code Security пока доступен только B2B-клиентам Anthropic.

Стартап Taalas впаял нейросеть в кремний: 17 000 токенов в секунду

Двумя неделями ранее OpenAI выпустили GPT 5.3 Codex Spark, которая выдавала больше 1 000 токенов/с.

f28cc0432de8195100da931f82de3707.gif

Для контекста: обычные модели генерируют 60–100 токенов в секунду. А ребята из Taalas разместили нейросеть прямо на чипе с готовыми весами и получили 17 000 токенов/с. Попробовать самостоятельно можно тут: https://chatjimmy.ai

Прямо сейчас это, наверное, экономически нецелесообразно — модели эволюционируют быстро, чип с конкретной нейросетью устареет через месяц. Но сама технология перспективная. Когда модели перестанут сильно развиваться от версии к версии (а я думаю, это произойдёт), такие решения станут очередным толчком. А пока компания нарабатывает техническую экспертизу и клиентскую базу.

42505dc9d67835ffee88bf30b3a857ed.png

Уже сейчас OpenIDE позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram, чтобы не пропустить свежие обновления и полезные материалы.

Источник

Возможности рынка
Логотип Ucan fix life in1day
Ucan fix life in1day Курс (1)
$0.0006745
$0.0006745$0.0006745
+0.89%
USD
График цены Ucan fix life in1day (1) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.