БиржаDEX+

Купить крипто Рынки Спот ФьючерсыGOLD Сбережения Центр событий

Еще

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фуРебята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фу

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Автор: ProBlockChain

Источник: ProBlockChain

2026/03/02 05:36

2м. чтение

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.

Суть метода: Я заменил стандартный механизм внимания на нативную геометрию исключительной группы Ли Е8. Вместо того чтобы заставлять модель угадывать связи, я дал ей идеальную 8-мерную решетку для упаковки семантических векторов.

Что это дало (пруфы в студию):

Архитектура: Lila-E8, всего 40 млн параметров.
Результат: На TinyStories мы пробили 0.37 Train Loss и удерживаем 0.44–0.53 Validation. Для сравнения: это чище, чем у 60М-модели от Microsoft.
Контекст: 750+ токенов без единого зацикливания(и это при размере контекстного окна 512). Модель не «плывет» и не сходит с ума на длинных рассказах.

Реальные цифры: Loss 0.37 — это не шутка. Это точка, где математика превращается в интеллект.

Почему это работает?

Стандартный аттеншн создает «трение» в латентном пространстве. Решетка обеспечивает самую плотную упаковку сфер в 8 измерениях. Это сводит информационную вязкость к минимуму. Модель не зубрит — она резонирует со структурой языка.

Код на GitHub, веса и Colab для проверки — всё в открытом доступе (AGPLv3).

Github

Notebook

В то время как классические трансформеры (например, NanoGPT) полагаются на грубую статистическую силу и огромные матрицы весов для аппроксимации языка, E8-former использует фундаментальную симметрию Вселенной — исключительную группу Ли E8.

Lila-E8 (Lie Lattice Attention Language Model) — это экспериментальная модель глубокого обучения, которая исследует интеграцию фундаментальной математической структуры, а именно симметрий системы корней E8, в архитектуру трансформера.

В отличие от традиционных моделей, опирающихся исключительно на статистические корреляции, E8-Transformer стремится использовать глубокие геометрические принципы для создания более эффективных, интерпретируемых и ресурсосберегающих языковых моделей. Этот подход направлен на развитие концепции "геометрического сознания" в ИИ, где понимание языка осуществляется через структурные и симметричные отношения.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Быстрое чтение

Еще

BEEG-BTC Разбивка корреляции 2026: намечает ли синий кит свой собственный курс?

Цены на нефть превысили 80 долларов: геополитический шок или начало сырьевого суперцикла? (Углубленный анализ за март 2026 г.)

Бывший президент Ирана Ахмадинежад убит в результате забастовки: анализ рынка биткоина, золота и серебра

Израильский удар по Ирану вызывает Crypto Crash: Bitcoin упал до $63K с $100M ликвидированы за 15 минут

Самая высокая доходность стабильной монеты 2026 года Сравнение CEX: Binance, OKX, Bybit, Bitget Deep Dive - плюс недооцененная платформа, побеждающая их всех

Цены на криптовалюту

Биткоин

BTC

$66,789.10

$66,789.10$66,789.10

-0.07%

Эфириум

ETH

$1,971.74

$1,971.74$1,971.74

-1.07%

Солана

SOL

$84.45

$84.45$84.45

-1.41%

Рипл

XRP

$1.3693

$1.3693$1.3693

-0.68%

Tether Gold

GOLD(XAUT)

$5,334.1

$5,334.1$5,334.1

-0.13%

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Вам также может быть интересно

AI Red Teaming: спор с Grok — Часть 4. От атаки к защите: как результаты red team улучшили мой продукт

AI Red Teaming: спор с Grok — Часть 3. Атаки на модель: jailbreaks, thinking tokens и системный промпт

AI Red Teaming: спор с Grok на месяц рекламы — 12 часов, 61 уязвимость, root в Kubernetes

Популярные новости