В мире искусственного интеллекта есть исследования, где достаточно нескольких страниц, чтобы понять – это нечто особенное. Engram от DeepSeek – именно такое.
С новой моделью на подходе это может служить доказательством, что их грядущий флагман будет уникальным не только благодаря превосходным характеристикам, но и потому, что он принципиально отличается от существующих подходов.
Этот новый тип моделей не просто многообещающий – он способен полностью переосмыслить слой памяти, а вместе с ним открыть новые перспективы для целого ряда неожиданных публичных компаний.
Ждёт ли нас ещё один «момент DeepSeek», подобный прошлогоднему?
Эти размышления основаны на материалах TheWhiteBox, где я объясняю ИИ с позиции первых принципов для тех, кто невосприимчив к хайпу, но жаждет знаний. Для инвесторов, руководителей и энтузиастов.
Если коротко, DeepSeek представила новую архитектуру, Engram, использующую метод быстрого извлечения данных, чтобы модели не приходилось «имитировать извлечение через вычисления».
Если это звучит непонятно – не беспокойтесь, так и должно быть. Чтобы полностью осознать суть разработки DeepSeek, нам сперва нужен механистический подход: визуализация того, как именно Transformer (основа всех современных моделей) формирует предсказания. И это удивительно красиво.
Эмбеддинг – это представление реальной концепции. Любопытно, что эти концепции выражаются не текстом, а числами (ИИ-модели работают на классических компьютерах, которым требуется цифровое представление).
Компонент под названием токенизатор разбивает текст на слова и слоги, преобразуя каждый фрагмент в набор чисел. Эти фрагменты называются «токенами».
Каждый эмбеддинг – буквально список чисел – можно представить как сжатый перечень атрибутов базовой концепции. Эмбеддинги окружают нас повсюду: не только в ИИ, но и в рекомендательных или поисковых системах.
Их задача – поместить каждую концепцию в «пространство эмбеддингов», где действует «принцип схожести»: похожие реальные концепции получают похожие векторные представления. Потерпите ещё немного.
В этом пространстве каждое число – это измерение, или признак. Например, с одним измерением можно классифицировать еду по степени её «сэндвичности».
Чем больше измерений, тем точнее классификация. С тремя измерениями уже легко отделить «яблочный штрудель» и «борщ» от остального, добавив параметры «десертности» и «жидкости»:
Суть в том, что для ИИ – системы, лишённой «неявного знания» из-за невозможности испытать мир – «пицца» и «хот-дог» ближе друг к другу, чем к «борщу», а также явно не являются десертом.
Этот принцип схожести – способ различения для ИИ. Всё строится на относительности. Не «пицца – это x», а «пицца похожа на это и непохожа на то».
Поэтому когда пользователь просит предложить десерт, «яблочный штрудель» с большей вероятностью станет предсказанием – у него атрибут «десертности» выражен сильнее остальных вариантов.
Это важно понимать, поскольку здесь кроется тонкое объяснение механизма предсказаний (что пригодится нам позже).
Теперь, когда мы знаем базовую семантическую единицу ИИ-моделей – эмбеддинг, – можно понять, что делают с ними модели вроде ChatGPT.
Ответ прост: векторные преобразования.
Вернёмся к предыдущему изображению. «Хот-дог» и «шаурма» имеют ноль по «жидкости» и «десертности» и разные значения «сэндвичности» – потенциально представляясь в пространстве эмбеддингов как [0,3,0] и [0,4,0].
Если пользователь спрашивает: «Дай мне еду, похожую на хот-дог», а модель в этом игрушечном примере знает только элементы с картинки выше, она предскажет «шаурму».
Ключевой момент: поскольку оба элемента выражены векторами, модель может математически «перейти» от одного к другому.
Иными словами, когда модели нужно найти ближайший элемент к «хот-догу», она легко определяет «шаурму» как самый близкий вариант – «яблочный штрудель» и «борщ» практически ортогональны. «Пицца» и «салат» в этом трёхмерном пространстве окажутся близки к [0,0,0], поскольку не соответствуют ни одному из трёх атрибутов.
И что это означает? Эта векторная композиционность – буквально то, что позволяет модели делать предсказания, создавая новые концепции через комбинацию существующих.
Например, добавление векторного эмбеддинга «красный» к «пират» даёт «красного пирата». Или возьмите «король», вычтите «мужчина», добавьте «женщина» – получите «королева».
Это означает: как только концепция представлена списком атрибутов, модели могут модифицировать эти атрибуты с помощью векторных эмбеддингов, создавая новые версии концепции или совершенно новые сущности, которые модель распознаёт как семантически близкие благодаря схожим векторам.
То есть всякий раз, формируя предсказание и возвращая слово, ChatGPT делает именно то, что я описал: последовательно обновляет атрибуты векторного эмбеддинга, который «становится» новым словом.
Но что нужно ChatGPT для предсказания? Как модель определяет, какие преобразования выполнить? Две вещи: контекст и память.
Не буду повторяться – недавно я подробно объяснял это здесь, но суть в следующем: Transformers, базовая архитектура ChatGPT или Gemini, работает как «сборщик знаний».
У неё два механизма: один анализирует последовательность (для сбора контекста), другой – знания модели (для извлечения памяти). По сути, модель задаёт себе два вопроса:
«Какую информацию содержит последовательность пользователя?»
«Какие внутренние знания могут мне помочь?»
Эти «вопросы» воплощены в виде «слоёв»: слой внимания для контекста и слой MLP для знаний модели. Пара таких слоёв образует «блок Transformer».
Вектор, который мы преобразуем (всегда последний предсказанный токен или последний токен в заданной последовательности), проходит через цепочку блоков, постепенно обогащаясь новой информацией – как на уровне последовательности (что говорит контекст?), так и из знаний модели (встречалось ли нечто подобное раньше?)
В нашем примере с пиратом во фразе "Красный пират" слово «пират» обращает внимание на «красный», впитывает атрибут красноты и становится «красным пиратом».
Интуитивно этот процесс можно представить как лепку из глины.
Модели задают вопрос: «Какая ещё форма популярна помимо куба?»
Для предсказания следующего слова модель работает со словом «куб». Представьте, что она начинает с глиняного куба.
За несколько слоёв модель придаёт фигуре новую форму, не обязательно зная заранее, какой она будет, добавляя информацию на основе вопроса пользователя и собственных знаний о формах. Образно говоря, модель сглаживает рёбра для округлой формы.
Эта «новая форма» – сфера – семантически близка к исходной (кубу), так что она достаточно хороша для запроса пользователя. Поэтому выходит слово «сфера».
Это повторяется десятки раз в крупных моделях (современные большие языковые модели – в основном цепочки блоков Transformer), «давая модели время» и достаточно вычислительной мощности для необходимых преобразований векторного эмбеддинга.
Это одна из ключевых причин превосходства больших моделей: они допускают больше преобразований, то есть больше «сбора знаний».
Вернёмся к исходному примеру: «Дай мне еду, похожую на хот-дог». Модель получила слово «хот-дог» и должна найти ближайшую вещь. В игрушечном примере ей требуется лишь минимальное преобразование для перехода к «шаурме» (слегка убавить «сэндвичность»).
Итог: модели определяют следующее предсказание, беря вектор последнего слова и обновляя его информацией из предыдущих слов последовательности и собственных внутренних знаний. Формируя предсказание на основе контекста и памяти.
Судя по вашему опыту с ChatGPT, это работает потрясающе, но удивительно неэффективно.
Чтобы понять почему, обратимся к предшественнику Transformer: n-граммным моделям, которые не только объясняют неэффективность Transformers, но и критичны для сегодняшней темы.
N-граммная модель – тип модели естественного языка, использующий предыдущие «n» слов для предсказания следующего.
2-граммная модель использует только предыдущее слово
3-граммная – два предыдущих слова
N-граммы хранят комбинации и их частоты в таблицах, выученных при обучении, и просто извлекают их динамически.
Если это звучит смутно знакомо – да, Большие языковые модели (LLM) вроде ChatGPT делают нечто подобное: они ведут себя как «бесконечность-граммы», анализируя все предыдущие слова для нового предсказания, но вычисляют вероятности динамически вместо извлечения из таблицы.
То есть:
N-граммы локальны (учитывают лишь комбинации нескольких слов), но извлекают эти комбинации мгновенно без явных вычислений,
LLM глобальны (могут учитывать потенциально бесконечное число слов), но вынуждены вычислять даже простейшие отношения слов.
Почему это важно? Рассмотрим простой пример. Слова «Александр Македонский» явно образуют более сложную концепцию, относящуюся к легендарному царю.
С 3-граммной моделью можно мгновенно извлечь эмбеддинг, суммирующий всю концепцию, из таблицы, тогда как Transformer должен «выяснить» концепцию в реальном времени, а не извлечь её из предвычисленного состояния.
Иными словами, Transformer вынужден выполнять упражнение по сбору знаний каждый раз, хотя эти три слова вместе всегда отсылают к одной сущности – легендарному Александру Македонскому.
Как прекрасно резюмируют исследователи DeepSeek, Transformer LLM, то есть все LLM, «неэффективно имитируют извлечение через вычисление».
Это значит, они достигают результата с картинки выше, но вынуждены выполнять упражнение каждый раз вместо прямого извлечения из памяти, что порождает вопрос: почему бы не смешать оба подхода?
И это, дорогой читатель, именно то, что сделал DeepSeek.
Как я говорил, хотя Transformers – сборщики знаний, способные извлекать информацию из памяти, они не могут делать это мгновенно и вынуждены пересчитывать концепцию «Александр Македонский» снова и снова, несмотря на явно извлекаемую (или запоминаемую) природу связи.
Это как если бы вам приходилось каждый раз рассуждать, что Париж – столица Франции, вместо простого извлечения из памяти. LLM могут это помнить, но должны пройти через «процесс воспоминания» («Париж звучит по-французски, там Эйфелева башня, значит это столица Франции» вместо мгновенного «Париж → Франция»).
И Engrams приходят это исправить.
Ирония в том, что предложение DeepSeek не столь революционно – это во многом здравый смысл и нечто, исследуемое ранее, например, в n-grammers.
N-grammers действительно предлагали связать n-граммы с Transformers, но работают на разных уровнях абстракции (с латентными представлениями, напрямую с эмбеддингами), что не то, что делает Engram, как вы сейчас увидите.
Идея – добавить модуль «Engram» к некоторым блокам Transformer. По сути, это просто модуль n-грамм, принимающий слова входной последовательности парами и тройками и извлекающий их из таблиц n-грамм.
Цель та, что упоминалась ранее: извлечение известных фактов или концепций из памяти без пересчёта на лету. Если известно, что «Александр Македонский» и так будет идентифицирован моделью как единая сущность, почему бы не сохранить эту связь и не извлечь её мгновенно?
По сути, как люди мгновенно извлекают «предвычисленные» факты, так и Engram может решить в процессе работы, извлечь ли факт через вычисление или просто выбрать из памяти.
Engram включает механизм «гейтинга», проверяющий полезность извлечённой памяти. Если модуль engram извлекает «яблоко» как фрукт, а речь о компании «Apple», память отбрасывается – как люди извлекают неверные воспоминания, но осознают и исправляют ошибку.
Результаты впечатляющие – неудивительно при такой логичности предложения – модель Engram превосходит стандартный Transformer почти по всем метрикам при том же размере.
Тем не менее это поразительный результат, поскольку архитектурные изменения редко бывают столь убедительно лучше предыдущего подхода.
Но Engram обладает рядом особенностей, делающих её ещё уникальнее, выходя за рамки чисто программных решений.
Пока весь мир обсуждает революцию Engram от DeepSeek, вы можете уже сейчас получить доступ к этим и другим передовым моделям без барьеров.
BotHub предоставляет доступ к современным AI-моделям.
Для доступа к сервису не требуется VPN, и можно использовать российскую карту.
Не ждите, пока DeepSeek станет мейнстримом – начните экспериментировать прямо сейчас.
Первый значимый результат, который нельзя недооценивать – превосходство архитектуры Engram для длинных последовательностей. Простым языком, Engram лучше работает с длинными последовательностями, что означает более качественное распознавание глобальных паттернов.
Причина: поскольку модель теперь извлекает локальные зависимости напрямую из памяти (не обрабатывая «Александр Македонский» как единую сущность, а просто извлекая), она может выделить вычисления на более глобальные паттерны, необходимые для обработки длинных последовательностей.
Проще говоря, оператор уровня последовательности, механизм внимания (вопрос «каков мой контекст?»), может разумнее распределять вычисления на интересные глобальные паттерны вместо попыток вспомнить каждый локальный паттерн вроде имён, используя те же вычисления.
Это не только интуитивно, но и наблюдаемо. Используя два метода схожести – LogitLens (слева) и карты CKA (справа и в центре) – мы видим, что ранние слои модели Engram очень похожи на глубокие слои стандартного Transformer.
Что это означает?
Вспомним: слои – это шаги сбора знаний, добавляющие информацию как на уровне последовательности, так и из знаний модели к эмбеддингу, который мы «формируем» в новое предсказание, причём каждый слой вносит свою лепту.
Интересно, что ранние слои Engram довольно похожи на глубокие слои стандартного Transformer, что означает: модель Engram быстрее приходит к предсказанию. В терминах ИИ это ближайший способ описать модель как «умнее на единицу размера» по сравнению с другой.
Как умные люди отвечают быстрее, так и Engram.
Но у Engram есть, возможно, ещё более интересный аспект: влияние на базовое оборудование.
В ИИ мы постоянно говорим о вычислениях, но память не менее важна. А может, и важнее.
Как в любом компьютере архитектуры фон Неймана, вычисления и память разделены. Следовательно, для вычислений данные должны перемещаться в память и из неё, что занимает время.
Поэтому пропускная способность памяти, или скорость, становится критичной для производительности. По этой причине, хотя ИИ-системы имеют четыре уровня памяти (память на чипе (SRAM), память GPU (HBM), память CPU, флеш-хранилище и диск), ИИ работал в основном только с SRAM и HBM – остальные уровни полностью избегались из-за медлительности, если не было крайней необходимости.
Уровни памяти идут от меньшего к большему и от быстрого к медленному: SRAM – самая быстрая, но с минимальной ёмкостью, диск – самый медленный, но с максимальной. Поскольку скорость памяти – узкое место, ИИ был в основном только SRAM/DRAM.
Это вызвало массовый спрос на HBM-память, во многом объясняя взлёт акций трёх компаний, способных производить HBM: Sk Hynix, Samsung и Micron.
Не углубляясь в детали, кеш в итоге переполняется в память CPU, которая всё ещё DRAM (но медленнее – в основном LPDDR вместо HBM, что объясняет решение NVIDIA начать указывать спецификации памяти термином «быстрая память», включающим память и GPU, и CPU (последняя также известна как «хост-память»).
Однако два других типа памяти, известные как хранилище, всё ещё в основном игнорируются из-за медлительности (флеш-память иногда используется для частей кеша в очень жёстких настройках).
Но суть в том, что Engram, возможно, сделала все уровни памяти помимо HBM гораздо привлекательнее и релевантнее. Поскольку доступ к n-граммам следует распределению Ципфа (некоторые n-граммы вроде «Александр Македонский» используются чаще других), редко используемые n-граммы можно хранить в быстром хранилище без серьёзного штрафа (всего >3% накладных расходов).
Остаётся вопрос практичности. Если скорость памяти – узкое место, хорошо ли переносить рабочую нагрузку больше в область памяти?
Хорошая новость: это извлечение детерминистично (мы знаем, какие слова извлекать из памяти с самого начала), поэтому можем (и делаем это) перекрывать извлечение с первыми частями вычислений модели. То есть предварительно извлекаем n-граммы, пока модель вычисляет другое, объясняя малый штраф быстрого хранилища.
Что это означает?
Просто: если Engram станет общим архитектурным решением для LLM, что, я считаю, произойдёт, быстрое хранилище (флеш-память) только что стало инструментом прогресса, превращая ещё один уровень памяти и компании-производители в полноценных «ИИ-игроков».
Угадайте, чьи акции показали лучшую динамику в 2025 году? Это был Sandisk, ведущий производитель флеш-памяти.
А исследование DeepSeek только улучшает перспективы Sandisk и других флеш-компаний, так что я не стал бы ставить против них и в этом году (хотя считаю, что конкретно эти акции могут быть перекуплены).
В ИИ – науке настолько экспериментальной, что некоторые не считают её наукой – мы привыкли видеть работающие вещи, не понимая почему.
Поэтому освежает исследование, кажущееся «очевидным» после первых страниц.
ИИ сегодня всё ещё пробивается вперёд грубой силой, делая правильно, но неэффективно.
Они имитируют выходы наших мозгов, но без элегантности и эффективности, характеризующих мозговые процессы.
Поэтому, видя исследование, которое отмечает это и говорит: «смотрите, некоторые вещи можно сохранить и избежать пересчёта каждый раз», невозможно не подумать: «как это не было реализовано до сих пор?»
Но больше всего беспокоит то, что, опять же, сигнал пробуждения приходит из Китая. И это уже двадцатый раз, когда я пишу эти слова за последний год.
В плане эффективности Китай – король.
Позвольте спросить вновь: как долго мы будем притворяться, что деньги, вычисления и энергия бесконечны, западные коллеги?
Источник


