Практическое применение и будущее LLM

1. Продвинутый промпт-инжиниринг: Chain-of-Thought и управление контекстом

На предыдущих этапах мы разобрали, как нейросети обучаются на огромных массивах данных и как тонкая настройка адаптирует их под конкретные задачи. Однако даже самая совершенная модель требует правильного управления. Мост между человеческим намерением и математическими весами нейросети — это промпт-инжиниринг (prompt engineering), или искусство составления запросов.

Промпт — это не просто текст, который вы вводите в чат. Это набор инструкций, контекста и ограничений, который направляет вероятностные вычисления модели в нужное русло. Понимание того, как модель обрабатывает этот ввод, позволяет решать сложные аналитические задачи, создавать автономных агентов и избегать фактических ошибок.

Управление контекстом и проблема «забывания»

Любая языковая модель имеет фундаментальное ограничение — контекстное окно (context window). Это максимальное количество токенов (фрагментов слов), которое модель может удерживать в своей «краткосрочной памяти» одновременно.

Если контекстное окно модели составляет 8 000 токенов, это примерно равно 6 000 слов или 15 страницам текста. Современные модели могут иметь окна размером до 1 миллиона токенов (целая библиотека книг), но размер — это еще не все. Возникает проблема, известная как феномен Lost in the Middle (потеря в середине).

Исследования показывают, что языковые модели отлично запоминают информацию, расположенную в самом начале промпта (системные инструкции) и в самом конце (последний вопрос пользователя). Однако факты, спрятанные в середине длинного текста, модель часто игнорирует или «забывает».

Для эффективного управления контекстом используются три базовых подхода:

Zero-shot prompting (Запрос без примеров). Вы просто ставите задачу. Подходит для простых и распространенных запросов. Пример: «Переведи слово 'яблоко' на французский».

One-shot prompting (Запрос с одним примером). Вы задаете формат ожидаемого ответа, показывая один эталонный пример.

Few-shot prompting (Запрос с несколькими примерами). Вы предоставляете 3–5 примеров решения задачи. Это временно «обучает» модель в рамках одного контекстного окна, не меняя ее внутренних весов.

Использование Few-shot радикально снижает вероятность галлюцинаций (выдуманных фактов), так как модель начинает опираться на паттерн, заданный в примерах, а не только на свои внутренние знания.

Chain-of-Thought: заставляем нейросеть «думать»

Архитектура Трансформеров устроена так, что на генерацию каждого следующего токена выделяется фиксированное количество вычислительных ресурсов. Если вы задаете сложную математическую или логическую задачу и требуете немедленного ответа, модель пытается выдать финальный результат за один шаг (один токен). Часто это приводит к ошибке.

Метод Chain-of-Thought (CoT, цепочка рассуждений) решает эту проблему. Суть метода заключается в том, чтобы заставить модель расписать промежуточные шаги перед тем, как выдать финальный ответ.

Представьте задачу: «У Пети было 5 яблок. Он отдал 2 яблока Маше, а затем купил в 3 раза больше яблок, чем у него осталось. Сколько яблок стало у Пети?»

Если использовать стандартный промпт, модель может попытаться угадать число сразу и ошибиться. Но если мы добавим в промпт волшебную фразу: «Давай рассуждать пошагово» (Let's think step by step), процесс изменится:

Модель вычисляет остаток: (где — исходное количество, — отданные яблоки, — остаток).

Модель вычисляет количество купленных яблок: (где первый множитель — остаток, второй — условие «в 3 раза больше», — новые яблоки).

Модель суммирует: (где — остаток, — новые яблоки, — итоговое количество).

Генерируя текст промежуточных шагов, модель фактически выделяет себе больше вычислительного времени на задачу. Каждый сгенерированный токен рассуждения становится частью контекста для следующего токена, что делает финальный вывод математически и логически обоснованным.

!Сравнение стандартного промптинга и Chain-of-Thought: как пошаговые рассуждения приводят к правильному ответу.

Автономные агенты и использование инструментов

Будущее больших языковых моделей лежит за пределами простой генерации текста. Сегодня LLM становятся «мозгом» для автономных агентов — программ, способных самостоятельно планировать действия, использовать внешние инструменты и взаимодействовать с реальным миром.

Языковая модель сама по себе не может узнать текущую погоду или курс акций, так как ее знания ограничены датой окончания обучения. Но она может написать код для вызова внешнего API, если дать ей такую возможность.

Один из самых популярных фреймворков для создания агентов называется ReAct (Reasoning and Acting — Рассуждение и Действие). Он объединяет метод Chain-of-Thought с возможностью выполнять команды. Цикл работы агента состоит из трех повторяющихся этапов:

Thought (Мысль): Модель анализирует текущую ситуацию и решает, что нужно сделать.

Action (Действие): Модель выбирает инструмент (например, поиск в интернете, калькулятор, SQL-запрос) и передает ему параметры.

Observation (Наблюдение): Модель получает результат работы инструмента и добавляет его в свой контекст.

Рассмотрим пример. Пользователь спрашивает: «Какая температура сейчас в Париже и Нью-Йорке, и где теплее?»

> Thought: Мне нужно узнать текущую температуру в Париже. > Action: SearchWeather("Paris") > Observation: Температура в Париже 15°C. > Thought: Теперь мне нужно узнать температуру в Нью-Йорке. > Action: SearchWeather("New York") > Observation: Температура в Нью-Йорке 10°C. > Thought: У меня есть обе температуры. Нужно их сравнить: . В Париже теплее. > Final Answer: Сейчас в Париже 15°C, а в Нью-Йорке 10°C. В Париже теплее.

В этом сценарии языковая модель выступает в роли диспетчера. Она не пытается выдумать погоду, а осознает ограничения своих знаний, обращается к внешнему калькулятору или поисковику, анализирует полученные данные и только потом формулирует ответ.

Будущее LLM: от текста к мультимодальности

Практическое применение LLM стремительно выходит за рамки текстовых чат-ботов. Развитие технологий движется в нескольких ключевых направлениях, которые определят облик искусственного интеллекта в ближайшие годы.

Первое направление — мультимодальность. Современные модели учатся понимать не только текст, но и изображения, аудио и видео в едином контекстном пространстве. Вы можете загрузить фотографию сломанного велосипеда и спросить: «Какие инструменты нужны, чтобы это починить?». Модель проанализирует пиксели, переведет их в семантические концепции, свяжет с текстовыми знаниями о механике и выдаст пошаговую инструкцию.

Второе направление — малые языковые модели (Small Language Models, SLM). В то время как гигантские модели с сотнями миллиардов параметров требуют огромных серверных мощностей, SLM обучаются на тщательно отфильтрованных, высококачественных данных. Они обладают меньшим объемом энциклопедических знаний, но сохраняют отличные способности к логике и форматированию. Такие модели могут работать локально на смартфонах или ноутбуках, обеспечивая полную конфиденциальность данных пользователя.

Третье направление — интеграция в рабочие процессы. LLM перестают быть отдельными приложениями и становятся невидимыми помощниками внутри привычных программ: они автоматически пишут черновики писем в почтовых клиентах, генерируют код прямо в среде разработки и анализируют таблицы, превращая сырые цифры в понятные аналитические отчеты.

Понимание принципов работы Трансформеров, механизмов обучения и методов управления контекстом дает вам фундаментальное преимущество. Вы перестаете быть просто пользователем, который надеется на удачный ответ нейросети, и становитесь инженером, способным предсказывать поведение модели и конструировать надежные системы на базе искусственного интеллекта.

2. RAG-системы: обогащение LLM внешними базами знаний

В предыдущих материалах мы разобрали, как языковые модели обучаются на гигантских массивах данных и как правильный промпт-инжиниринг помогает управлять их вниманием в рамках контекстного окна. Однако у любой, даже самой продвинутой нейросети, есть два фундаментальных ограничения.

Во-первых, знания модели «заморожены» на моменте окончания её обучения. Если модель обучали в 2023 году, она ничего не знает о событиях 2024 года. Во-вторых, модель не имеет доступа к вашим приватным данным: корпоративной переписке, внутренним регламентам компании или вашей личной базе заметок.

Заставлять модель угадывать факты опасно — это приводит к галлюцинациям. А постоянно дообучать (Fine-tuning) модель на каждом новом документе — невероятно дорого, долго и неэффективно.

Решением этой проблемы стала архитектура RAG (Retrieval-Augmented Generation — генерация, дополненная поиском). Это технология, которая позволяет языковой модели обращаться к внешним базам знаний прямо в момент формирования ответа.

Аналогия: экзамен с открытой книгой

Чтобы понять суть RAG, представьте студента на экзамене.

Стандартная языковая модель — это студент, который сдает экзамен по памяти (закрытая книга). Он прочитал тысячи учебников во время подготовки (предобучение), но сейчас должен полагаться только на то, что отложилось в голове. Если он забыл точную дату или формулу, он может попытаться её выдумать, чтобы не сдавать пустой лист.

Модель с RAG-системой — это студент на экзамене с открытой книгой. Когда ему задают сложный вопрос, он не пытается сразу выдать ответ по памяти. Сначала он идет в библиотеку, находит нужный справочник, открывает страницу с релевантной информацией, читает её и только потом формулирует грамотный ответ, опираясь на найденный текст.

> RAG не обучает модель новым фактам. RAG меняет сам процесс работы: вместо извлечения фактов из внутренних весов, модель получает факты из внешнего источника и использует свои навыки понимания языка, чтобы их обработать.

Почему не Fine-tuning?

На этапе изучения тонкой настройки мы говорили, что Fine-tuning адаптирует модель под конкретные задачи. Почему бы просто не загрузить все корпоративные документы в датасет и не дообучить модель?

Тонкая настройка нужна, чтобы научить модель говорить как юрист. RAG нужен, чтобы дать этой модели доступ к свежему кодексу законов.

Анатомия RAG: как это работает под капотом

Процесс работы RAG-системы делится на два больших этапа: подготовка данных (выполняется заранее) и обработка запроса (выполняется в реальном времени).

Этап 1. Подготовка базы знаний

Вы не можете просто загрузить библиотеку из 10 000 PDF-файлов напрямую в промпт — они не поместятся в контекстное окно. Информацию нужно подготовить.

Сбор и очистка. Документы извлекаются из корпоративных систем (Confluence, Google Drive, CRM), очищаются от лишнего форматирования и превращаются в чистый текст.

Чанкинг (Chunking). Текст разбивается на небольшие смысловые фрагменты — чанки. Размер чанка обычно составляет от 200 до 1000 токенов. Если разбить текст на слишком мелкие куски (по одному предложению), потеряется контекст. Если на слишком большие — в контекстное окно поместится мало фрагментов.

Векторизация (Embedding). Это магия, которая делает поиск возможным. Специальная нейросеть (модель эмбеддингов) читает каждый чанк и превращает его смысл в длинный массив чисел — вектор.

Сохранение. Полученные векторы и исходный текст сохраняются в специализированную векторную базу данных (Vector Database).

Этап 2. Обработка запроса пользователя

Когда база готова, система может отвечать на вопросы.

Векторизация запроса. Пользователь пишет: «Как оформить отпуск?». Этот текст пропускается через ту же модель эмбеддингов и превращается в вектор.

Семантический поиск. Векторная база данных сравнивает вектор запроса со всеми векторами документов. Она находит 3-5 чанков, которые математически ближе всего к запросу.

Формирование промпта. Система берет найденные тексты (например, выдержку из HR-политики) и склеивает их с исходным вопросом пользователя.

Генерация ответа. LLM получает обогащенный промпт: «Опираясь на следующий контекст [текст из HR-политики], ответь на вопрос: Как оформить отпуск?». Модель читает правила и выдает точный ответ.

!Архитектура RAG-системы: от запроса пользователя до финального ответа нейросети.

Эмбеддинги: как компьютер понимает смысл

Чтобы глубоко понять RAG, нужно разобраться, как работает семантический поиск. Обычный поиск (в Google или Word) ищет по ключевым словам. Если вы ищете «собака», он найдет тексты со словом «собака», но пропустит текст, где написано «золотистый ретривер» или «домашний питомец».

Эмбеддинг (Embedding) решает эту проблему. Это способ представить смысл слова или предложения в виде координат в многомерном пространстве.

Представьте простую систему координат с двумя осями: — это степень «пушистости», а — размер животного. В этой системе координат:

Кошка получит координаты

Медведь получит координаты

Змея получит координаты

Современные модели эмбеддингов используют не 2, а 1536 или более измерений (осей). Каждое измерение отражает какую-то микроскопическую смысловую характеристику текста, которую человек даже не может назвать словами.

Когда текст превращается в такой многомерный вектор , векторная база данных может вычислять расстояние между ними. Чем ближе векторы друг к другу в этом пространстве, тем ближе их смысл.

Поэтому запрос «Как вернуть бракованный товар?» и документ с заголовком «Политика рекламаций и компенсаций» будут иметь очень похожие векторы и окажутся рядом, хотя в них нет ни одного одинакового слова.

Продвинутые техники и будущее RAG

Базовый RAG (наивный RAG) работает хорошо, но в реальных бизнес-задачах сталкивается с трудностями. Например, если пользователь задает вопрос «Какие финансовые показатели были в 3 квартале?», а в базе лежат отчеты за 10 лет, семантический поиск может вытащить 3 квартал 2018 года вместо текущего.

Для решения таких проблем архитектура усложняется:

Гибридный поиск (Hybrid Search). Объединяет классический поиск по ключевым словам и векторный семантический поиск. Это позволяет находить точные совпадения (например, номера договоров или артикулы) и одновременно понимать контекст.

Перезапись запроса (Query Rewriting). Прежде чем искать информацию, отдельная LLM переписывает запрос пользователя, делая его более понятным для базы данных. Например, запрос «А что было потом?» (в контексте долгого диалога) переписывается в «Какие события произошли после подписания договора в 2023 году?».

Re-ranking (Переранжирование). База данных находит 20 потенциально подходящих фрагментов, а затем специальная легковесная модель оценивает их релевантность и оставляет только 3 самых важных для передачи в основную LLM.

Интеграция в рабочие процессы

Сегодня RAG — это стандарт индустрии для создания корпоративных ИИ-ассистентов.

Юридические фирмы используют RAG для мгновенного поиска прецедентов в миллионах страниц судебных дел. Службы поддержки подключают RAG к базам решенных тикетов, чтобы бот мог отвечать на технические вопросы пользователей, опираясь на реальный опыт инженеров. Медицинские исследователи анализируют тысячи научных статей, задавая вопросы на естественном языке.

Понимание архитектуры Трансформеров, механизмов внимания, методов управления контекстом и систем обогащения знаний (RAG) дает вам полное представление о том, как устроены современные большие языковые модели. Вы прошли путь от базовых концепций предсказания следующего слова до проектирования сложных автономных систем, способных взаимодействовать с внешним миром и решать реальные прикладные задачи.

3. Автономные ИИ-агенты: использование инструментов и фреймворк ReAct

Большие языковые модели великолепно справляются с генерацией текста, переводом, суммаризацией и написанием кода. Однако базовая LLM похожа на гениального ученого, запертого в комнате без окон и дверей. Ученого, у которого есть только телефонная трубка: вы задаете вопрос, он отвечает, опираясь на свою память. Он не может посмотреть в окно, чтобы узнать погоду, не может нажать кнопку на калькуляторе и не может отправить письмо от вашего имени.

Чтобы превратить пассивного собеседника в активного помощника, способного решать реальные задачи, разработчики создали автономных ИИ-агентов.

ИИ-агент (AI Agent) — это система, в которой большая языковая модель выступает в роли «мозга», управляющего процессом достижения поставленной цели. Агент способен самостоятельно разбивать сложную задачу на шаги, принимать решения, использовать внешние инструменты и анализировать результаты своих действий.

Анатомия автономного агента

Если базовая нейросеть — это просто функция, предсказывающая следующее слово, то агент — это программная обертка вокруг этой функции. Полноценный ИИ-агент состоит из четырех ключевых компонентов.

Профиль (Persona). Стартовый промпт, который задает роль, контекст и ограничения. Например: «Ты — старший финансовый аналитик. Твоя цель — собирать данные о компаниях и формировать отчеты. Ты должен быть объективным и всегда проверять цифры».

Память (Memory). Способность сохранять контекст. Краткосрочная память хранит историю текущего диалога (контекстное окно). Долгосрочная память использует векторные базы данных (как в RAG-системах), чтобы агент мог вспомнить, что вы обсуждали месяц назад.

Инструменты (Tools). Набор внешних функций, которые агент может вызывать. Это «руки» и «глаза» модели.

Планирование (Planning). Механизм рассуждения, позволяющий агенту понять, в каком порядке использовать инструменты для достижения цели.

Использование инструментов (Function Calling)

Как именно текстовая модель может «нажать кнопку» или «сделать запрос в интернет»? Сама нейросеть не умеет выполнять программный код. Она умеет только генерировать текст.

Секрет кроется в технологии вызова функций (Function Calling). Разработчик заранее описывает для модели, какие инструменты ей доступны, используя строгий формат (обычно JSON).

Представьте, что мы дали модели доступ к калькулятору. Мы передаем ей инструкцию: «У тебя есть инструмент calculator. Он принимает два числа и математический оператор. Используй его, если нужно сделать точный расчет».

Пользователь спрашивает: «Сколько будет 3456 умножить на 7890?»

Вместо того чтобы пытаться угадать ответ по внутренним весам (что часто приводит к ошибкам в математике), модель генерирует не текст для пользователя, а специальную команду:

{"tool": "calculator", "arguments": {"a": 3456, "b": 7890, "operator": "*"}}

Программная оболочка перехватывает этот текст, видит, что модель хочет использовать инструмент, выполняет реальное умножение на сервере () и возвращает результат обратно в модель. Только после этого модель пишет пользователю: «Результат умножения равен 27 267 840».

> Инструментом может быть что угодно: поисковик Google, SQL-база данных компании, API умного дома для включения света или интерпретатор Python для запуска сложного скрипта.

Фреймворк ReAct: синергия рассуждения и действия

Наличие инструментов — это половина дела. Модель должна понимать, когда и как их использовать. Если задача сложная, агенту нужно составить план.

В 2022 году исследователи из Принстонского университета и Google представили концепцию ReAct (Reasoning and Acting — Рассуждение и Действие). Это метод промпт-инжиниринга, который заставляет модель чередовать логические размышления с конкретными действиями в цикле.

Цикл ReAct состоит из трех повторяющихся этапов:

Thought (Мысль) — модель анализирует текущую ситуацию и решает, что делать дальше.

Action (Действие) — модель выбирает инструмент и передает ему параметры.

Observation (Наблюдение) — модель получает результат работы инструмента.

!Схема цикла ReAct: чередование мыслей, действий и наблюдений для решения сложной задачи.

Пример работы ReAct под капотом

Пользователь задает сложный вопрос: «Какая разница в возрасте между текущим президентом Франции и премьер-министром Великобритании?»

Базовая модель попыталась бы ответить сразу и, скорее всего, ошиблась бы, так как политики часто меняются. Агент с фреймворком ReAct решает задачу пошагово:

Thought 1: Мне нужно узнать, кто сейчас является президентом Франции, затем узнать его возраст. После этого сделать то же самое для премьер-министра Великобритании и вычесть одно из другого. Action 1: Search("Президент Франции 2024") Observation 1: Эмманюэль Макрон.

Thought 2: Президент Франции — Эмманюэль Макрон. Теперь мне нужно узнать его возраст. Action 2: Search("Эмманюэль Макрон возраст") Observation 2: 46 лет (родился 21 декабря 1977 года).

Thought 3: Теперь мне нужно узнать, кто является премьер-министром Великобритании в 2024 году. Action 3: Search("Премьер-министр Великобритании 2024") Observation 3: Кир Стармер (вступил в должность в июле 2024 года).

Thought 4: Премьер-министр — Кир Стармер. Ищу его возраст. Action 4: Search("Кир Стармер возраст") Observation 4: 61 год (родился 2 сентября 1962 года).

Thought 5: У меня есть оба возраста: 46 и 61. Теперь мне нужно вычислить разницу. Action 5: Calculate("61 - 46") Observation 5: 15.

Thought 6: Я получил финальный ответ. Разница составляет 15 лет. Могу формировать ответ пользователю.

Этот процесс скрыт от пользователя. Вы видите только итоговый, абсолютно точный и проверенный ответ. Фреймворк ReAct позволяет модели не просто «думать» (как в методе Chain-of-Thought), но и проверять свои гипотезы о реальный мир.

Мультиагентные системы (Swarm Intelligence)

Развитие агентов привело к появлению мультиагентных систем. Вместо того чтобы создавать одного универсального супер-агента, разработчики создают команду узкоспециализированных ИИ-сотрудников, которые общаются друг с другом.

Представьте процесс разработки программного обеспечения. В мультиагентной системе:

Агент-Менеджер принимает требования от пользователя и разбивает их на задачи.

Агент-Программист пишет код для каждой задачи.

Агент-Тестировщик берет написанный код, запускает его, находит ошибки и отправляет отчет обратно Программисту.

Агент-Писатель параллельно составляет документацию к готовому коду.

Такое разделение ролей кардинально снижает количество галлюцинаций. Когда модель пытается быть одновременно и творцом, и критиком, она часто упускает собственные ошибки. Когда один агент пишет текст, а другой, с совершенно иным системным промптом, жестко его критикует — качество финального результата возрастает многократно.

Будущее LLM: от генерации текста к действиям

Мы находимся на пороге сдвига парадигмы. Если 2023 год был годом чат-ботов, то ближайшие годы станут эрой автономных действий (Action-driven AI).

Современные прикладные задачи уже выходят за рамки простого написания текстов.

В клиентской поддержке агенты не просто отвечают на вопросы по шаблону, но и самостоятельно заходят в CRM-систему, проверяют статус заказа, оформляют возврат средств и отправляют клиенту чек.

В аналитике данных агенты получают доступ к корпоративным базам, самостоятельно пишут SQL-запросы, строят графики с помощью Python и формируют презентации для руководства.

В повседневной жизни ИИ интегрируется на уровень операционных систем (OS-level agents). Агент сможет видеть ваш экран, понимать контекст и выполнять команды вроде: «Собери все чеки из моей почты за прошлый месяц, занеси их в эту Excel-таблицу и отправь моему бухгалтеру».

Итоги курса

На этом мы завершаем наше погружение в анатомию больших языковых моделей. Вы прошли путь от понимания базовой архитектуры Трансформеров и механизма внимания (Attention), через этапы предварительного обучения на триллионах токенов и тонкой настройки (Fine-tuning), до оценки качества моделей.

Вы узнали, как промпт-инжиниринг и методы вроде Chain-of-Thought помогают управлять логикой нейросетей. Вы разобрались, как RAG-системы решают проблему устаревших знаний, подключая внешние базы данных. И, наконец, увидели, как фреймворк ReAct и использование инструментов превращают текстовые генераторы в автономных агентов, способных действовать в реальном мире.

Понимание этих фундаментальных принципов дает вам огромное преимущество. Теперь для вас LLM — это не «черный ящик» и не магия, а мощный, предсказуемый и настраиваемый инструмент, архитектуру которого вы можете использовать для создания собственных прорывных решений.

4. Мультимодальные модели: интеграция зрения и слуха в текстовые нейросети

Большие языковые модели совершили революцию, научившись виртуозно работать с текстом. Они пишут код, сочиняют стихи и анализируют финансовые отчеты. Однако до недавнего времени базовая LLM напоминала гениального мыслителя, запертого в абсолютно темной и звуконепроницаемой комнате. Вся информация об окружающем мире поступала к нему исключительно в виде текстовых записок, просунутых под дверь.

Текст — это мощный, но сильно сжатый способ передачи информации. Когда мы пишем «закат над морем», мы теряем миллионы оттенков цвета, игру света на волнах и шум прибоя. Чтобы искусственный интеллект мог по-настоящему понимать наш мир и помогать нам в реальных задачах, ему нужны «глаза» и «уши».

Этот переход от работы исключительно с текстом к восприятию различных форматов данных называется мультимодальностью.

> Мультимодальная модель — это нейросеть, способная одновременно воспринимать, обрабатывать и генерировать информацию в разных форматах (модальностях): тексте, изображениях, аудио и видео.

Как научить текстовую модель видеть

В предыдущих статьях мы выяснили, что архитектура Трансформера не понимает букв и слов. Она работает с векторами — массивами чисел (эмбеддингами), которые отражают смысл токена.

Чтобы передать изображение в языковую модель, нам нужно превратить картинку в последовательность таких же векторов, то есть «перевести» пиксели на язык, понятный Трансформеру. Эту задачу решает архитектура Vision Transformer (ViT).

Процесс «чтения» картинки выглядит так:

Нарезка на патчи. Изображение разбивается на ровную сетку небольших квадратов (патчей). Например, картинка размером пикселей нарезается на квадраты по пикселей. Получается 196 фрагментов.

Векторизация. Каждый квадрат вытягивается в длинную последовательность чисел и пропускается через линейный слой нейросети, превращаясь в вектор.

Добавление позиции. Как и словам в тексте, каждому патчу добавляется информация о его координатах, чтобы модель понимала, что небо находится сверху, а трава — снизу.

Передача в Трансформер. Полученная последовательность из 196 векторов отправляется в модель точно так же, как если бы это было предложение из 196 слов.

!Процесс токенизации изображения: разделение картинки на фрагменты (патчи) для передачи в языковую модель.

Синхронизация смыслов: как связать слово и картинку

Превратить картинку в векторы — это только половина дела. Модель должна понять, что вектор, полученный из фотографии пушистого кота, означает то же самое, что и текстовый токен «кот».

Для этого используется метод контрастивного обучения (Contrastive Learning), ярким примером которого является модель CLIP от OpenAI.

Во время обучения нейросети показывают миллионы пар «картинка + текстовое описание» (например, из интернета). Модель состоит из двух частей: одна обрабатывает текст, другая — изображение. Их задача — разместить векторы текста и картинки в едином многомерном пространстве так, чтобы правильные пары оказались максимально близко друг к другу, а случайные — далеко.

Представьте огромную библиотеку смыслов. Когда модель видит фото яблока, она помещает его вектор на полку с надписью «фрукты». Когда она читает слово «яблоко», она кладет его текстовый вектор на ту же самую полку. Благодаря этому, когда вы загружаете в мультимодальную LLM фотографию и спрашиваете: «Сколько калорий в этом фрукте?», модель «смотрит» на фото, находит его смысл на полке «яблоко» и генерирует текстовый ответ, опираясь на свои знания о яблоках.

Модульные и нативные мультимодальные модели

Существует два принципиально разных подхода к созданию мультимодальных систем.

1. Модульный подход (Сборка из блоков)

Ранние мультимодальные системы (например, LLaVA) создавались как конструктор. Разработчики брали готовую модель компьютерного зрения (которая умеет распознавать объекты) и готовую текстовую LLM. Между ними ставили «переводчик» — специальный слой нейросети, который адаптировал визуальные векторы под текстовое пространство.

Плюсы: Дешево и быстро обучать, можно использовать уже существующие мощные текстовые модели. Минусы: Потеря нюансов. Визуальная модель может распознать человека и машину, но упустить тонкую иронию на меме или мелкий текст на заднем плане, потому что она не обучалась специально для сложных логических рассуждений.

2. Нативная мультимодальность

Современные флагманы (GPT-4o, Google Gemini) обучаются нативно. Это значит, что с самого первого дня тренировки в единую нейросеть загружают вперемешку тексты, картинки, аудиозаписи и видео.

Модель не переводит звук в текст, а картинку в слова. Она формирует единое, универсальное понимание мира.

Разница особенно заметна при работе со звуком. Если вы используете голосового помощника старого типа, ваш голос сначала переводится в текст (Speech-to-Text), текст отправляется в LLM, она пишет ответ, а затем синтезатор речи (Text-to-Speech) его озвучивает. В этом процессе теряется интонация, сарказм, паузы, вздохи и эмоции.

Нативная мультимодальная модель слушает саму звуковую волну. Она слышит, что вы говорите с грустью, и может ответить вам сочувствующим тоном, сделав паузу в нужном месте. Она воспринимает аудиотокены напрямую.

Практическое применение мультимодальности

Интеграция зрения и слуха открывает перед ИИ совершенно новые классы задач, которые раньше требовали присутствия человека.

* Медицинская диагностика. Врач загружает в модель рентгеновский снимок, результаты анализов в виде таблицы и текстовую историю болезни. Модель анализирует все три модальности одновременно, находя неочевидные связи между затемнением на снимке и показателями крови. * Анализ видео и безопасности. Модели могут просматривать многочасовые записи с камер наблюдения, не просто фиксируя движение, а понимая контекст: «Человек в красной куртке оставил сумку на скамейке и быстро ушел 15 минут назад». * Помощь людям с нарушениями зрения. Смартфон с мультимодальной моделью может в реальном времени описывать окружающую обстановку, читать меню в ресторане, распознавать номинал купюр и предупреждать о препятствиях. * Автоматизация документооборота. Модель способна посмотреть на отсканированный, помятый чек с рукописными пометками, понять его структуру, извлечь итоговую сумму и занести ее в базу данных.

От агентов к воплощенному ИИ (Embodied AI)

В прошлой статье мы рассматривали автономных ИИ-агентов, которые используют инструменты (поиск, калькулятор, API) для решения задач. Мультимодальность выводит концепцию агентов на физический уровень.

Если объединить логику LLM-агента с «глазами» (камерами) и «руками» (манипуляторами), мы получим Embodied AI — воплощенный искусственный интеллект.

Робототехника долгое время буксовала, потому что инженерам приходилось жестко программировать каждое движение робота. Сегодня мультимодальная LLM выступает в роли «мозга» робота. Вы можете сказать роботу: «Убери со стола всё, что нельзя съесть, а яблоко помой».

Модель через камеры видит стол, распознает объекты (ключи, телефон, яблоко), понимает концепцию «несъедобного», планирует последовательность действий (как в фреймворке ReAct) и отправляет команды на моторы. Это будущее, которое уже тестируется в лабораториях.

Итоги курса: Анатомия LLM

На этом мы завершаем наш курс «Анатомия LLM: Как мыслят нейросети». Вы прошли большой путь и теперь видите картину целиком:

Вы узнали, что в основе магии лежат Трансформеры и механизм внимания (Attention), позволяющий модели улавливать контекст.

Вы поняли, как модели проходят Pre-training, поглощая терабайты текста, чтобы выучить структуру языка и знания о мире.

Вы разобрались в Fine-tuning, который превращает хаотичный генератор текста в послушного и безопасного помощника.

Вы изучили методы оценки качества, чтобы отличать реальные улучшения от маркетинговых уловок.

Вы увидели, как RAG-системы и ИИ-агенты дают моделям доступ к свежим данным и инструментам.

И, наконец, вы познакомились с мультимодальностью, которая дарит нейросетям зрение и слух.

Большие языковые модели — это не просто чат-боты. Это новый тип вычислительной платформы. Понимая их анатомию, ограничения и скрытые механизмы, вы можете не просто использовать ИИ, но и создавать на его базе решения, которые изменят то, как мы работаем, учимся и взаимодействуем с миром.

5. Будущее ИИ: проблема выравнивания (Alignment) и альтернативные архитектуры

В предыдущих статьях мы наделили языковые модели памятью через RAG-системы, дали им возможность использовать инструменты с помощью автономных агентов и открыли для них физический мир через мультимодальность. Современные нейросети способны писать программный код, управлять роботами и анализировать медицинские снимки.

Однако с ростом возможностей возникает критический вопрос: как гарантировать, что эти мощные системы будут действовать в наших интересах, не причинят вреда и не выйдут из-под контроля? Кроме того, текущая архитектура Трансформеров, на которой базируются все современные LLM, начинает упираться в физические ограничения вычислительных мощностей.

В этой завершающей статье курса мы разберем главную философскую и инженерную задачу современного ИИ — проблему выравнивания, а также заглянем под капот альтернативных архитектур, которые придут на смену Трансформерам.

Проблема выравнивания (AI Alignment)

Базовая языковая модель, прошедшая этап предварительного обучения (Pre-training), не имеет морали, этики или здравого смысла. Ее единственная математическая цель — предсказать следующий токен на основе терабайтов текстов из интернета.

Если вы попросите такую модель: «Напиши инструкцию по созданию компьютерного вируса», она с радостью это сделает, потому что в ее обучающих данных было много статей по кибербезопасности и хакерских форумов. Модель просто продолжает заданный паттерн.

> Проблема выравнивания (Alignment problem) — это задача синхронизации целей и поведения искусственного интеллекта с человеческими ценностями, этикой и намерениями.

В индустрии ИИ принято ориентироваться на концепцию HHH (Helpful, Honest, Harmless): * Helpful (Полезность): Модель должна решать задачу пользователя, а не уклоняться от ответа. * Honest (Честность): Модель должна предоставлять достоверную информацию и признавать, если чего-то не знает (снижение галлюцинаций). * Harmless (Безопасность): Модель не должна генерировать токсичный, дискриминационный или опасный контент.

Достичь баланса между этими тремя критериями невероятно сложно. Если сделать модель слишком «безопасной», она начнет отказываться отвечать на безобидные вопросы (например, откажется писать код для удаления файлов на компьютере, посчитав это вредоносным действием). Если сделать ее слишком «полезной», она может помочь злоумышленнику.

Как ИИ учат хорошим манерам: RLHF

Основной метод решения проблемы выравнивания сегодня — это обучение с подкреплением на основе отзывов людей (Reinforcement Learning from Human Feedback, RLHF). Именно этот процесс превратил базовую модель GPT-3 в удобного и безопасного помощника ChatGPT.

Процесс RLHF состоит из трех шагов:

Сбор человеческих оценок. Людям (асессорам) показывают один и тот же запрос (например, «Как взломать Wi-Fi соседу?») и несколько вариантов ответа от базовой модели. Человек ранжирует ответы: от самого безопасного и вежливого отказа до самого вредного.

Обучение модели вознаграждения (Reward Model). На основе этих оценок обучается отдельная, меньшая нейросеть. Ее задача — смотреть на текст и выдавать числовую оценку (награду), предсказывая, насколько этот текст понравился бы человеку.

Оптимизация языковой модели. Основная LLM начинает генерировать ответы, а Модель вознаграждения ставит ей оценки. Используя алгоритмы обучения с подкреплением (например, PPO — Proximal Policy Optimization), основная модель корректирует свои внутренние веса так, чтобы максимизировать получаемую награду.

Это похоже на дрессировку собаки. Вы не можете объяснить собаке концепцию «хорошего поведения» словами. Но вы можете давать ей лакомство (высокую награду), когда она приносит тапочки, и строго смотреть (отрицательную награду), когда она грызет мебель. Со временем собака (языковая модель) усваивает нужный паттерн поведения.

!Схема процесса обучения с подкреплением на основе отзывов людей (RLHF)

Конституционный ИИ (Constitutional AI)

Проблема RLHF в том, что люди работают медленно, дорого и часто не согласны друг с другом в вопросах этики. Чтобы автоматизировать этот процесс, компания Anthropic (создатели модели Claude) разработала подход Конституционного ИИ (Constitutional AI или RLAIF — AI Feedback).

Вместо того чтобы заставлять людей оценивать тысячи ответов, разработчики пишут «Конституцию» — набор текстовых правил. Например: «Выбери ответ, который наименее сексистский, расистский или токсичный».

Затем другая языковая модель (или та же самая) берет на себя роль судьи. Она читает сгенерированные ответы, сверяет их с Конституцией и сама выставляет оценки для обучения Модели вознаграждения. Это позволяет выравнивать ИИ быстрее и с меньшим человеческим вмешательством.

Альтернативные архитектуры: жизнь после Трансформеров

Выравнивание решает проблему поведения, но у LLM есть и фундаментальная инженерная проблема. В основе всех современных моделей лежит архитектура Трансформера и механизм внимания (Attention).

Механизм внимания заставляет каждый токен в тексте «смотреть» на все предыдущие токены, чтобы понять контекст. Это создает квадратичную вычислительную сложность.

Вычислительная сложность внимания выражается формулой:

где — количество вычислительных операций, — количество токенов в контексте (длина текста), а — размерность эмбеддинга (сложность представления слова).

Если вы увеличиваете длину текста в 10 раз (например, с 10 000 до 100 000 токенов), количество вычислений и потребление оперативной памяти вырастают в 100 раз. Именно поэтому модели долгое время не могли читать целые книги или анализировать часовые видео — у серверов просто заканчивалась память.

Чтобы преодолеть этот барьер, исследователи разрабатывают новые архитектуры.

1. Модели пространства состояний (SSM) и Mamba

Модели пространства состояний (State Space Models, SSM) предлагают принципиально иной подход к памяти. Самая известная архитектура этого типа называется Mamba.

Вместо того чтобы постоянно оглядываться на все предыдущие слова (как Трансформер), Mamba использует скрытое «состояние» — сжатую выжимку всего прочитанного текста. Когда поступает новое слово, модель обновляет это состояние и забывает само слово.

Главная инновация Mamba — селективность. Модель сама решает, какую информацию стоит добавить в состояние, а какую — проигнорировать.

Представьте, что вы читаете детектив. Трансформер помнит каждую запятую, цвет занавесок в третьей главе и марку машины проезжавшего такси. Mamba же запоминает только то, что «убийца — садовник», а описание погоды стирает из памяти. Благодаря этому сложность вычислений становится линейной (). Увеличение текста в 10 раз требует лишь в 10 раз больше ресурсов.

2. Смесь экспертов (Mixture of Experts, MoE)

Еще один способ сделать модели умнее без экспоненциального роста затрат — архитектура Смесь экспертов (MoE). Этот подход используется в GPT-4 и моделях семейства Mixtral.

В стандартной нейросети (Dense model) для генерации каждого слова активируются абсолютно все параметры. Если в модели 100 миллиардов параметров, все они будут выполнять математические операции, даже если вы просто сказали «Привет».

В архитектуре MoE нейросеть разбита на несколько специализированных подсетей («экспертов») и содержит «маршрутизатор» (Router).

Например, модель Mixtral 8x7B состоит из 8 экспертов по 7 миллиардов параметров. Общий объем модели — 47 миллиардов параметров (часть слоев общая). Но когда вы задаете вопрос по математике, маршрутизатор направляет этот токен только двум экспертам, которые лучше всего справляются с цифрами. В итоге для генерации слова активируются всего около 13 миллиардов параметров.

Это похоже на многопрофильную клинику: вам не нужно, чтобы вас одновременно осматривали хирург, окулист и стоматолог. Регистратура (маршрутизатор) направляет вас к нужному специалисту, экономя время и ресурсы всей больницы.

От узких задач к AGI

Развитие архитектур, мультимодальности, агентов и методов выравнивания ведет индустрию к главной цели — созданию AGI (Artificial General Intelligence, Общего искусственного интеллекта).

> AGI — это гипотетический искусственный интеллект, способный понять, обучиться и выполнить любую интеллектуальную задачу, которую может выполнить человек.

Современные LLM — это еще не AGI. Они отлично работают с текстом, но часто ошибаются в сложной логике, не умеют планировать на долгие горизонты и подвержены галлюцинациям. Однако переход от парадигмы «предсказания следующего слова» к парадигме «рассуждения и действия» (как в моделях серии OpenAI o1) показывает, что ИИ постепенно обретает способность к глубокому анализу.

Понимание того, как мыслят нейросети — от векторов и механизма внимания до RAG-систем и проблемы выравнивания — дает вам огромное преимущество. Вы больше не воспринимаете ИИ как магический «черный ящик». Вы знаете его анатомию, понимаете его ограничения и можете эффективно использовать эти технологии для решения реальных задач в бизнесе, науке и повседневной жизни.