1. Основы магии: Что такое большие языковые модели и как они обучаются
Основы магии: Что такое большие языковые модели и как они обучаются
Добро пожаловать в курс «Генеративный ИИ: От новичка до уверенного пользователя». Я рад, что вы решили заглянуть под капот технологии, которая меняет мир прямо сейчас. Как разработчик с десятилетним стажем, я часто слышу, что ChatGPT или Claude — это «магия». И действительно, когда компьютер пишет стихи, код или философские эссе, это кажется чудом.
Но моя цель в этой первой статье — развеять туман мистики. Мы разберем эту «магию» на винтики и шестеренки. Понимание того, как на самом деле работают эти модели, даст вам огромное преимущество: вы перестанете их бояться, поймете их ограничения и научитесь использовать их эффективнее, чем 99% пользователей.
Что такое LLM?
Давайте начнем с расшифровки аббревиатуры. LLM означает Large Language Model (Большая Языковая Модель).
Разберем каждое слово:
* Большая (Large): Это относится к двум вещам. Во-первых, к размеру данных, на которых она училась (это практически весь интернет). Во-вторых, к количеству параметров внутри модели (об этом чуть позже), которое исчисляется миллиардами. * Языковая (Language): Эти модели специализируются на понимании и генерации человеческого языка (а также кода, который тоже является языком). * Модель (Model): Это математический алгоритм, упрощенное представление реальности, созданное для прогнозирования.
Если упростить до предела: LLM — это Т9 на стероидах.
Вспомните, как ваш телефон подсказывает следующее слово, когда вы пишете сообщение. Если вы наберете «Я иду в», телефон предложит «магазин», «кино» или «парк». LLM делает то же самое, но она учитывает не последние два слова, а тысячи страниц контекста, и выбирает следующее слово (или часть слова) с невероятной точностью.
!Как нейросеть предсказывает следующее слово на основе вероятностей
Как они «думают»: Вероятность вместо разума
Важно осознать фундаментальную истину: модель ничего не знает и не понимает в человеческом смысле. У нее нет сознания, планов или желаний. Есть только математика и статистика.
В основе работы LLM лежит вычисление вероятности следующего токена (слова или части слова). Математически это можно записать так:
Где: * — это вероятность наступления события (появления конкретного слова). * — это слово (токен), которое мы пытаемся предсказать сейчас (в момент времени ). * — знак условия, читается как «при условии, что». * — это контекст, то есть все предыдущие слова в предложении или тексте, идущие до текущего момента.
Простыми словами: модель спрашивает себя: «Учитывая все слова, которые я вижу слева, какое слово с наибольшей вероятностью должно стоять следующим?».
Она делает это слово за словом, миллионы раз. Когда она пишет эссе, она не придумывает идею целиком. Она просто подбирает лучшее следующее слово, затем следующее, и так далее.
Архитектура: Трансформер и механизм внимания
До 2017 года нейросети читали текст последовательно, слово за словом, как человек, который очень быстро забывает начало предложения, пока дочитывает его до конца. Это было проблемой.
Революция случилась с появлением архитектуры Transformer (Трансформер). Главное изобретение внутри Трансформера — это Mechanism of Self-Attention (Механизм самовнимания).
Представьте предложение: «Банк отказал в кредите, потому что у клиента была плохая история».
Чтобы понять слово «история» в данном контексте, нам не так важны слова «потому» или «что». Нам критически важна связь слова «история» со словами «кредит» и «клиент». Механизм внимания позволяет модели видеть эти связи мгновенно, независимо от расстояния между словами.
Благодаря этому модель понимает контекст намного глубже. Она знает, что «коса» в предложении «острая коса» и «девичья коса» — это разные вещи, потому что обращает внимание на соседние прилагательные.
Как обучается этот гигант? Три этапа создания
Создание современной LLM (например, GPT-4) — это долгий и дорогой процесс, который можно разделить на три главных этапа.
Этап 1: Претрейнинг (Pre-training) — Чтение библиотеки
На этом этапе модель «скармливают» колоссальное количество текста: Википедию, книги, научные статьи, код с GitHub, форумы и просто веб-страницы. Это терабайты данных.
* Задача модели: Угадать следующее слово в тексте. Если она угадала — молодец. Если нет — веса (настройки) модели корректируются, чтобы в следующий раз она была ближе к правильному ответу. * Результат: Модель выучивает грамматику, факты о мире, структуру кода, логические связи и даже шутки. Но на этом этапе она еще не умеет быть полезным ассистентом. Если вы спросите такую модель: «Как испечь пирог?», она может вместо рецепта продолжить вопросом: «...и какие ингредиенты лучше купить в магазине?», потому что в интернете часто за вопросом следует другой вопрос.
Этап 2: Fine-tuning (SFT — Supervised Fine-Tuning) — Обучение инструкциям
Теперь модель учат вести диалог. Люди-разметчики пишут тысячи примеров диалогов в формате «Вопрос — Идеальный ответ».
* Задача модели: Научиться отвечать на вопросы, следовать инструкциям и не просто продолжать текст, а быть полезной. * Результат: Модель начинает понимать формат «Пользователь спросил — Ассистент ответил».
Этап 3: RLHF (Reinforcement Learning from Human Feedback) — Обучение с подкреплением
Это этап «шлифовки». Модели дают один и тот же вопрос, и она генерирует несколько вариантов ответа. Человек выбирает лучший (самый точный, безопасный и полезный).
* Механизм: Это похоже на дрессировку собаки. За хороший ответ модель получает «лакомство» (математическую награду), за плохой (грубый или ложный) — «штраф». * Результат: Модель становится вежливой, безопасной и лучше понимает нюансы человеческих предпочтений.
Параметры: Мозг нейросети
Вы часто будете слышать слово параметры (например, Llama-3-70B, где 70B — это 70 миллиардов параметров). Что это такое?
Параметры (или веса) — это числа внутри нейросети, которые определяют силу связи между нейронами. Можно представить их как ручки настройки на гигантском микшерном пульте.
В процессе обучения эти ручки крутятся туда-сюда, пока музыка (ответы модели) не станет идеальной. Чем больше параметров, тем сложнее закономерности может запомнить модель и тем умнее она кажется. Но и тем больше вычислительной мощности нужно для ее работы.
Галлюцинации: Почему ИИ врет?
Теперь, зная принцип работы, вы легко поймете главную проблему LLM — галлюцинации.
Поскольку модель — это вероятностная машина, она не «знает» фактов. У нее нет базы данных с истиной. Она просто предсказывает слова, которые выглядят правдоподобно в данном контексте.
Если вы спросите про несуществующего ученого, модель может с уверенностью выдумать его биографию, потому что слова «родился», «учился» и «открыл» имеют высокую вероятность стоять рядом с именем ученого.
> Важно запомнить: LLM оптимизирована на правдоподобие, а не на правду.
Заключение
Мы разобрали фундамент. Теперь вы знаете, что за «магией» ИИ стоит:
Это знание — ваш щит от завышенных ожиданий и меч от ошибок при использовании. В следующей статье мы перейдем от теории к практике и разберем, как правильно формулировать запросы (промпты), чтобы заставить эту вероятностную машину работать именно так, как нужно вам.