1. Введение в большие языковые модели (LLM) и их архитектуру
Введение в большие языковые модели (LLM) и их архитектуру
Добро пожаловать на курс «Как работает современный искусственный интеллект». Мы начинаем наше погружение в мир технологий, которые изменили наше представление о возможностях компьютеров. Сегодня мы разберем фундамент современной революции в ИИ — большие языковые модели (Large Language Models, или LLM).
Когда вы общаетесь с ChatGPT, Claude или другими ассистентами, может показаться, что по ту сторону экрана находится разумное существо. Оно понимает шутки, пишет код и сочиняет стихи. Но что на самом деле происходит «под капотом»? Давайте разберемся.
Что такое LLM?
Если упростить до предела, то Большая языковая модель — это программа, которая умеет предсказывать следующее слово в тексте. Вы можете представить её как «Т9 на стероидах». Если вы напишете в телефоне «Я пошел в...», автозамена предложит «магазин», «кино» или «парк». LLM делает то же самое, но учитывает не только последние два слова, а тысячи страниц контекста, нюансы стиля, логику повествования и факты о мире.
Однако компьютер не понимает слова так, как мы. Для него текст — это математика.
Токенизация: как компьютер читает текст
Первый этап работы любой модели — превращение текста в цифры. Этот процесс называется токенизацией.
Модель не читает по буквам и не всегда читает целыми словами. Она разбивает текст на кусочки — токены. Токеном может быть слово целиком («яблоко»), часть слова («програм» и «мирование») или даже один символ.
!Визуализация того, как текст разбивается на токены и превращается в последовательность чисел.
В среднем, 1000 токенов — это примерно 750 слов английского текста (для русского языка коэффициент может отличаться из-за особенностей морфологии).
Векторные представления (Embeddings)
После того как текст превратился в цепочку чисел, происходит магия. Каждому токену сопоставляется вектор — длинный список чисел, который описывает смысл этого токена.
Представьте себе карту. Если города находятся рядом, значит, до них легко добраться. В мире ИИ слова, близкие по смыслу, находятся рядом в многомерном математическом пространстве.
Например, слова «Король» и «Королева» будут находиться ближе друг к другу, чем «Король» и «Микроволновка». Более того, эти векторы сохраняют логические связи.
Рассмотрим классический пример арифметики смыслов:
Где — это вектор (математическое представление смысла) слова «Королева», — вектор слова «Король», — вектор слова «Мужчина», а — вектор слова «Женщина».
Это уравнение означает, что если мы возьмем смысл слова «Король», уберем из него «мужской» признак и добавим «женский», мы получим смысл, очень близкий к слову «Королева». Именно так модель «понимает» связи между понятиями.
!Иллюстрация векторного пространства, где слова расположены в зависимости от их смысловой близости.
Архитектура Трансформер (Transformer)
До 2017 года нейросети читали текст последовательно, слово за словом, как человек. Это было медленно и неэффективно: к концу длинного предложения сеть часто «забывала», что было в начале.
В 2017 году исследователи из Google представили архитектуру Transformer в статье «Attention Is All You Need» («Внимание — это всё, что вам нужно»). Это стало переломным моментом.
Механизм внимания (Self-Attention)
Главная фишка Трансформера — механизм самовнимания (Self-Attention). Он позволяет модели смотреть на все слова в предложении одновременно и понимать, как они связаны друг с другом, независимо от расстояния между ними.
Рассмотрим предложение: > «Банк отказал в кредите, потому что у клиента была плохая история».
Слово «Банк» здесь может означать финансовое учреждение или берег реки. Механизм внимания позволяет модели связать слово «Банк» со словами «кредит» и «клиент», чтобы однозначно понять контекст: речь о деньгах, а не о реке.
Для каждого слова модель рассчитывает «вес внимания» по отношению ко всем другим словам. Это можно выразить упрощенной формулой:
Где (Query) — запрос (что мы ищем), (Key) — ключ (что предлагают другие слова), (Value) — значение (смысл слова), — размерность векторов (масштабирующий коэффициент), а — функция, превращающая числа в вероятности (сумма которых равна 1).
Проще говоря: каждое слово задает вопрос () всем остальным словам (), насколько они важны для его понимания. Если совпадение высокое, модель берет много информации () от этого слова.
Как модель генерирует ответ?
Когда вы задаете вопрос, модель не «думает» в человеческом смысле. Она вычисляет вероятности.
Например, для фразы «Столица Франции — это...» вероятности могут быть такими: * Париж: 99.1% * город: 0.5% * красиво: 0.1%
Чтобы выбрать конкретное слово, используется функция Softmax:
Где — вероятность выбора конкретного слова , — оценка уверенности модели для этого слова, — математическая константа (число Эйлера), а — сумма оценок для всех возможных слов в словаре.
Эта формула превращает сырые оценки нейросети в понятные проценты вероятности.
Температура (Temperature)
Вы наверняка слышали о параметре «температура». Это настройка, которая влияет на выбор следующего слова. * Низкая температура (ближе к 0): Модель всегда выбирает самый вероятный вариант. Ответы становятся точными, сухими и предсказуемыми. * Высокая температура (ближе к 1): Модель может выбрать менее вероятное слово. Это добавляет «креативности» и разнообразия, но повышает риск ошибок и галлюцинаций.
Обучение: как модель становится умной
Жизненный цикл LLM состоит из двух главных этапов:
Заключение
Современные LLM — это не магия, а сложная статистика и линейная алгебра, помноженные на огромные вычислительные мощности. Они не обладают сознанием, но благодаря архитектуре Трансформер и огромному объему данных они способны невероятно точно имитировать понимание и рассуждение.
В следующей статье мы разберем, какие существуют ограничения у этих моделей и почему они иногда уверенно врут.