1. Фундамент технологий: нейросети, архитектура трансформеров, токены и эмбеддинги
Фундамент технологий: нейросети, архитектура трансформеров, токены и эмбеддинги
Чтобы стать архитектором AI-систем, необходимо избавиться от восприятия искусственного интеллекта как «магии». На фундаментальном уровне любая современная языковая модель (LLM) — это сложная математическая функция, которая преобразует входные данные (числа) в выходные данные (числа), основываясь на вероятностях. Понимание того, как именно происходит это преобразование, отличает обычного пользователя от инженера, способного проектировать надежные системы.
Нейросети: от биологии к математике
Нейронная сеть — это алгоритм машинного обучения, структура которого отдаленно вдохновлена организацией нейронов в человеческом мозге. Однако, в отличие от биологического мозга, искусственная нейросеть (ANN) строго детерминирована и опирается на линейную алгебру.
Анатомия искусственного нейрона
Базовой единицей сети является персептрон (искусственный нейрон). Он работает по следующему алгоритму:
Математически работа одного нейрона описывается формулой:
где — выходное значение нейрона, — функция активации, — знак суммирования (сумма всех произведений), — количество входов, — вес -го входа, — значение -го входа, — смещение (bias).
!Структура персептрона: взвешенная сумма входов проходит через функцию активации
Обучение vs Инференс
Жизненный цикл модели делится на два этапа:
* Обучение (Training): Процесс настройки весов (). Сеть получает входные данные и правильный ответ. Она делает предсказание, сравнивает его с эталоном, вычисляет ошибку (Loss) и с помощью алгоритма обратного распространения ошибки (Backpropagation) корректирует веса так, чтобы в следующий раз ошибка была меньше. Это требует огромных вычислительных мощностей. * Инференс (Inference): Использование уже обученной сети. Веса зафиксированы. Мы подаем данные на вход, они проходят через слои, и мы получаем результат. Это то, что происходит, когда вы отправляете запрос в ChatGPT.
Эмбеддинги: перевод с человеческого на машинный
Компьютеры не понимают слова, они понимают только числа. Чтобы подать текст в нейросеть, его нужно превратить в вектор — список чисел. Этот процесс называется векторизацией, а полученные векторы — эмбеддингами (embeddings).
Эмбеддинг — это плотное векторное представление смысла. Главная идея заключается в том, что слова, близкие по смыслу, должны иметь близкие числовые координаты в многомерном пространстве.
Представьте упрощенное 2D-пространство: * Координаты слова «Король»: [0.9, 0.8] * Координаты слова «Королева»: [0.9, 0.2] * Координаты слова «Яблоко»: [-0.5, 0.1]
Математически мы можем измерить близость слов, рассчитав расстояние между этими векторами (обычно используется косинусное сходство). Более того, в пространстве эмбеддингов работают арифметические операции со смыслами:
> Король − Мужчина + Женщина ≈ Королева
В современных моделях (например, GPT-4) размерность вектора может достигать тысяч измерений (например, 1536 или 3072 числа на один токен). Это позволяет кодировать тончайшие нюансы семантики, тональности и контекста.
!Семантическое векторное пространство: близкие по смыслу слова находятся рядом
Токены: атомы смысла
LLM не читают по словам или буквам. Они читают по токенам. Токен — это фрагмент текста, который может быть словом, частью слова или даже одним символом.
Как это работает на практике
Понимание токенизации критически важно для архитектора систем по двум причинам: * Стоимость: API провайдеры (OpenAI, Anthropic) тарифицируют услуги за миллион токенов. * Контекстное окно: Память модели ограничена лимитом токенов (например, 128k). Если история переписки превышает этот лимит, начало разговора «отрезается» и забывается.
Архитектура Трансформер: революция внимания
До 2017 года доминировали рекуррентные нейросети (RNN), которые читали текст последовательно, слово за словом. Они плохо «помнили» начало длинного предложения, когда доходили до его конца. Все изменилось с появлением архитектуры Transformer (статья «Attention Is All You Need», Google).
Механизм внимания (Self-Attention)
Ключевая инновация трансформеров — механизм Self-Attention (самовнимание). Он позволяет модели смотреть на все токены в предложении одновременно и вычислять взаимосвязи между ними, независимо от расстояния.
Рассмотрим фразу: «Банк заблокировал счет, потому что он был подозрительным».
Для человека очевидно, что слово «он» относится к слову «счет», а не к слову «банк». Старые модели путались. Трансформер вычисляет «вес внимания» между токеном «он» и всеми остальными словами. Связь «он» — «счет» получит максимальный вес.
Математически механизм внимания записывается как:
где (Query) — вектор-запрос (что мы ищем), (Key) — вектор-ключ (содержание элемента), (Value) — вектор-значение (информация, которую мы извлечем), — транспонированная матрица ключей, — размерность ключей (используется для масштабирования), — функция, превращающая числа в вероятности (сумма равна 1).
Простыми словами: каждый токен задает вопрос () всем остальным токенам: «Насколько вы важны для моего понимания?». Те отвечают своими ключами (). Если ключ подходит к запросу, извлекается значение ().
!Визуализация весов внимания: модель определяет, к чему относится местоимение 'it'
LLM как генератор следующего токена
Современные GPT-модели (Generative Pre-trained Transformer) используют архитектуру Decoder-only. Их единственная задача — предсказать вероятность следующего токена на основе всех предыдущих.
Когда вы просите ChatGPT написать стих:
Именно поэтому LLM иногда называют «стохастическими попугаями» — они не «знают» фактов, они лишь предсказывают, какое слово статистически вероятнее всего идет следом.