1. Источники данных: из чего состоит информационный рацион нейросетей
Источники данных: из чего состоит информационный рацион нейросетей
В прошлой статье мы заглянули под капот больших языковых моделей (LLM) и разобрали архитектуру Трансформеров. Мы узнали, как механизм внимания помогает нейросети понимать связи между словами. Но Трансформер — это лишь мощный двигатель. Чтобы он заработал, ему нужно топливо. Этим топливом являются данные.
На этом этапе мы разберем предварительное обучение (pre-training) — самый долгий, дорогой и масштабный этап создания любой LLM. Именно здесь модель превращается из «чистого листа» в эрудита, знающего квантовую физику, рецепты борща и правила написания кода на Python.
Масштабы: сколько читает нейросеть?
Человек за всю свою жизнь физически способен прочитать около 5–10 тысяч книг. Это примерно 10–20 гигабайт чистого текста. Современные языковые модели на этапе предварительного обучения «проглатывают» корпус данных (data corpus) объемом в десятки терабайт.
Один терабайт текста — это около 300 миллионов страниц. Если распечатать этот объем на бумаге формата А4 и сложить в стопку, ее высота превысит 30 километров. Модели уровня GPT-4 или Llama 3 обучаются на датасетах размером от 10 до 15 терабайт.
Откуда берется такое колоссальное количество информации? Разработчики собирают ее по всему интернету. Разные источники формируют разные навыки у нейросети.
| Источник данных | Доля в датасете (примерно) | Чему учится нейросеть | |---|---|---| | Веб-страницы (Common Crawl) | 60–80% | Пониманию структуры языка, сленгу, многообразию мнений и стилей. | | Исходный код (GitHub) | 5–10% | Строгой логике, алгоритмическому мышлению, программированию. | | Книги и литература | 5–10% | Длинным связным рассуждениям, сторителлингу, сложной грамматике. | | Википедия (на всех языках) | 3–5% | Энциклопедическим фактам, истории, научным концепциям. | | Форумы (Reddit, StackOverflow) | 2–5% | Формату диалога, ответам на вопросы, решению практических проблем. |
> Современная LLM — это слепок всего интернета. Она знает то, что знает человечество, потому что прочитала всё, что человечество успело оцифровать и выложить в сеть.
Очистка данных: почему нельзя просто скачать интернет
Интернет полон мусора. Если мы просто загрузим в нейросеть все подряд, она научится генерировать спам, ругательства и бессвязный текст. В машинном обучении есть золотое правило: Garbage in, garbage out (Мусор на входе — мусор на выходе).
Поэтому перед обучением данные проходят строгую фильтрацию. Этот процесс включает несколько этапов:
!Воронка очистки данных для обучения нейросети
После очистки от изначальных 100 терабайт сырых данных может остаться всего 10 терабайт качественного текста. Именно этот «золотой запас» отправляется в Трансформер.
Главный механизм: предсказание следующего слова
Как именно происходит обучение? Никто не сидит рядом с нейросетью и не объясняет ей правила русского языка. Используется метод самообучения (self-supervised learning).
Задача модели на этапе предварительного обучения до смешного проста: предсказать следующее слово (а точнее, токен) в предложении.
Процесс выглядит так:
Этот процесс повторяется триллионы раз.
!Интерактивная визуализация предсказания следующего слова
Математически цель языковой модели — вычислить условную вероятность следующего слова. Это описывается базовой формулой языкового моделирования:
Где:
Простыми словами: формула вычисляет шанс появления конкретного слова , опираясь на весь предшествующий текст. Если контекст «Красная Шапочка несла бабушке», то вероятность слова «пирожки» будет стремиться к 99%, а вероятность слова «синхрофазотрон» — к 0%.
Эмерджентность: как из угадывания рождается понимание
Здесь возникает главный философский и технический вопрос: если модель просто играет в продвинутое Т9 (автодополнение), откуда у нее берутся знания о мире? Как она решает логические задачи?
Ответ кроется в понятии эмерджентности (emergence) — возникновении сложных свойств у системы, которые не были заложены в нее изначально.
Чтобы идеально предсказывать следующее слово в текстах по квантовой физике, модели недостаточно просто выучить статистику частого соседства слов. Ей приходится сформировать внутри своих нейронных связей абстрактную математическую модель физических законов.
Чтобы правильно продолжить детективный рассказ, модели нужно «понять» мотивы персонажей, хронологию событий и логику расследования.
> Нейросеть не копирует тексты в свою память (она не является базой данных). Она сжимает закономерности мира в математические формулы.
Пример из жизни: представьте, что вас заперли в библиотеке с книгами на неизвестном вам языке. У вас нет словаря. Но вы читаете миллионы книг. Со временем вы заметите, что после символа «А» часто идет символ «Б». Потом вы поймете структуру предложений. А прочитав тысячу книг по биологии, вы начнете понимать, как устроена клетка, просто анализируя паттерны символов. Именно это делает LLM.
Итог предварительного обучения: Базовая модель
Обучение на тысячах видеокарт (GPU) длится месяцами и стоит десятки миллионов долларов. В результате получается базовая модель (base model).
Базовая модель обладает колоссальными знаниями, но у нее есть одна проблема: она не умеет быть помощником. Она умеет только продолжать текст.
Если вы напишете базовой модели: «Как испечь шоколадный торт?», она не выдаст вам рецепт. Она может ответить: «Как испечь яблочный пирог?» или «Как приготовить блинчики?», потому что в интернете часто встречаются списки похожих вопросов на форумах.
Чтобы превратить этого эрудированного, но неконтролируемого генератора текста в полезного ChatGPT, который отвечает на вопросы и выполняет команды, требуется следующий шаг. О нем мы поговорим в следующей статье — «Тонкая настройка (Fine-tuning) и адаптация».