1. Основы LLM и современный ландшафт Open Source моделей
Основы LLM и современный ландшафт Open Source моделей
В 2017 году группа исследователей Google опубликовала статью «Attention Is All You Need», которая навсегда изменила облик компьютерных наук. В ней была представлена архитектура Transformer. Спустя несколько лет мир увидел ChatGPT, а сегодня мы находимся в точке, где модель с открытым исходным кодом, запущенная на обычном домашнем компьютере, может соревноваться в логике и эрудиции с мощнейшими суперкомпьютерами недавнего прошлого. Но что именно происходит внутри этих «черных ящиков» и почему Open Source внезапно стал реальной альтернативой закрытым гигантам вроде GPT-4?
От статистического прогноза к эмерджентному интеллекту
По своей сути любая большая языковая модель (LLM) — это колоссальная математическая функция, которая занимается одной задачей: предсказанием следующего фрагмента текста. Если вы дадите модели фразу «Кот сидит на...», она не «думает» о животном. Она вычисляет распределение вероятностей для следующего слова на основе колоссального объема данных, на которых она обучалась.
Однако при достижении определенного масштаба — когда количество параметров измеряется миллиардами, а объем обучающих текстов триллионами токенов — происходит качественный скачок. Появляются так называемые эмерджентные способности: модель начинает демонстрировать логическое мышление, умение программировать и даже понимание сарказма, хотя ее этому никто эксплицитно не учил.
Чтобы понять, как это работает, нужно разобрать три фундаментальных компонента: токены, веса и контекстное окно.
Токенизация: как ИИ «читает»
Модели не работают с буквами или словами напрямую. Весь текст разбивается на токены — смысловые единицы. Это могут быть целые слова, части слов или даже отдельные символы.
> Токенизация — это процесс преобразования сырого текста в последовательность числовых идентификаторов, которые модель может обрабатывать математически.
Для английского языка один токен в среднем составляет 0.75 слова. Для русского языка из-за сложной морфологии ситуация иная: кириллические слова часто разбиваются на большее количество токенов, что делает обработку русского текста чуть более «дорогой» с точки зрения вычислительных ресурсов и лимитов памяти.
Параметры и веса: нейронная память
Когда мы говорим, что модель имеет «7 миллиардов параметров» (7B), мы имеем в виду количество внутренних переменных (весов), которые настраиваются в процессе обучения. Представьте себе гигантский пульт управления с 7 миллиардами ползунков. Положение каждого ползунка определяет, как входящий сигнал будет преобразовываться в исходящий.
Математически это выглядит как серия операций умножения матриц. Если входной вектор (представление текста) обозначить как , а матрицу весов слоя как , то результат слоя (упрощенно) вычисляется как:
Здесь — матрица весов, — вектор входных данных, — вектор смещения (bias), а — нелинейная функция активации, которая позволяет нейросети решать сложные задачи, выходящие за рамки простой линейной регрессии.
Именно эти веса и составляют «знания» модели. Когда вы скачиваете локальную модель весом 5 ГБ или 50 ГБ, вы скачиваете именно значения этих параметров.
Архитектура Transformer: механизм внимания
До появления трансформеров доминировали рекуррентные нейронные сети (RNN), которые читали текст последовательно, слово за словом. Это было медленно и приводило к «забыванию» начала длинного предложения к моменту прочтения конца.
Трансформеры ввели механизм Self-Attention (самовнимание). Он позволяет модели при обработке конкретного слова «смотреть» на все остальные слова в предложении одновременно, определяя их релевантность.
В этой формуле:
Благодаря этому механизму модель понимает, что в предложении «Банк закрыл счет, потому что он обанкротился» слово «он» относится к «банку», а не к «счету».
Ландшафт Open Source: почему это важно
Долгое время создание мощных LLM было прерогативой корпораций с бюджетами в сотни миллионов долларов (OpenAI, Google, Anthropic). Однако движение Open Source (или, точнее, Open Weights — модели с открытыми весами) совершило прорыв.
Почему локальные модели — это не просто «бесплатная замена»?
Ключевые семейства моделей
На текущий момент на рынке Open Source доминируют несколько «династий»:
* Llama (от Meta): Золотой стандарт. Релиз Llama 1 стал «моментом Linux» для нейросетей. Llama 3 — текущий лидер в категориях 8B и 70B параметров, обладающий колоссальной эрудицией и отличным пониманием инструкций. * Mistral / Mixtral (от Mistral AI): Французские модели, которые ввели моду на архитектуру MoE (Mixture of Experts). Вместо одной гигантской модели они используют ансамбль «экспертов», из которых для каждого токена активируются только два. Это позволяет модели уровня 47B работать со скоростью модели 12B. * Gemma (от Google): Облегченные версии технологий, используемых в Gemini. Отличаются хорошей математической базой и логикой. * Qwen (от Alibaba): Китайские модели, которые на текущий момент часто обходят западные аналоги в тестах на программирование и знание точных наук. * DeepSeek: Еще один сильный игрок из Китая, специализирующийся на кодинге и математике, предлагающий невероятную эффективность на единицу параметров.
Как читать названия моделей: расшифровка маркировки
Когда вы зайдете на Hugging Face (главный репозиторий моделей), вы увидите названия вроде Llama-3-8B-Instruct-v0.1-GGUF. Давайте разберем этот шифр:
Проблема контекстного окна
Контекстное окно — это «оперативная память» модели. Это максимальное количество токенов (включая ваш вопрос и историю переписки), которое модель может удерживать в фокусе внимания одновременно.
Если контекстное окно модели составляет 8 192 токена, то при превышении этого лимита модель начнет «забывать» начало разговора. Современные модели (например, Llama 3 или Mistral) поддерживают от 32k до 128k токенов, что позволяет загружать в них целые книги или десятки файлов кода.
Однако важно понимать: чем больше контекста вы используете, тем больше памяти (VRAM) требуется и тем медленнее работает генерация. Это связано с тем, что сложность вычисления внимания в классическом трансформере растет квадратично от длины последовательности :
Хотя современные методы (такие как Flash Attention или RoPE — Rotary Positional Embeddings) оптимизируют этот процесс, лимит физической памяти устройства остается главным ограничителем.
Жизненный цикл создания LLM: от Pre-training до RLHF
Чтобы вы понимали, почему создание модели стоит миллионы, а использование — копейки, рассмотрим этапы «взросления» нейросети.
1. Pre-training (Предварительное обучение)
Это самый дорогой этап. Модели дают прочитать «весь интернет» (Common Crawl, Wikipedia, GitHub, StackOverflow). На этом этапе модель учится предсказывать следующее слово. Она узнает, что после «Париж — столица...» должно идти «Франции». Результат: Base Model (Базовая модель). Она знает факты, но не умеет общаться. Если вы спросите ее «Как испечь пирог?», она может ответить списком других вопросов, потому что видела такие списки в интернете.2. SFT (Supervised Fine-Tuning)
Модель обучают на специально подготовленных наборах данных «Вопрос — Ответ». Здесь она учится формату диалога и пониманию команд. Результат: Instruct / Chat модель.3. RLHF (Reinforcement Learning from Human Feedback)
Обучение с подкреплением на основе отзывов людей. Людям показывают два варианта ответа модели, и они выбирают лучший. Так модель учится быть полезной, вежливой и безопасной. Результат: Финальная версия модели, которую мы видим в чат-ботах.Для локального инженера наиболее интересны этапы Fine-tuning (когда мы берем готовую модель и доучиваем ее на своих данных) и Quantization (когда мы сжимаем модель для запуска на домашнем ПК).
Современные вызовы и ограничения
Несмотря на прогресс, LLM — это не «магический интеллект», а сложный статистический инструмент. У них есть родовые травмы:
Будущее: Агенты и локальность
Мы переходим от эпохи «чат-ботов» (где вы просто переписываетесь с моделью) к эпохе «агентов». Агент — это LLM, у которой есть инструменты: доступ к браузеру, калькулятору, терминалу Python или вашей файловой системе.
Локальные модели здесь играют ключевую роль. Запуск агента на базе платного API (например, GPT-4) может стоить десятки долларов за одну сложную задачу из-за огромного количества циклов «размышлений» и передачи контекста. Локальная модель позволяет запускать тысячи итераций бесплатно.
Инженер локальных LLM сегодня — это человек, который умеет:
В следующей главе мы перейдем от теории к практике и разберем, как превратить ваш компьютер в сервер для запуска этих мощных систем, используя Ollama и LM Studio, и какие требования предъявляет современный ИИ к «железу».