1. Введение: Что такое генеративный ИИ и как он работает
Введение: Что такое генеративный ИИ и как он работает
Приветствую вас на курсе. Вы задали отличный вопрос для старта. Чтобы понять, есть ли у меня (и у технологии в целом) ограничения, нужно сначала разобраться, как именно работает этот «мозг» под капотом. Спойлер: никакой магии здесь нет, только математика, статистика и огромные объемы данных.
В этой первой статье мы разберем фундамент генеративного искусственного интеллекта (GenAI), отличим его от обычных алгоритмов и заглянем внутрь процесса «мышления» машины.
Генеративный ИИ против Традиционного ИИ
Долгое время искусственный интеллект был преимущественно дискриминативным (от слова discriminate — различать). Его задача сводилась к классификации или анализу уже существующих данных.
Пример традиционного ИИ: * Вы показываете фото кота. * ИИ анализирует пиксели и говорит: «С вероятностью 99% это кот». * Он не создает ничего нового, он лишь вешает ярлык.
Генеративный ИИ работает иначе. Его цель — создание нового контента, которого раньше не существовало.
Пример генеративного ИИ: * Вы говорите: «Нарисуй кота в скафандре на Марсе». * ИИ обращается к своей памяти (обученным весам) и генерирует уникальное изображение пиксель за пикселем.
Согласно РБК Тренды, генеративный ИИ — это класс моделей машинного обучения, которые могут создавать новый контент: текст, изображения, код, музыку, видео и даже 3D-сцены.
Как это работает: Принцип «Т9 на стероидах»
Если упростить до предела, то большие языковые модели (LLM), такие как GPT, Claude или Llama, — это невероятно продвинутая функция автозаполнения. Их главная задача — предсказать следующее слово (или часть слова) в последовательности.
Однако, в отличие от Т9 в старых телефонах, современные модели учитывают не только предыдущее слово, но и весь контекст разговора, стиль, тон и сложные логические связи.
1. Токенизация: Язык цифр
Компьютеры не понимают слова, они понимают только числа. Поэтому любой текст сначала разбивается на кусочки — токены.
Токен может быть:
* Целым словом: apple
* Частью слова: ing в слове playing
* Символом или пробелом.
В среднем 1000 токенов — это примерно 750 слов английского текста (для русского языка расход токенов обычно выше из-за особенностей морфологии).
2. Векторное представление (Embeddings)
После превращения в токены, каждое слово преобразуется в вектор — длинный список чисел, который определяет «смысл» слова в многомерном пространстве.
Представьте упрощенную систему координат, где близкие по смыслу слова находятся рядом. Например, слово «Король» будет математически ближе к слову «Королева», чем к слову «Яблоко».
Для определения схожести слов используется понятие расстояния между векторами. В упрощенном виде для двух слов (векторов) и это можно представить через формулу Евклидова расстояния:
Где: * — расстояние между словами и (чем меньше число, тем ближе смысл). * — количество измерений в векторе (в современных моделях их тысячи). * — координата -го измерения для слова . * — координата -го измерения для слова . * — знак суммы, означающий сложение всех разностей координат.
Благодаря этому ИИ понимает, что если вы просите «рецепт борща», то слова «свекла», «капуста» и «варить» имеют высокую вероятность появления рядом, а слово «асфальт» — низкую.
3. Механизм внимания (Attention)
Революция произошла с появлением архитектуры Трансформер (Transformer). Главная фишка этой архитектуры — механизм внимания. Он позволяет модели фокусироваться на важных частях предложения, игнорируя шум.
В предложении «Банк отказал в кредите, потому что он был ненадежным», слово «он» относится к банку или к заемщику? Механизм внимания помогает модели понять связь между словами на основе контекста, присваивая каждому слову определенный «вес» важности.
Процесс генерации: Вероятности и выбор
Когда вы задаете вопрос, модель не ищет готовый ответ в базе данных (как поисковик). Она генерирует ответ с нуля, слово за словом.
На каждом шаге модель рассчитывает вероятность для всех возможных следующих слов в своем словаре. Для преобразования сырых чисел в вероятности используется функция Softmax:
Где: * — вероятность того, что -е слово является следующим правильным словом (число от 0 до 1). * — исходная оценка (score), которую модель дала -му слову. * — математическая константа (число Эйлера, ). * — общее количество слов в словаре модели. * — сумма экспонент оценок всех возможных слов (нужна для нормировки, чтобы сумма всех вероятностей была равна 1).
Пример: Фраза: «Мама мыла...» Модель рассчитывает вероятности: * «раму» — 75% * «посуду» — 15% * «руки» — 9% * «кота» — 1%
Обычно модель выбирает вариант с самой высокой вероятностью, но иногда добавляется элемент случайности (параметр Temperature), чтобы ответы были более «креативными» и разнообразными.
Ограничения генеративного ИИ
Вы спросили: «У тебя есть какие-то ограничения?». Ответ — да, и они фундаментальны. Понимание этих ограничений критически важно для эффективной работы.
1. Галлюцинации
Так как модель работает на вероятностях, а не на фактах, она может уверенно генерировать ложную информацию. Если наиболее вероятное следующее слово складывается в неправду, модель все равно его напишет.> Генеративный ИИ может создавать контент, который выглядит правдоподобно, но фактически неверен. > > По данным UNESCO
2. Контекстное окно
У каждой модели есть «краткосрочная память» — объем текста, который она может удержать во внимании за один раз. Если беседа затягивается, модель начинает «забывать» начало разговора.3. Отсутствие понимания физического мира
ИИ не знает, что такое «боль» или «тяжесть» на физическом уровне. Он знает лишь, как эти слова употребляются в текстах. Поэтому он может предложить рецепт клея для пиццы (реальный случай с одним из поисковых ИИ), потому что семантически слова сочетались, но логически это абсурд.4. Предвзятость (Bias)
Модель учится на данных из интернета. Если в интернете преобладают определенные стереотипы, модель будет их воспроизводить.Итоги
Резюмируем ключевые принципы работы генеративного ИИ: