Знакомство с ИИ: Принципы работы и существующие ограничения

1. Введение: Что такое генеративный ИИ и как он работает

Введение: Что такое генеративный ИИ и как он работает

Приветствую вас на курсе. Вы задали отличный вопрос для старта. Чтобы понять, есть ли у меня (и у технологии в целом) ограничения, нужно сначала разобраться, как именно работает этот «мозг» под капотом. Спойлер: никакой магии здесь нет, только математика, статистика и огромные объемы данных.

В этой первой статье мы разберем фундамент генеративного искусственного интеллекта (GenAI), отличим его от обычных алгоритмов и заглянем внутрь процесса «мышления» машины.

Генеративный ИИ против Традиционного ИИ

Долгое время искусственный интеллект был преимущественно дискриминативным (от слова discriminate — различать). Его задача сводилась к классификации или анализу уже существующих данных.

Пример традиционного ИИ: * Вы показываете фото кота. * ИИ анализирует пиксели и говорит: «С вероятностью 99% это кот». * Он не создает ничего нового, он лишь вешает ярлык.

Генеративный ИИ работает иначе. Его цель — создание нового контента, которого раньше не существовало.

Пример генеративного ИИ: * Вы говорите: «Нарисуй кота в скафандре на Марсе». * ИИ обращается к своей памяти (обученным весам) и генерирует уникальное изображение пиксель за пикселем.

Согласно РБК Тренды, генеративный ИИ — это класс моделей машинного обучения, которые могут создавать новый контент: текст, изображения, код, музыку, видео и даже 3D-сцены.

Как это работает: Принцип «Т9 на стероидах»

Если упростить до предела, то большие языковые модели (LLM), такие как GPT, Claude или Llama, — это невероятно продвинутая функция автозаполнения. Их главная задача — предсказать следующее слово (или часть слова) в последовательности.

Однако, в отличие от Т9 в старых телефонах, современные модели учитывают не только предыдущее слово, но и весь контекст разговора, стиль, тон и сложные логические связи.

1. Токенизация: Язык цифр

Компьютеры не понимают слова, они понимают только числа. Поэтому любой текст сначала разбивается на кусочки — токены.

Токен может быть: * Целым словом: apple * Частью слова: ing в слове playing * Символом или пробелом.

В среднем 1000 токенов — это примерно 750 слов английского текста (для русского языка расход токенов обычно выше из-за особенностей морфологии).

2. Векторное представление (Embeddings)

После превращения в токены, каждое слово преобразуется в вектор — длинный список чисел, который определяет «смысл» слова в многомерном пространстве.

Представьте упрощенную систему координат, где близкие по смыслу слова находятся рядом. Например, слово «Король» будет математически ближе к слову «Королева», чем к слову «Яблоко».

Для определения схожести слов используется понятие расстояния между векторами. В упрощенном виде для двух слов (векторов) и это можно представить через формулу Евклидова расстояния:

Где: * — расстояние между словами и (чем меньше число, тем ближе смысл). * — количество измерений в векторе (в современных моделях их тысячи). * — координата -го измерения для слова . * — координата -го измерения для слова . * — знак суммы, означающий сложение всех разностей координат.

Благодаря этому ИИ понимает, что если вы просите «рецепт борща», то слова «свекла», «капуста» и «варить» имеют высокую вероятность появления рядом, а слово «асфальт» — низкую.

3. Механизм внимания (Attention)

Революция произошла с появлением архитектуры Трансформер (Transformer). Главная фишка этой архитектуры — механизм внимания. Он позволяет модели фокусироваться на важных частях предложения, игнорируя шум.

В предложении «Банк отказал в кредите, потому что он был ненадежным», слово «он» относится к банку или к заемщику? Механизм внимания помогает модели понять связь между словами на основе контекста, присваивая каждому слову определенный «вес» важности.

Процесс генерации: Вероятности и выбор

Когда вы задаете вопрос, модель не ищет готовый ответ в базе данных (как поисковик). Она генерирует ответ с нуля, слово за словом.

На каждом шаге модель рассчитывает вероятность для всех возможных следующих слов в своем словаре. Для преобразования сырых чисел в вероятности используется функция Softmax:

Где: * — вероятность того, что -е слово является следующим правильным словом (число от 0 до 1). * — исходная оценка (score), которую модель дала -му слову. * — математическая константа (число Эйлера, ). * — общее количество слов в словаре модели. * — сумма экспонент оценок всех возможных слов (нужна для нормировки, чтобы сумма всех вероятностей была равна 1).

Пример: Фраза: «Мама мыла...» Модель рассчитывает вероятности: * «раму» — 75% * «посуду» — 15% * «руки» — 9% * «кота» — 1%

Обычно модель выбирает вариант с самой высокой вероятностью, но иногда добавляется элемент случайности (параметр Temperature), чтобы ответы были более «креативными» и разнообразными.

Ограничения генеративного ИИ

Вы спросили: «У тебя есть какие-то ограничения?». Ответ — да, и они фундаментальны. Понимание этих ограничений критически важно для эффективной работы.

1. Галлюцинации

Так как модель работает на вероятностях, а не на фактах, она может уверенно генерировать ложную информацию. Если наиболее вероятное следующее слово складывается в неправду, модель все равно его напишет.

> Генеративный ИИ может создавать контент, который выглядит правдоподобно, но фактически неверен. > > По данным UNESCO

2. Контекстное окно

У каждой модели есть «краткосрочная память» — объем текста, который она может удержать во внимании за один раз. Если беседа затягивается, модель начинает «забывать» начало разговора.

3. Отсутствие понимания физического мира

ИИ не знает, что такое «боль» или «тяжесть» на физическом уровне. Он знает лишь, как эти слова употребляются в текстах. Поэтому он может предложить рецепт клея для пиццы (реальный случай с одним из поисковых ИИ), потому что семантически слова сочетались, но логически это абсурд.

4. Предвзятость (Bias)

Модель учится на данных из интернета. Если в интернете преобладают определенные стереотипы, модель будет их воспроизводить.

Итоги

Резюмируем ключевые принципы работы генеративного ИИ:

Генерация, а не поиск: ИИ создает новый контент, предсказывая следующее слово на основе вероятностей, а не копирует готовые ответы из базы.

Токены и Векторы: Текст превращается в числа (токены), а смысл слов кодируется через многомерные векторы, где близкие по смыслу понятия находятся рядом математически.

Вероятностная природа: Ответ модели — это результат вычисления наиболее вероятного продолжения текста по формуле Softmax, что иногда приводит к ошибкам (галлюцинациям).

Ограничения: ИИ не обладает сознанием, может выдумывать факты и ограничен объемом контекста, который может обработать за раз.

2. Основные возможности: генерация текста, анализ и обучение

Основные возможности: генерация текста, анализ и обучение

В предыдущей статье мы заглянули «под капот» искусственного интеллекта и выяснили, что в его основе лежит не магия, а математика, токены и вероятности. Теперь, понимая принцип работы двигателя, давайте разберемся, куда этот автомобиль может нас привезти.

Многие воспринимают современные LLM (Large Language Models) просто как «умный чат». Но их функционал гораздо шире. Глобально возможности генеративного ИИ можно разделить на три кита: генерация (созидание), анализ (понимание) и обучение (адаптация).

1. Генерация: От стихов до программного кода

Генерация — это самая очевидная функция. Но если раньше компьютеры могли генерировать текст только по жестким шаблонам (например, автоматические письма от банка), то нейросети создают уникальный контент на лету.

Как это работает на практике?

Когда вы просите модель написать текст, она не копирует куски из интернета. Она предсказывает, какое слово лучше всего подходит к предыдущему, учитывая заданный стиль и формат. Это позволяет решать задачи разного уровня сложности:

* Креативное письмо: Эссе, сценарии, стихи, маркетинговые слоганы. * Трансформация стиля: Превращение сложного юридического документа в понятную инструкцию для ребенка. * Написание кода: Модели вроде GPT-4 или Claude обучены на гигабайтах кода с GitHub, поэтому они могут писать программы на Python, JavaScript и C++.

Согласно SMMplanner, современные генераторы могут не просто писать текст, но и адаптировать его под конкретную тональность (Tone of Voice), что критически важно для бизнеса.

Математика креативности: Температура

Почему на один и тот же запрос ИИ может давать разные ответы? За это отвечает параметр Temperature (Температура). Это коэффициент, который вносит хаос в выбор следующего токена.

Если представить процесс выбора слова как бросок кубика, то: * Низкая температура (0.1 – 0.3): ИИ всегда выбирает самый вероятный вариант. Ответы сухие, точные, логичные. * Высокая температура (0.7 – 1.0): ИИ может выбрать менее вероятное слово, что приводит к неожиданным и креативным оборотам.

2. Анализ: Понимание смысла и структуры

Вторая, часто недооцененная суперсила ИИ — это способность анализировать огромные массивы текста и извлекать из них смысл. Это возможно благодаря векторным представлениям (Embeddings), о которых мы говорили в первой статье.

Семантический поиск и классификация

Традиционный поиск (Ctrl+F) ищет точное совпадение символов. ИИ ищет совпадение смыслов.

Представьте, что у вас есть база отзывов клиентов. Вы хотите найти все жалобы на доставку. Обычный поиск по слову «доставка» пропустит отзыв: «Курьер ехал три часа, еда остыла». ИИ же поймет, что этот текст семантически близок к понятию «проблема с логистикой».

Для определения этой близости используется математическая операция, называемая косинусным сходством (Cosine Similarity). Она показывает, насколько «близко» друг к другу находятся два вектора (текста) в многомерном пространстве.

Где: * — степень схожести текстов и (число от -1 до 1, где 1 — полная идентичность). * — скалярное произведение векторов (сумма произведений соответствующих координат). * и — длины (нормы) векторов и . * и — конкретные числа (координаты) в векторном представлении слов.

Проще говоря: если угол между векторами равен 0 градусов, косинус равен 1 — тексты идентичны по смыслу. Если 90 градусов, косинус равен 0 — тексты не имеют ничего общего.

Практическое применение анализа:

Саммаризация: Сжатие 50 страниц отчета в 3 абзаца с сохранением сути.

Sentiment Analysis: Определение тональности (позитив/негатив/нейтрально).

Извлечение сущностей: ИИ может прочитать неструктурированный текст (например, диалог с клиентом) и вернуть чистый JSON с полями: {"name": "Ivan", "order_id": 123, "problem": "refund"}.

3. Обучение: Как модель становится умной

Часто возникает путаница: учится ли модель, пока я с ней разговариваю?

Важно: В рамках обычного чата модель обладает только «краткосрочной памятью» (контекстным окном). Как только вы закрываете вкладку, она «забывает» разговор. Глобальное обучение происходит иначе и состоит из трех этапов.

Этап 1: Pre-training (Предварительное обучение)

Это самый дорогой и долгий этап. Модели «скармливают» терабайты текста из интернета (Википедия, книги, статьи). Задача модели на этом этапе проста: угадать следующее слово.

Здесь используется функция потерь (Loss Function), которая показывает, насколько сильно ошиблась нейросеть. Одной из популярных функций является перекрестная энтропия (Cross-Entropy Loss):

Где: * — значение ошибки (Loss). Чем оно меньше, тем лучше работает модель. * — знак суммы, означающий, что мы суммируем значения для всех возможных слов. * — истинная вероятность (1 для правильного слова, 0 для остальных). * — натуральный логарифм. * — вероятность, которую предсказала модель для слова .

Пример: Модель должна угадать слово после «Мама мыла...». Правильное слово — «раму». * Если модель говорит, что вероятность слова «раму» равна 0.9 (90%), то ошибка . Ошибка маленькая. * Если модель говорит, что вероятность слова «раму» равна 0.1 (10%), то ошибка . Ошибка большая, модель получает «штраф» и корректирует свои веса.

Этап 2: Fine-tuning (Дообучение)

После первого этапа модель знает язык, но не умеет выполнять инструкции. Она может на вопрос «Как испечь пирог?» начать генерировать похожие вопросы вместо ответа.

На этапе Fine-tuning модель обучают на качественных примерах формата «Вопрос — Идеальный ответ». Это специализирует модель под конкретные задачи (медицина, кодинг, чат-бот поддержки).

Этап 3: RLHF (Reinforcement Learning from Human Feedback)

Это обучение с подкреплением на основе отзывов людей. Человеку показывают два варианта ответа модели и просят выбрать лучший (более точный, безопасный, этичный).

По данным Mindsmith, именно развитие критической оценки и понимание ограничений модели (которые выявляются на этапе RLHF) позволяют сделать ИИ безопасным для массового использования. Без этого этапа модель могла бы выдавать инструкции по созданию опасных веществ или грубить пользователям.

Итоги

Мы разобрали три фундаментальные возможности генеративного ИИ:

Генерация: Способность создавать новый уникальный контент (текст, код, переводы), управляя степенью креативности через параметр Temperature.

Анализ: Использование векторной математики (косинусное сходство) для понимания смысла текста, поиска информации и извлечения данных, а не простого сравнения ключевых слов.

Обучение: Сложный процесс, включающий чтение интернета (Pre-training), настройку на примерах (Fine-tuning) и шлифовку с участием людей (RLHF). В обычном чате модель не обучается глобально, а лишь использует контекст текущей беседы.