1. Классические метрики генерации текста: Perplexity, BLEU и ROUGE
На предыдущих этапах мы разобрали, как большие языковые модели (LLM) поглощают терабайты данных во время предварительного обучения и как они адаптируются к конкретным задачам с помощью тонкой настройки. Теперь перед нами стоит готовая нейросеть, которая умеет генерировать текст. Но возникает фундаментальный вопрос: как понять, что она работает хорошо?
Если мы попросим двух людей написать эссе на одну и ту же тему, тексты будут совершенно разными, но оба могут быть отличными. В отличие от математики, где , в генерации текста нет единственно верного ответа. Оценивать каждый ответ вручную с помощью людей-экспертов — это невероятно дорого и долго. Поэтому исследователям потребовались автоматизированные математические метрики, которые могли бы быстро и дешево измерять качество работы языковых моделей.
В этой статье мы разберем три классические метрики, которые стали фундаментом для оценки искусственного интеллекта в работе с текстом: Perplexity, BLEU и ROUGE.
Perplexity (Перплексия): Насколько нейросеть удивлена?
Первая и самая базовая метрика оценки языковой модели — это Perplexity (от английского слова perplexed — озадаченный, сбитый с толку). Эта метрика оценивает не финальный текст, а внутреннюю уверенность модели в момент его создания.
Как мы помним из архитектуры трансформеров, LLM генерирует текст шаг за шагом, предсказывая вероятность каждого следующего слова. Перплексия измеряет, насколько модель «удивлена» реальным текстом из тестовой выборки. Чем меньше модель удивляется правильным словам, тем лучше она обучена.
Математически перплексия тесно связана с понятием энтропии из теории информации и вычисляется по следующей формуле:
Где: * — значение перплексии. * — общее количество слов в тексте. * — вероятность, которую модель присвоила правильному -му слову. * — знак суммы (мы складываем логарифмы вероятностей всех слов).
Чтобы понять это без сложной математики, давайте представим, что перплексия — это среднее количество равновероятных вариантов, из которых модели приходится выбирать на каждом шаге.
Представьте, что модель должна продолжить фразу: «Зимой часто идет...». Если модель отлично обучена, она отдаст слову «снег» вероятность 99%. Она почти не сомневается. В этом случае ее перплексия будет близка к 1 (она выбирает как бы из одного очевидного варианта).
Если же модель обучена плохо, она может считать, что слова «снег», «дождь», «песок» и «камни» одинаково вероятны (по 25% на каждое). В этом случае ее перплексия будет равна 4. Модель «озадачена» выбором из четырех вариантов.
> Перплексия — это показатель неуверенности. Идеальная языковая модель имеет перплексию, стремящуюся к 1. Чем выше значение, тем хуже модель понимает структуру языка и контекст.
Перплексия отлично подходит для оценки этапа предварительного обучения (Pre-training), так как она вычисляется очень быстро. Однако у нее есть серьезный недостаток: она ничего не говорит о том, насколько осмысленным или полезным получился сгенерированный текст для конечного пользователя. Модель может иметь низкую перплексию, генерируя грамматически безупречную, но абсолютно бессмысленную чушь.
N-граммы: Базовый кирпичик текстовых метрик
Чтобы оценивать сам сгенерированный текст, исследователи обратились к концепции n-грамм (n-grams).
N-грамма — это последовательность из элементов (обычно слов), идущих подряд в тексте. Давайте разобьем предложение «Кот спит на столе» на разные n-граммы: * 1-граммы (униграммы): «Кот», «спит», «на», «столе». (Оценивают словарный запас). * 2-граммы (биграммы): «Кот спит», «спит на», «на столе». (Оценивают локальный контекст и грамматику). * 3-граммы (триграммы): «Кот спит на», «спит на столе». (Оценивают связность фраз).
Именно на подсчете совпадений этих n-грамм между текстом нейросети и текстом, написанным человеком (эталоном), строятся метрики BLEU и ROUGE.
BLEU: Оценка точности перевода
Метрика BLEU (Bilingual Evaluation Understudy) была разработана в 2002 году компанией IBM. Изначально она создавалась для оценки систем машинного перевода.
Главный вопрос, на который отвечает BLEU: «Какая доля слов и фраз, сгенерированных нейросетью, действительно присутствует в эталонном тексте человека?»
Этот подход в статистике называется Precision (Точность).
Допустим, у нас есть: * Эталонный текст (от человека): «Я люблю читать интересные книги». * Сгенерированный текст (от LLM): «Я люблю читать газеты».
Давайте посчитаем точность по 1-граммам (отдельным словам). В сгенерированном тексте 4 слова. Три из них («Я», «люблю», «читать») есть в эталоне. Слово «газеты» — ошибка. Точность = 3 / 4 = 0.75 (или 75%).
Однако, если бы модель сгенерировала текст «Я Я Я Я», точность по 1-граммам тоже была бы высокой, ведь слово «Я» есть в эталоне! Чтобы избежать такого мошенничества со стороны алгоритмов, BLEU делает две вещи:
Кроме того, в BLEU встроен штраф за краткость (Brevity Penalty). Если эталон состоит из 100 слов, а модель сгенерировала только одно идеальное слово, которое есть в эталоне, ее базовая точность была бы 100%. Штраф за краткость резко снижает итоговую оценку BLEU, если сгенерированный текст короче эталонного.
ROUGE: Оценка полноты содержания
Если BLEU пришел из мира машинного перевода, то метрика ROUGE (Recall-Oriented Understudy for Gisting Evaluation) была создана в 2004 году для оценки задач суммаризации (краткого пересказа текстов).
Главный вопрос, на который отвечает ROUGE: «Какую часть важной информации из эталонного текста смогла уловить и передать нейросеть?»
Этот подход называется Recall (Полнота).
Вернемся к нашему примеру: * Эталонный текст (5 слов): «Я люблю читать интересные книги». * Сгенерированный текст (4 слова): «Я люблю читать газеты».
Теперь мы смотрим со стороны эталона. В эталоне 5 слов. Сколько из них нейросеть смогла воспроизвести? Только 3 («Я», «люблю», «читать»). Слова «интересные» и «книги» потеряны. Полнота = 3 / 5 = 0.60 (или 60%).
Существует несколько вариантов этой метрики: * ROUGE-N: Считает совпадения конкретных n-грамм (например, ROUGE-1 для слов, ROUGE-2 для пар слов). ROUGE-L: Ищет Longest Common Subsequence* (наибольшую общую подпоследовательность). Этот метод не требует, чтобы слова шли строго друг за другом без разрывов, главное — чтобы сохранялся их общий порядок. Это позволяет модели получать высокие баллы, даже если она вставила пару новых слов в середину правильной фразы.
!Интерактивный калькулятор N-грамм
Сравнение и главная проблема классических метрик
Чтобы лучше понять разницу между подходами, давайте посмотрим на таблицу:
| Характеристика | BLEU (Точность / Precision) | ROUGE (Полнота / Recall) | | :--- | :--- | :--- | | Главная цель | Убедиться, что в ответе нет отсебятины и ошибок | Убедиться, что модель не упустила ничего важного | | За что наказывает | За генерацию лишних слов, которых нет в эталоне | За пропуск слов, которые есть в эталоне | | Идеальное применение | Машинный перевод, генерация кода | Краткий пересказ (суммаризация), извлечение фактов |
Несмотря на то, что BLEU и ROUGE стали индустриальными стандартами и используются до сих пор, у них есть один фатальный недостаток. Они абсолютно слепы к смыслу текста.
Эти метрики работают исключительно на уровне символьного совпадения. Представьте ситуацию: * Эталон: «Автомобиль быстро едет». * Ответ модели: «Машина стремительно мчится».
Любой человек скажет, что модель справилась на 100%, так как смысл передан идеально. Но метрики BLEU и ROUGE поставят модели 0 баллов, потому что ни одно слово (1-грамма) не совпало буквально. Алгоритм не знает, что «автомобиль» и «машина» — это синонимы.
Именно из-за этого ограничения по мере развития Больших Языковых Моделей исследователям пришлось изобретать совершенно новые способы оценки, основанные на понимании смысла, логики и способности решать комплексные задачи. О том, как работают современные бенчмарки вроде MMLU и HumanEval, мы поговорим на следующем этапе нашего курса.