Голосовые технологии и LLM: от основ к реальным бизнес-задачам

Курс объясняет, как аудио преобразуется в текст [sber.ru](https://developers.sber.ru/help/salutespeech/how-speech-recognition-works) и обрабатывается нейросетями [rush-analytics.ru](https://www.rush-analytics.ru/blog/llm-eto). Вы изучите пайплайны взаимодействия ASR и LLM для создания голосовых агентов [fajarix.com](https://fajarix.com/blog/build-low-latency-voice-agent-a-production-architecture-guide).

1. Основы автоматического распознавания речи: от звуковой волны к тексту

Основы автоматического распознавания речи: от звуковой волны к тексту

Каждый раз, когда вы надиктовываете сообщение на ходу, просите умную колонку включить музыку или ищете адрес в навигаторе с помощью голоса, вы используете автоматическое распознавание речи (ASR — Automatic Speech Recognition). Эту технологию также часто называют Speech-to-Text (STT), что буквально переводится как «речь в текст».

Для пользователя этот процесс выглядит как магия: вы произносите слова, и они мгновенно появляются на экране. Однако под капотом скрывается сложнейшая система, которая за доли секунды переводит физические колебания воздуха в осмысленные цифровые данные.

Как звук превращается в данные

Человеческая речь — это звуковая волна, то есть физическое изменение давления воздуха. Микрофон вашего смартфона или ноутбука работает как электронное ухо: он улавливает эти колебания и превращает их в аналоговый электрический сигнал. Но компьютеры не понимают непрерывные волны, они работают только с цифрами (нулями и единицами).

Поэтому первый шаг — это оцифровка звука. Система измеряет высоту звуковой волны тысячи раз в секунду. Стандартная частота для распознавания речи составляет 16 000 измерений в секунду. Этого достаточно, чтобы уловить все нюансы человеческого голоса, не перегружая процессор лишними данными.

> Согласно ежегодному индексу ИИ Стэнфордского университета, уровень ошибок систем распознавания речи снизился с 43% в 2013 году до менее чем 5% для качественного английского аудио в 2025 году. > > fish.audio

Три этапа распознавания речи

Сырое цифровое аудио — это хаос из цифр. Чтобы извлечь из него смысл, современные системы sber.ru пропускают сигнал через три основных этапа обработки.

1. Фреймирование и создание спектрограммы

Непрерывный аудиопоток нарезается на крошечные фрагменты — фреймы (frames). Обычно длина одного фрейма составляет 20–25 миллисекунд.

Почему именно столько? За 25 миллисекунд речевой аппарат человека (губы, язык, голосовые связки) физически не успевает изменить свое положение. Поэтому звук внутри такого короткого отрезка можно считать статичным и неизменным.

Каждый фрейм анализируется и превращается в визуальный рисунок частот — спектрограмму. Грубо говоря, система делает «фотографию» звука, чтобы нейросеть могла рассматривать аудио так же, как она рассматривает картинки.

2. Акустическая модель: от звука к фонемам

Далее в дело вступает акустическая модель. Это нейронная сеть, которая обучена сопоставлять визуальные рисунки спектрограммы с фонемами — мельчайшими звуковыми единицами языка (например, звуки [м], [а], [р]).

Акустическая модель не знает слов и грамматики. Ее единственная задача — ответить на вопрос: «На какой звук больше всего похож этот 25-миллисекундный фрагмент?». Она оценивает вероятности. Например, для конкретного фрейма модель может решить, что с вероятностью 80% это звук [б] и с вероятностью 20% — звук [п].

3. Языковая модель: от фонем к смыслу

Если бы мы опирались только на акустическую модель, текст получался бы с огромным количеством ошибок. В потоке речи мы часто «проглатываем» окончания, говорим нечетко или сливаем слова воедино.

Здесь на помощь приходит языковая модель (Language Model). Она знает правила языка, популярные фразы и контекст. Языковая модель берет цепочку фонем и пытается собрать из них осмысленные слова и предложения mws.ru.

Представьте, что вы слышите фразу: «Я купил лук». Акустическая модель передаст звуки [л], [у], [к]. Но что именно купил человек — овощ или оружие? Если предыдущее предложение было «Я пошел на рынок за овощами», языковая модель поймет контекст.

Еще один классический пример из английского языка: фразы "I scream" (я кричу) и "Ice cream" (мороженое) звучат абсолютно одинаково. Только языковая модель может понять, что во фразе «Я люблю шоколадное...» правильным вариантом будет "Ice cream".

Архитектура умного ассистента: ASR + LLM + TTS

Само по себе распознавание речи (ASR) — это лишь «уши» компьютера. Чтобы машина могла не только услышать, но и понять вас, а затем ответить, ASR объединяют с большими языковыми моделями (LLM — Large Language Models) и технологиями синтеза речи (TTS — Text-to-Speech).

LLM — это мощный искусственный интеллект (как ChatGPT), который прочитал миллионы книг и статей. Он выступает в роли «мозга». А технология TTS, которая превращает напечатанный текст обратно в звуковую волну, служит «голосом».

!Схема взаимодействия пользователя с голосовым ассистентом: от речи к тексту, затем к нейросети и обратно в голос

Давайте разберем полный цикл взаимодействия на примере звонка в умную службу поддержки:

  • Пользователь говорит: «Где моя посылка номер 123?»
  • ASR (Speech-to-Text): Улавливает звук, очищает его от шума улицы, разбивает на фреймы и переводит в текстовую строку: "Где моя посылка номер 123?".
  • LLM (Мозг): Получает этот текст. Нейросеть понимает суть вопроса, обращается к базе данных магазина, находит статус заказа и генерирует текстовый ответ: "Ваша посылка находится в пункте выдачи и готова к получению".
  • TTS (Text-to-Speech): Берет сгенерированный текст и синтезирует из него плавную, естественную человеческую речь.
  • Пользователь слышит: Ответ в наушниках.
  • Весь этот цикл занимает менее секунды, создавая иллюзию живого общения с человеком.

    Реальные бизнес-задачи

    Голосовые технологии давно вышли за пределы забавных функций в смартфонах. Сегодня это мощный инструмент, который экономит компаниям миллионы долларов и кардинально меняет рабочие процессы skillfactory.ru.

    Автоматическая транскрибация и саммаризация встреч

    В корпоративном мире сотрудники проводят часы на онлайн-совещаниях в Zoom или Microsoft Teams. Часовая встреча — это примерно 15 страниц печатного текста. Раньше кто-то должен был вести протокол вручную.

    Сегодня система ASR в реальном времени переводит голоса всех участников в текст, разделяя реплики по спикерам (эта функция называется диаризация). Сразу после звонка этот огромный текст передается в LLM. Языковая модель за пару секунд анализирует 15 страниц и выдает краткую выжимку:

  • О чем договорились.
  • Какие задачи поставили.
  • Кто ответственный за каждый пункт.
  • Речевая аналитика в колл-центрах

    Представьте банк, операторы которого совершают 10 000 звонков в день. Прослушать их вручную, чтобы оценить качество работы сотрудников, физически невозможно. Менеджеры обычно слушают случайные 1–2% звонков, упуская массу важной информации.

    Связка ASR и LLM позволяет анализировать 100% разговоров. Система переводит все звонки в текст, а затем искусственный интеллект автоматически проверяет каждый диалог:

  • Поздоровался ли оператор по скрипту?
  • Не повышал ли он голос (акустическая модель может считывать эмоции по интонации)?
  • Решил ли он проблему клиента?
  • Если уровень ошибок распознавания (Word Error Rate, или ) составляет , текст получается достаточно точным, чтобы нейросеть могла выявить даже тонкие нюансы недовольства клиента. Бизнес получает детальную статистику: например, что 15% клиентов сегодня жаловались на неработающее приложение.

    Умные голосовые роботы

    В отличие от старых кнопочных меню («Нажмите 1 для связи с оператором»), современные голосовые роботы ведут естественный диалог. Они могут записать вас на стрижку, принять заказ на пиццу или проконсультировать по условиям кредита.

    Благодаря LLM робот не теряется, если клиент говорит путано или меняет тему на ходу. Например, если клиент диктует адрес, затем прерывается и говорит: «Ой, нет, давайте лучше на работу, улица Ленина 10», старый бот выдал бы ошибку. Современная связка ASR и LLM легко поймет исправление и примет правильный заказ.

    Понимание того, как звук превращается в текст и как этот текст затем обрабатывается языковыми моделями, открывает огромные возможности. В следующих материалах мы подробнее погрузимся в устройство больших языковых моделей и узнаем, как именно они учатся понимать смысл человеческих слов.