1. Базовые понятия и фундамент ИИ
Базовые понятия и фундамент ИИ
Представьте себе: летом 1956 года в Дартмутском колледже небольшая группа математиков и инженеров собралась, чтобы обсудить смелую гипотезу. Они верили, что любой аспект человеческого обучения можно описать настолько точно, что машину удастся заставить его симулировать. Этот двухмесячный семинар подарил миру термин искусственный интеллект (ИИ). Спустя десятилетия эта академическая концепция превратилась в индустрию с оборотом в сотни миллиардов долларов, став фундаментом для современных IT-продуктов.
Для инженера-разработчика понимание того, как ИИ-системы устроены «под капотом», — это граница между простым потребителем API и архитектором, способным создавать масштабируемые и надежные решения.
Разница между ИИ, ML и DL
В медиа термины ИИ, машинное обучение и глубокое обучение часто смешивают, но технически они представляют собой строгую иерархию, подобную матрешке.
Искусственный интеллект (Artificial Intelligence, AI) — это самая широкая концепция. Она описывает любую компьютерную систему, способную выполнять задачи, традиционно требующие человеческого разума. Ранние шахматные программы 1990-х годов были ИИ, но они работали на базе жестких правил (if-then-else), написанных программистами.
Машинное обучение (Machine Learning, ML) — это подмножество ИИ, совершившее революцию в подходе к программированию. Вместо написания точных инструкций разработчик предоставляет алгоритму данные, и система сама находит в них математические закономерности.
Глубокое обучение (Deep Learning, DL) — это узкое подмножество машинного обучения, основанное на многослойных искусственных нейронных сетях. Именно этот подход позволил совершить прорыв в работе с неструктурированными данными: текстом, звуком и изображениями.
| Концепция | Принцип работы | Зависимость от данных | Пример из индустрии | | :--- | :--- | :--- | :--- | | Искусственный интеллект | Исполнение заложенной логики или эвристик | Низкая (правила пишет человек) | Бот в видеоигре, атакующий при сближении с игроком | | Машинное обучение | Поиск статистических связей в таблицах | Средняя (требуются тысячи примеров) | Банковский скоринг, одобряющий кредит на основе истории | | Глубокое обучение | Извлечение сложных паттернов через слои нейронов | Высокая (требуются миллионы примеров) | Система автопилота Tesla, распознающая пешеходов |
Типы обучения алгоритмов
Алгоритмы машинного обучения извлекают знания разными путями. Выбор конкретного подхода всегда диктуется типом доступных данных и конечной бизнес-задачей.
Обучение с учителем (Supervised Learning)
Модель обучается на размеченных данных, где для каждого примера заранее известен правильный ответ (целевая переменная). Алгоритм ищет математическую функцию, которая связывает входные параметры с ответом.
Представим задачу оценки стоимости подержанных автомобилей. У нас есть таблица из 50 000 строк, где указаны год выпуска, пробег, объем двигателя и итоговая цена продажи. Модель анализирует эти данные. Если после обучения подать на вход автомобиль 2018 года с пробегом 60 000 км, модель предскажет цену в 1 500 000 руб., опираясь на выученные веса каждого параметра.
Обучение без учителя (Unsupervised Learning)
В этом сценарии правильных ответов нет. Модель получает массив сырых данных и должна самостоятельно найти в них скрытую структуру, аномалии или сгруппировать похожие объекты (кластеризация).
Например, стриминговый сервис загружает историю прослушиваний 1 000 000 пользователей. Алгоритм кластеризации делит их на 15 сегментов: «любители инди-рока», «фанаты подкастов», «слушатели фоновой музыки» и так далее. Разработчик заранее не задавал эти категории — алгоритм сам нашел сгустки похожих профилей.
Обучение с подкреплением (Reinforcement Learning)
Модель, называемая агентом, помещается в виртуальную среду, где она должна принимать последовательные решения. За полезные действия агент получает математическую «награду», за ошибочные — «штраф». Цель — максимизировать суммарную награду.
Именно так обучают алгоритмы для управления системами охлаждения в дата-центрах. За каждое снижение температуры на градус алгоритм получает +5 баллов, а за перерасход электроэнергии получает штраф -10 баллов. Спустя миллионы симуляций агент находит идеальный баланс.
Данные в ИИ: датасеты, признаки и разметка
В инженерии машинного обучения существует железное правило: Garbage in, garbage out (мусор на входе — мусор на выходе). Самая совершенная архитектура нейросети выдаст плохой результат, если ее обучить на некачественных данных.
Каждый объект в датасете (наборе данных) описывается признаками (features). В задаче предсказания оттока клиентов признаками будут: количество дней с последней покупки, средний чек и количество обращений в поддержку.
Процесс присвоения правильных ответов сырым данным называется разметкой (labeling). Это самый дорогой этап создания узкоспециализированных моделей.
Если медицинский стартап хочет создать систему поиска опухолей на рентгеновских снимках, ему придется нанять врачей-рентгенологов для ручной разметки. При стоимости разметки одного снимка в 300 руб. и необходимости собрать датасет из 100 000 изображений, бюджет только на подготовку данных составит 30 000 000 руб.
Жизненный цикл модели: обучение и инференс
Жизнь любой ИИ-модели строго делится на два этапа, которые кардинально различаются по требованиям к инфраструктуре.
Обучение (Training) — это процесс, при котором алгоритм многократно «просматривает» датасет и корректирует свои внутренние параметры, чтобы минимизировать ошибку предсказания. Это колоссальная вычислительная задача. Обучение современной языковой модели может требовать кластера из 16 000 графических процессоров (GPU), работать непрерывно 4 месяца и стоить около 20 000 000 долл. за аренду мощностей.
Инференс (Inference) — это применение уже обученной модели к новым, ранее не виданным данным. Когда вы просите чат-бота написать код, происходит инференс. Этот процесс требует в тысячи раз меньше ресурсов. Генерация ответа на ваш запрос занимает около 1 секунды и обходится провайдеру примерно в 0.002 долл.
Нейронные сети: математика под капотом
Искусственные нейронные сети лишь отдаленно вдохновлены биологическим мозгом. На практике это сложные графы математических вычислений. Сеть состоит из слоев нейронов (узлов).
Каждый нейрон принимает сигналы от предыдущего слоя, умножает их на определенные коэффициенты, суммирует и пропускает через функцию активации.
Базовая математическая модель нейрона выглядит следующим образом:
Где — выходной сигнал нейрона, — функция активации (добавляет нелинейность, без которой сеть могла бы решать только простейшие линейные задачи), — веса (определяют важность каждого входящего сигнала), — входные данные от предыдущих нейронов, — смещение (позволяет сдвигать график функции для большей гибкости), — количество входных связей.
В процессе обучения нейросеть подбирает такие значения и для миллиардов нейронов, чтобы итоговый ответ был максимально точным. Если сеть ошибается, запускается алгоритм обратного распространения ошибки, который микроскопически меняет веса в нужную сторону.
Эволюция архитектур: от CNN до Трансформеров
Разные типы данных требуют специфических подходов к обработке. За годы развития глубокого обучения сформировались три доминирующие архитектуры.
> Механизм внутреннего внимания связывает различные позиции одной последовательности для вычисления представления этой последовательности. > > Attention Is All You Need (Vaswani et al., 2017)
LLM и революция Трансформеров
Большие языковые модели (Large Language Models, LLM), такие как GPT-4 или Claude 3, построены исключительно на архитектуре Transformer.
Почему Трансформеры победили? Механизм внимания позволяет модели анализировать все слова во входном тексте одновременно и вычислять математические связи между ними. Когда модель видит предложение «Король зашел в свой замок, а затем повесил на дверь замок», она понимает разницу между двумя одинаковыми словами. Для первого слова «замок» механизм внимания присвоит высокие веса связи со словом «Король», а для второго — со словом «дверь».
Возможность параллельной обработки позволила загружать в модели терабайты текстов из интернета, масштабируя их до сотен миллиардов параметров.
Эмбеддинги: семантика в мире чисел
Нейросети не умеют читать буквы. Чтобы алгоритм мог работать с текстом, слова необходимо перевести в числа. Этот процесс называется созданием эмбеддингов (Embeddings).
Эмбеддинг — это плотный вектор (массив чисел с плавающей точкой), который представляет собой координаты слова или целого предложения в многомерном смысловом пространстве. Модели обучаются так, чтобы семантически близкие понятия находились рядом в этом пространстве.
Например, при использовании API для генерации эмбеддингов, слово превращается в массив чисел:
Векторное представление обладает удивительным свойством — оно поддерживает смысловую арифметику. Если взять вектор слова «Париж», вычесть из него вектор «Франция» и прибавить вектор «Италия», то результирующий вектор окажется максимально близко к координатам слова «Рим».
Inference pipeline: путь запроса пользователя
Когда пользователь отправляет сообщение в ИИ-приложение, под капотом за доли секунды отрабатывает строгий конвейер (Inference pipeline):
[1543, 11, 890, 33].Этот цикл повторяется авторегрессионно для каждого нового генерируемого слова, пока модель не выдаст специальный токен остановки [STOP].
Ограничения современных ИИ-моделей
Несмотря на впечатляющие результаты, LLM имеют фундаментальные архитектурные ограничения. Разработчик обязан учитывать их при проектировании систем.
Галлюцинации. Языковые модели не имеют встроенной базы данных или понимания истины. Они лишь предсказывают наиболее вероятное следующее слово. Если контекста недостаточно, модель сгенерирует грамматически безупречный, но фактически ложный текст. Например, может уверенно сослаться на несуществующую статью в уголовном кодексе.
Смещение (Bias). Модели являются зеркалом своих обучающих данных. Если в датасете из интернета профессия медсестры в 90% случаев упоминалась в женском роде, модель при переводе гендерно-нейтрального текста с английского языка автоматически применит женский род, транслируя социальные стереотипы.
Контекстное окно. Это объем текста, который модель способна удерживать в оперативной памяти во время одной сессии. Если контекстное окно модели составляет 128 000 токенов, это эквивалентно примерно 300 страницам книги. Любая информация, вышедшая за эти пределы в ходе длинного диалога, будет безвозвратно «забыта» моделью. Увеличение окна требует квадратичного роста вычислительных мощностей.
Экосистема ИИ для разработчика
Сегодня создание ИИ-приложений редко требует написания математики с нуля. Индустрия предлагает мощную экосистему:
* Провайдеры базовых моделей: OpenAI, Anthropic, Google предоставляют доступ к передовым LLM через REST API. Open-Source хабы: Hugging Face* — это центральный репозиторий индустрии, где хранятся сотни тысяч открытых моделей (например, от Meta или Mistral) и датасетов. Фреймворки: PyTorch от Meta и TensorFlow* от Google — стандарты де-факто для низкоуровневой работы с тензорами и обучения нейросетей. * Инфраструктура и MLOps: Облачные платформы предоставляют готовые среды для развертывания моделей, а инструменты вроде Kubernetes позволяют масштабировать инференс под высокие нагрузки.
Понимание этого фундамента — первый шаг к созданию интеллектуальных агентов и RAG-систем, которые мы будем проектировать в рамках курса.
Итоги
* Машинное обучение позволяет системам находить закономерности в данных самостоятельно, а глубокое обучение использует для этого многослойные нейросети. * Качество любой ИИ-системы первично зависит от объема и чистоты обучающего датасета, а разметка данных остается самым ресурсоемким этапом. * Архитектура Transformer и механизм внимания стали стандартом индустрии, позволив моделям глубоко понимать контекст и распараллеливать вычисления. * Эмбеддинги переводят человеческий язык в многомерные числовые векторы, открывая возможность математически вычислять смысловую близость текстов. * При проектировании ИИ-приложений критически важно закладывать архитектурные решения для борьбы с галлюцинациями и ограничениями контекстного окна.