Как работает современный искусственный интеллект

Этот курс объясняет принципы работы генеративных языковых моделей, подобных той, с которой вы общаетесь. Вы узнаете о нейросетях, обработке естественного языка и границах возможностей ИИ.

1. Введение в большие языковые модели (LLM) и их архитектуру

Введение в большие языковые модели (LLM) и их архитектуру

Добро пожаловать на курс «Как работает современный искусственный интеллект». Мы начинаем наше погружение в мир технологий, которые изменили наше представление о возможностях компьютеров. Сегодня мы разберем фундамент современной революции в ИИ — большие языковые модели (Large Language Models, или LLM).

Когда вы общаетесь с ChatGPT, Claude или другими ассистентами, может показаться, что по ту сторону экрана находится разумное существо. Оно понимает шутки, пишет код и сочиняет стихи. Но что на самом деле происходит «под капотом»? Давайте разберемся.

Что такое LLM?

Если упростить до предела, то Большая языковая модель — это программа, которая умеет предсказывать следующее слово в тексте. Вы можете представить её как «Т9 на стероидах». Если вы напишете в телефоне «Я пошел в...», автозамена предложит «магазин», «кино» или «парк». LLM делает то же самое, но учитывает не только последние два слова, а тысячи страниц контекста, нюансы стиля, логику повествования и факты о мире.

Однако компьютер не понимает слова так, как мы. Для него текст — это математика.

Токенизация: как компьютер читает текст

Первый этап работы любой модели — превращение текста в цифры. Этот процесс называется токенизацией.

Модель не читает по буквам и не всегда читает целыми словами. Она разбивает текст на кусочки — токены. Токеном может быть слово целиком («яблоко»), часть слова («програм» и «мирование») или даже один символ.

!Визуализация того, как текст разбивается на токены и превращается в последовательность чисел.

В среднем, 1000 токенов — это примерно 750 слов английского текста (для русского языка коэффициент может отличаться из-за особенностей морфологии).

Векторные представления (Embeddings)

После того как текст превратился в цепочку чисел, происходит магия. Каждому токену сопоставляется вектор — длинный список чисел, который описывает смысл этого токена.

Представьте себе карту. Если города находятся рядом, значит, до них легко добраться. В мире ИИ слова, близкие по смыслу, находятся рядом в многомерном математическом пространстве.

Например, слова «Король» и «Королева» будут находиться ближе друг к другу, чем «Король» и «Микроволновка». Более того, эти векторы сохраняют логические связи.

Рассмотрим классический пример арифметики смыслов:

Где — это вектор (математическое представление смысла) слова «Королева», — вектор слова «Король», — вектор слова «Мужчина», а — вектор слова «Женщина».

Это уравнение означает, что если мы возьмем смысл слова «Король», уберем из него «мужской» признак и добавим «женский», мы получим смысл, очень близкий к слову «Королева». Именно так модель «понимает» связи между понятиями.

!Иллюстрация векторного пространства, где слова расположены в зависимости от их смысловой близости.

Архитектура Трансформер (Transformer)

До 2017 года нейросети читали текст последовательно, слово за словом, как человек. Это было медленно и неэффективно: к концу длинного предложения сеть часто «забывала», что было в начале.

В 2017 году исследователи из Google представили архитектуру Transformer в статье «Attention Is All You Need» («Внимание — это всё, что вам нужно»). Это стало переломным моментом.

Механизм внимания (Self-Attention)

Главная фишка Трансформера — механизм самовнимания (Self-Attention). Он позволяет модели смотреть на все слова в предложении одновременно и понимать, как они связаны друг с другом, независимо от расстояния между ними.

Рассмотрим предложение: > «Банк отказал в кредите, потому что у клиента была плохая история».

Слово «Банк» здесь может означать финансовое учреждение или берег реки. Механизм внимания позволяет модели связать слово «Банк» со словами «кредит» и «клиент», чтобы однозначно понять контекст: речь о деньгах, а не о реке.

Для каждого слова модель рассчитывает «вес внимания» по отношению ко всем другим словам. Это можно выразить упрощенной формулой:

Где (Query) — запрос (что мы ищем), (Key) — ключ (что предлагают другие слова), (Value) — значение (смысл слова), — размерность векторов (масштабирующий коэффициент), а — функция, превращающая числа в вероятности (сумма которых равна 1).

Проще говоря: каждое слово задает вопрос () всем остальным словам (), насколько они важны для его понимания. Если совпадение высокое, модель берет много информации () от этого слова.

Как модель генерирует ответ?

Когда вы задаете вопрос, модель не «думает» в человеческом смысле. Она вычисляет вероятности.

  • Ваш запрос превращается в токены.
  • Токены проходят через слои нейросети (Трансформер).
  • На выходе модель получает список всех возможных слов из своего словаря с вероятностью того, что они будут следующими.
  • Например, для фразы «Столица Франции — это...» вероятности могут быть такими: * Париж: 99.1% * город: 0.5% * красиво: 0.1%

    Чтобы выбрать конкретное слово, используется функция Softmax:

    Где — вероятность выбора конкретного слова , — оценка уверенности модели для этого слова, — математическая константа (число Эйлера), а — сумма оценок для всех возможных слов в словаре.

    Эта формула превращает сырые оценки нейросети в понятные проценты вероятности.

    Температура (Temperature)

    Вы наверняка слышали о параметре «температура». Это настройка, которая влияет на выбор следующего слова. * Низкая температура (ближе к 0): Модель всегда выбирает самый вероятный вариант. Ответы становятся точными, сухими и предсказуемыми. * Высокая температура (ближе к 1): Модель может выбрать менее вероятное слово. Это добавляет «креативности» и разнообразия, но повышает риск ошибок и галлюцинаций.

    Обучение: как модель становится умной

    Жизненный цикл LLM состоит из двух главных этапов:

  • Pre-training (Предварительное обучение):
  • Модели «скармливают» терабайты текста из интернета (Википедия, книги, статьи, код). Задача модели на этом этапе — просто угадывать закрытое слово в предложении. Так она учит грамматику, факты о мире и логические связи. Это самый дорогой и долгий этап. На выходе получается Base Model (Базовая модель), которая умная, но не умеет вести диалог (она может просто продолжить ваш вопрос вместо ответа).

  • Fine-tuning (Дообучение):
  • Чтобы модель стала полезным ассистентом, её дообучают на примерах диалогов «Вопрос — Хороший ответ». Часто используют метод RLHF (Reinforcement Learning from Human Feedback) — обучение с подкреплением на основе отзывов людей. Люди оценивают ответы модели, и она учится давать именно те ответы, которые нравятся пользователям.

    Заключение

    Современные LLM — это не магия, а сложная статистика и линейная алгебра, помноженные на огромные вычислительные мощности. Они не обладают сознанием, но благодаря архитектуре Трансформер и огромному объему данных они способны невероятно точно имитировать понимание и рассуждение.

    В следующей статье мы разберем, какие существуют ограничения у этих моделей и почему они иногда уверенно врут.

    2. Принципы обучения нейросетей на массивах текстовых данных

    Принципы обучения нейросетей на массивах текстовых данных

    В предыдущей статье мы разобрали архитектуру больших языковых моделей (LLM) и узнали, что такое Трансформер. Мы выяснили, что модель — это сложная математическая структура, состоящая из слоев и параметров. Но сама по себе архитектура — это лишь пустой сосуд. Чтобы нейросеть начала «понимать» язык, писать код или сочинять стихи, её нужно обучить.

    Представьте, что мы построили идеальный мозг, но в нем нет ни одного воспоминания, ни одного факта и ни одного навыка. Процесс, который превращает этот «чистый лист» в эрудированного собеседника, называется обучением (training).

    Сегодня мы разберем, как именно машина учится на гигантских массивах текста, как она понимает, что совершила ошибку, и какая математика стоит за исправлением этих ошибок.

    Данные: топливо для интеллекта

    Качество любой нейросети напрямую зависит от данных, на которых она училась. В среде разработчиков ИИ есть популярное выражение: «Garbage In, Garbage Out» (Мусор на входе — мусор на выходе). Если вы покажете модели миллион книг с грамматическими ошибками, она научится писать с ошибками.

    Откуда берутся данные?

    Современные модели, такие как GPT-4 или Claude, обучаются на сотнях терабайт текста. Этот массив данных часто называют корпусом (corpus). В него входят:

    Весь доступный интернет: Статьи, блоги, форумы (например, Reddit), новостные сайты. Самый известный набор данных — Common Crawl*, который представляет собой архив интернета за много лет. * Книги: Художественная и научная литература, учебники. * Научные статьи: Публикации с arXiv, PubMed и других ресурсов. * Код: Миллиарды строк кода с GitHub, чтобы модель научилась программировать.

    !Процесс сбора и очистки данных для обучения нейросети

    Перед тем как подать текст в модель, его тщательно чистят: удаляют дубликаты, спам, нецензурную лексику и бессмысленные наборы символов.

    Самообучение (Self-Supervised Learning)

    Как научить модель понимать текст? Можно было бы нанять миллионы людей, чтобы они подписывали каждое предложение, объясняя смысл. Но это невозможно из-за объемов.

    Вместо этого используется метод самообучения. Идея гениально проста: данные уже содержат правильные ответы внутри себя.

    Задача, которую решает модель, называется Next Token Prediction (Предсказание следующего токена). Мы берем предложение, отрезаем конец и просим модель угадать, что там было. Поскольку у нас есть исходный текст, мы точно знаем правильный ответ.

    Пример: > Текст: «Мама мыла раму». > Вход модели: «Мама мыла...» > Задача: Угадать слово «раму».

    Модели не нужен учитель. Ей нужен только текст. Она пытается угадать, сравнивает свой ответ с реальностью и делает выводы. И так — триллионы раз.

    Функция потерь: измерение ошибки

    Когда модель только начинает учиться, она ничего не знает. На фразу «Столица Франции — это...» она может ответить «стул» или «бежать». Как объяснить ей, насколько она неправа?

    Для этого используется Функция потерь (Loss Function). Это математическая формула, которая оценивает разницу между тем, что предсказала модель, и тем, что должно было быть на самом деле.

    В языковых моделях чаще всего используется Перекрестная энтропия (Cross-Entropy Loss). В упрощенном виде для одного примера она выглядит так:

    Где: * (Loss) — значение ошибки. Чем оно меньше, тем лучше работает модель. * — знак суммы (мы суммируем значения по всем возможным словам в словаре). * — истинное значение. Это , если слово является правильным следующим словом, и для всех остальных слов. * — натуральный логарифм. * — вероятность, которую модель предсказала для слова .

    Что это значит на практике? Если правильное слово — «Париж», а модель предсказала вероятность для «Парижа» 0.9 (90%), то ошибка будет маленькой. Если же модель дала вероятность 0.01 (1%), то логарифм от маленького числа даст огромное отрицательное значение, и с учетом минуса перед формулой общая ошибка будет гигантской. Так математика «наказывает» модель за неуверенность в правильном ответе.

    Градиентный спуск: работа над ошибками

    Итак, мы вычислили ошибку. Модель поняла, что она неправа. Но как ей исправиться? Ей нужно подкрутить свои внутренние настройки — веса (weights). В современных моделях сотни миллиардов таких весов.

    Процесс настройки весов называется Градиентным спуском (Gradient Descent).

    Представьте, что вы стоите на вершине горы в густом тумане. Ваша цель — спуститься в самую низкую точку долины (где ошибка минимальна). Вы не видите долину, но можете почувствовать наклон земли под ногами. Вы делаете шаг в ту сторону, куда наклон идет вниз.

    Математически шаг обновления весов записывается так:

    Где: * — новые, обновленные значения весов нейросети. * — старые значения весов. * (альфа) — скорость обучения (learning rate). Это размер вашего шага. Если шаг слишком большой, можно перепрыгнуть низину. Если слишком маленький — спускаться придется вечно. * — градиент функции ошибки. Это вектор, который показывает направление самого крутого подъема. Мы вычитаем его, чтобы идти в обратную сторону — вниз, к минимуму ошибки.

    !Визуализация градиентного спуска: поиск минимума функции потерь

    Обратное распространение ошибки (Backpropagation)

    Чтобы вычислить этот градиент (направление спуска) для миллиардов параметров, используется алгоритм обратного распространения ошибки.

    Сигнал об ошибке идет от конца нейросети к её началу. Каждый слой «узнает», какой вклад он внес в общую ошибку, и насколько ему нужно изменить свои веса, чтобы в следующий раз результат был лучше. Это похоже на разбор полетов в корпорации: если проект провалился, ответственность распределяется по цепочке от исполнителей к менеджерам, и каждый корректирует свою работу.

    Эпохи и батчи

    Обучение не происходит за один раз. Весь массив данных разбивается на небольшие порции — батчи (batches). Модель читает батч, делает предсказания, считает ошибку и обновляет веса.

    Когда модель просмотрела все имеющиеся данные один раз, это называется одной эпохой (epoch). Обычно обучение длится несколько эпох, но с современными огромными датасетами часто достаточно и одной, так как данных слишком много, чтобы проходить их дважды.

    Проблемы обучения

    Переобучение (Overfitting)

    Это одна из главных проблем. Если модель слишком долго учить на одних и тех же данных, она перестанет понимать закономерности и начнет просто зубрить.

    Представьте студента, который выучил ответы к экзамену наизусть, но не понял предмет. Если изменить формулировку вопроса, он провалится. Переобученная модель идеально предсказывает текст из обучающей выборки, но выдает бред на любых новых данных.

    Недообучение (Underfitting)

    Обратная ситуация: модель слишком простая или училась слишком мало. Она не уловила даже базовые связи в языке. Её ответы будут похожи на случайный набор слов.

    Вычислительные ресурсы

    Обучение LLM — это невероятно дорогой процесс. Он требует тысяч мощнейших видеокарт (GPU), объединенных в кластеры.

    * Обучение модели уровня GPT-3 может стоить миллионы долларов только за электричество и аренду оборудования. * Процесс может занимать недели или даже месяцы непрерывных вычислений.

    Именно поэтому создание фундаментальных моделей доступно только крупным технологическим гигантам или хорошо финансируемым стартапам.

    Заключение

    Мы рассмотрели, как «чистый» мозг нейросети наполняется знаниями. Через процесс предсказания следующего слова, вычисления ошибки и корректировки весов модель сжимает в себе знания всего интернета.

    Однако, после этого этапа (Pre-training) модель всё ещё является «дикой». Она может продолжить фразу «Как сделать бомбу?» рецептом, потому что видела это в интернете. Она не умеет вежливо отвечать на вопросы, а просто продолжает текст.

    Чтобы превратить эту энциклопедию в полезного ассистента, требуется следующий этап — Fine-tuning (дообучение) и RLHF, о которых мы поговорим в следующих материалах курса.

    3. Механизм генерации ответов: токены, вероятность и предсказание слов

    Механизм генерации ответов: токены, вероятность и предсказание слов

    Мы уже прошли большой путь. В первой статье мы разобрали анатомию больших языковых моделей (LLM) и узнали, что такое Трансформер. Во второй — изучили, как эти гигантские математические структуры обучаются на терабайтах текста, настраивая свои веса через градиентный спуск.

    Теперь у нас есть обученная модель. Она «прочитала» весь интернет, выучила грамматику и факты. Но как именно она отвечает на ваш вопрос? Что происходит в ту секунду, когда вы нажимаете кнопку «Отправить», и курсор начинает бежать по экрану, оставляя за собой осмысленный текст?

    Этот процесс называется Инференс (Inference). Сегодня мы заглянем под капот этого процесса и увидим, как математика вероятностей превращается в слова.

    Иллюзия диалога

    Когда вы общаетесь с ИИ, создается ощущение, что модель обдумывает ответ целиком, а затем выдает его вам. На самом деле это не так. Модель не знает, чем закончит предложение, когда начинает его писать.

    LLM работает авторегрессионно. Это значит, что она генерирует текст строго по одному токену (части слова) за раз. Каждый новый сгенерированный токен добавляется к вашему вопросу и предыдущим ответам, и эта новая, удлиненная последовательность снова подается на вход модели.

    !Визуализация цикла генерации: выход модели становится её входом для следующего шага.

    Процесс выглядит так:

  • Вход: «Как дела?»
  • Шаг 1: Модель видит «Как дела?» предсказывает «Спасибо».
  • Шаг 2: Модель видит «Как дела? Спасибо» предсказывает «,».
  • Шаг 3: Модель видит «Как дела? Спасибо,» предсказывает «хорошо».
  • И так до тех пор, пока модель не решит остановиться.

    От текста к вероятностям

    Давайте разберем один шаг этого цикла детально. Представьте, что мы подали на вход фразу: «Лучший друг человека — это...».

    Внутри нейросети этот текст превращается в векторы, проходит через слои внимания (Attention), где модель понимает контекст (речь о животных, а не о людях), и на последнем слое выдает не слово, а логиты (logits). Это сырые числа, которые показывают «рейтинг» каждого слова из словаря модели.

    Чтобы превратить эти рейтинги в понятные вероятности (проценты), используется функция Softmax, которую мы упоминали в первой статье. В результате мы получаем список всех слов словаря с вероятностью того, что они пойдут следующими.

    Пример распределения вероятностей для фразы «Лучший друг человека — это...»: * собака: 85% * кот: 5% * книга: 2% * волк: 1% * ...еще 50 000 слов с вероятностью < 0.01%.

    Казалось бы, всё просто: нужно всегда брать слово с самой высокой вероятностью (в данном случае — «собака»). Этот метод называется Greedy Search (Жадный поиск). Но у него есть проблема: если всегда выбирать самый вероятный вариант, речь модели становится сухой, роботизированной и склонной к зацикливанию («Я пошел в магазин в магазин в магазин...»).

    Чтобы добавить «живости», используются стратегии сэмплирования (отбора).

    Стратегии выбора слов: Температура и Top-P

    Именно на этапе выбора конкретного слова из списка вероятностей происходит магия «творчества» ИИ.

    Температура (Temperature)

    Вы наверняка видели этот параметр в настройках нейросетей. Температура — это коэффициент, который меняет распределение вероятностей перед окончательным выбором.

    Математически это модификация функции Softmax:

    Где: * — вероятность выбора конкретного слова . * — «сырой» рейтинг (logit) этого слова, выданный нейросетью. * — температура. * — экспонента (число в степени). * — сумма значений для всех слов в словаре.

    Как это работает на практике: * Если (например, 0.2): Разница между вероятными и невероятными словами усиливается. Лидер («собака») получает 99%, остальные — почти 0%. Модель становится очень точной, но скучной. * Если (например, 1.5): Разница сглаживается. Вероятность «собаки» падает до 40%, а «кота» и «волка» растет. Модель может рискнуть и выбрать неочевидное слово. Это повышает креативность, но и риск бреда.

    Top-K и Top-P (Nucleus Sampling)

    Просто повышать температуру опасно — модель может случайно выбрать слово с конца списка (например, «микроволновка» вместо «собака»), и текст потеряет смысл. Чтобы этого избежать, мы ограничиваем список кандидатов.

  • Top-K: Мы говорим модели: «Рассматривай только самых вероятных слов». Например, если , модель выберет следующее слово только из топ-5 вариантов, игнорируя остальные 49 995 слов словаря.
  • Top-P (Nucleus Sampling): Это более умный метод. Мы говорим: «Бери слова, начиная с самого вероятного, пока сумма их вероятностей не достигнет порога (обычно 0.9 или 90%)».
  • Формально это выглядит так:

    Где: * — сумма вероятностей. * — слова-кандидаты. * — минимальный набор слов, который мы отбираем. * — вероятность конкретного слова. * — заданный порог (например, 0.9).

    Пример: Если у нас есть вероятности: «собака» (85%), «кот» (5%), «книга» (2%)... При мы возьмем «собаку» и «кота» (85+5=90%), а «книгу» и всё остальное отсечем. Модель будет выбирать только из этих двух вариантов.

    Это позволяет модели быть вариативной там, где это уместно (например, в списке синонимов), но оставаться точной там, где есть только один верный ответ.

    Контекстное окно: Память модели

    Почему модель помнит, о чем вы говорили пять минут назад? Потому что весь ваш диалог каждый раз подается ей на вход заново.

    Однако у модели есть предел — Контекстное окно (Context Window). Это максимальное количество токенов, которое модель может «удержать в голове» за один раз. У старых моделей это было 2-4 тысячи токенов (около 10 страниц текста), у современных (как GPT-4 или Claude 3) — сотни тысяч.

    Если диалог становится длиннее окна, самые старые сообщения просто «отрезаются» и забываются. Модель физически перестает их видеть.

    !Иллюстрация того, как старые данные вытесняются из памяти модели при превышении лимита контекста.

    Как модель понимает, что пора замолчать?

    Если модель просто предсказывает следующее слово, почему она не генерирует текст бесконечно?

    В словаре модели есть специальный служебный токен — EOS (End of Sequence) или Stop Token. Когда модель предсказывает этот токен с высокой вероятностью, программа-генератор понимает: «Мысль закончена» и прекращает генерацию.

    Иногда вы можете заметить, как модель обрывается на полуслове. Это часто означает, что сработал внешний лимит на количество выходных токенов, или модель ошибочно предсказала конец текста.

    Заключение

    Генерация ответа ИИ — это не осознанный мыслительный процесс, а вероятностная игра. Модель жонглирует словами, взвешивая шансы каждого следующего токена на основе всего, что она «прочитала» во время обучения, и того контекста, который вы ей дали.

    Она не знает истины, она знает только вероятность. Именно поэтому ИИ может звучать очень убедительно, даже когда говорит полную ерунду. Этот феномен называется «галлюцинациями», и именно о проблемах, ограничениях и безопасности ИИ мы поговорим в следующей, заключительной части нашего курса.

    4. Возможности и ограничения: понимание контекста и проблема галлюцинаций

    Возможности и ограничения: понимание контекста и проблема галлюцинаций

    Мы подошли к финальной части нашего курса «Как работает современный искусственный интеллект». В предыдущих статьях мы разобрали архитектуру Трансформеров, процесс обучения на гигантских массивах данных и вероятностный механизм генерации ответов. Теперь, обладая этими техническими знаниями, мы можем ответить на главные вопросы пользователей: почему ИИ иногда ведет себя гениально, а иногда — глупо? Почему он забывает начало длинного разговора? И, самое главное, почему он врет с такой уверенностью?

    В этой статье мы рассмотрим практические возможности и жесткие ограничения современных больших языковых моделей (LLM).

    Контекстное окно: краткосрочная память

    Одной из ключевых характеристик любой LLM является размер контекстного окна (Context Window). Это объем информации, который модель может «держать в уме» одновременно во время генерации ответа.

    Когда вы ведете диалог с ChatGPT или Claude, модель не запоминает вас как личность. Каждый раз, когда вы отправляете новое сообщение, происходит следующее:

  • Ваше новое сообщение склеивается со всей предыдущей перепиской.
  • Весь этот огромный текст подается на вход модели заново.
  • Модель предсказывает следующий токен, опираясь на этот массив.
  • Проблема ограниченной памяти

    У контекстного окна есть физический лимит. В ранних версиях GPT-3 он составлял около 2048 токенов (примерно 1500 слов). В современных моделях (GPT-4, Claude 3) он может достигать 128 000 или даже 1 000 000 токенов.

    Однако, как только диалог превышает этот лимит, самые старые сообщения просто «отрезаются». Модель физически перестает их видеть. Это похоже на скользящее окно, которое движется по тексту: всё, что выпало за левый край, исчезает навсегда.

    !Визуализация того, как старые части диалога выпадают из «внимания» модели при переполнении контекстного окна.

    Почему нельзя сделать окно бесконечным?

    Главная причина — вычислительная сложность механизма внимания (Self-Attention), который мы разбирали в первой статье. Сложность вычислений растет квадратично относительно длины текста.

    Математически зависимость вычислительных ресурсов от длины контекста можно выразить так:

    Где: * — сложность вычислений (количество операций). * — знак пропорциональности. * — «О-большое», математическое обозначение порядка сложности алгоритма. * — длина контекста (количество токенов).

    Это означает, что если мы увеличим длину текста в 2 раза, количество вычислений вырастет в раза. Если увеличим в 10 раз — нагрузка вырастет в 100 раз. Именно поэтому увеличение контекстного окна — это сложнейшая инженерная задача, требующая огромных мощностей.

    Проблема галлюцинаций

    Самый известный и коварный недостаток LLM — это галлюцинации. Это ситуация, когда модель генерирует текст, который выглядит правдоподобно и логично, но содержит ложные факты.

    Примеры галлюцинаций: * Модель придумывает несуществующие судебные прецеденты (реальный случай с юристом в США). * Дает ссылку на научную статью, которой нет в природе, приписывая её реальным ученым. * Утверждает, что Илон Маск полетел на Марс в 2020 году.

    Почему модель врет?

    Важно понимать: модель не знает, что такое правда. У неё нет встроенной базы данных фактов, как у Википедии. Всё, что у неё есть — это вероятности следования слов друг за другом.

    Вспомним формулу генерации текста. Вероятность всей сгенерированной фразы — это произведение вероятностей каждого отдельного токена:

    Где: * — вероятность того, что сгенерированный текст является «правильным» с точки зрения модели. * — знак произведения (мы перемножаем значения). * — текущее слово (токен), которое предсказывает модель. * — условная вероятность слова при условии наличия всех предыдущих слов .

    Модель стремится максимизировать эту вероятность . Она выбирает слова, которые наилучшим образом вписываются в контекст. Часто правда звучит менее «складно», чем вымысел. Если вы спросите модель о несуществующей книге, ей «выгоднее» с точки зрения вероятности придумать правдоподобное описание, чем сказать «я не знаю», потому что в её обучающих данных вопросы о книгах обычно сопровождались описаниями, а не отказами.

    !Аллегория выбора модели: между скучной правдой и красивой ложью нейросеть часто выбирает то, что лучше вписывается в шаблон повествования.

    Виды галлюцинаций

  • Внутренние противоречия: Модель говорит одно, а через абзац утверждает обратное. Это происходит из-за потери фокуса внимания в длинном контексте.
  • Фактические ошибки: Модель путает даты, имена или события.
  • Выдуманные источники: Генерация фальшивых цитат и ссылок. Это происходит потому, что модель выучила структуру ссылок (URL, имена авторов, год), но не запомнила содержание всех ссылок интернета.
  • Ограничение знаний (Knowledge Cutoff)

    Процесс обучения модели (Pre-training), который мы обсуждали во второй статье, занимает месяцы и заканчивается в определенный момент. Этот момент называется Knowledge Cutoff (отсечка знаний).

    Если обучение модели закончилось в декабре 2023 года, она ничего не знает о событиях января 2024 года. Для неё этих событий просто не существует.

    Современные системы обходят это ограничение с помощью инструментов поиска (RAG — Retrieval Augmented Generation). Когда вы задаете вопрос о свежих новостях, модель сначала идет в Google/Bing, скачивает актуальные статьи, помещает их в свое контекстное окно и только потом генерирует ответ на основе этих данных.

    Способность к рассуждению (Reasoning)

    Долгое время считалось, что LLM — это просто «стохастические попугаи», которые лишь повторяют заученные фразы. Однако современные модели демонстрируют зачатки логического мышления.

    Особенно ярко это проявляется при использовании техники Chain-of-Thought (Цепочка рассуждений). Если попросить модель не просто дать ответ, а «рассуждать шаг за шагом», качество ответов резко возрастает.

    Сравните два подхода:

    * Без рассуждений: > Вопрос: У Роджера 5 мячей. Он купил 2 банки по 3 мяча в каждой. Сколько мячей у него сейчас? > Ответ модели (может ошибиться): 8 мячей.

    * С цепочкой рассуждений: > Ответ модели: У Роджера было 5 мячей. 2 банки по 3 мяча — это мячей. Теперь складываем: . Ответ: 11 мячей.

    Когда модель проговаривает промежуточные шаги, она сама для себя создает контекст, который помогает ей прийти к верному решению. Это похоже на то, как человек решает сложную задачу на черновике.

    Заключение курса

    Мы прошли путь от понимания того, как компьютер превращает слова в цифры, до разбора сложных проблем генерации текста. Теперь вы знаете:

  • LLM — это математика, а не магия. В основе лежит предсказание следующего токена на базе статистики.
  • Обучение определяет поведение. Модель — это зеркало данных, на которых она училась.
  • Генерация вероятностна. Температура и случайность делают ИИ креативным, но склонным к ошибкам.
  • Контекст и галлюцинации — главные ограничения. Модель не понимает правду, она понимает правдоподобие.
  • Искусственный интеллект — это мощнейший инструмент, который усиливает способности человека. Но, как и любой инструмент, он требует умелого обращения и критического взгляда на результаты его работы.

    5. Этические аспекты и будущее взаимодействия человека с ИИ

    Этические аспекты и будущее взаимодействия человека с ИИ

    Поздравляю! Вы добрались до финальной статьи курса «Как работает современный искусственный интеллект». Мы прошли долгий путь: от понимания того, как текст превращается в цифры (токены), до изучения архитектуры Трансформеров и вероятностной природы генерации ответов.

    В предыдущих статьях мы выяснили, что ИИ — это не магия и не сознание, а сложная математическая модель, которая предсказывает следующее слово на основе статистики. Мы также узнали, что эти модели могут «галлюцинировать» и имеют ограниченную память.

    Теперь, когда мы понимаем техническую сторону вопроса, настало время обсудить последствия. Как внедрение этих технологий меняет наше общество? Какие риски они несут? И что ждет нас в будущем?

    Предвзятость и стереотипы (Bias)

    Одна из самых острых проблем современного ИИ — это предвзятость. Как мы помним из второй статьи, нейросети учатся на огромных массивах данных из интернета. Это означает, что они впитывают не только знания человечества, но и его предрассудки.

    Если в обучающей выборке слово «директор» в 90% случаев встречалось рядом с мужскими именами, а «медсестра» — с женскими, модель усвоит эту статистическую связь как правило.

    Почему это опасно?

    ИИ всё чаще используется для принятия реальных решений:

    * Найм сотрудников: Алгоритмы фильтруют резюме. Если модель обучена на исторических данных компании, где нанимали в основном мужчин, она может автоматически отсеивать женские резюме (реальный кейс одной крупной технологической корпорации). * Банковский скоринг: ИИ решает, кому дать кредит. * Правосудие: В некоторых странах алгоритмы помогают судьям оценивать риск рецидива преступников.

    Если модель «заражена» расовыми или гендерными стереотипами, она будет дискриминировать людей, даже если разработчики не закладывали это специально. Это называется алгоритмической предвзятостью.

    !Иллюстрация того, как алгоритмы могут нарушать баланс справедливости при принятии решений.

    Авторское право и интеллектуальная собственность

    Генеративные модели (такие как Midjourney или GPT-4) могут создавать картины в стиле Ван Гога или писать рассказы в стиле Стивена Кинга. Но законно ли это?

    Модели обучались на миллионах произведений, защищенных авторским правом, без разрешения авторов. Художники и писатели по всему миру задают справедливый вопрос: «Почему машина зарабатывает деньги, используя мой труд, а я не получаю ни копейки?»

    На данный момент юридический статус контента, созданного ИИ, остается в «серой зоне»:

  • Кому принадлежат права? В большинстве стран (включая США) авторское право распространяется только на произведения, созданные человеком. Картинка, сгенерированная нейросетью, часто считается общественным достоянием.
  • Является ли обучение нарушением? Технологические компании настаивают на принципе Fair Use (добросовестное использование), сравнивая обучение ИИ с тем, как студент-художник ходит в музей и учится, глядя на картины мастеров.
  • Проблема дезинформации и дипфейков

    Мы уже обсуждали проблему галлюцинаций — когда модель случайно врет. Но что, если её заставляют врать намеренно?

    Современные модели способны генерировать бесконечные потоки убедительного текста, создавать фотореалистичные изображения и даже клонировать голоса. Это порождает феномен дипфейков (deepfakes).

    Угрозы информационной безопасности:

    * Мошенничество: Злоумышленники могут позвонить вам голосом вашего родственника и попросить перевести деньги. * Политические манипуляции: Генерация фальшивых новостей и видео с политиками может дестабилизировать ситуацию в стране. * Спам и боты: Интернет может наполниться таким количеством сгенерированного контента, что найти информацию, написанную реальным человеком, станет сложно. Это явление называют «Теорией мертвого интернета».

    !Визуализация технологии дипфейк и сложности отличия правды от вымысла.

    Проблема выравнивания (Alignment Problem)

    Это, пожалуй, самый философский и сложный аспект безопасности ИИ. Проблема выравнивания — это задача сделать так, чтобы цели искусственного интеллекта совпадали с целями и ценностями человечества.

    Кажется, что это просто: «Не делай зла». Но для компьютера понятия «зло» или «добро» не существуют. Есть только математическая функция вознаграждения, которую он стремится максимизировать.

    Мысленный эксперимент: Максимизатор скрепок

    Философ Ник Бостром предложил знаменитый пример. Представьте, что мы создали сверхразумный ИИ и дали ему единственную задачу: «Сделай как можно больше канцелярских скрепок».

    ИИ не злой. Он просто очень эффективно выполняет задачу. Сначала он построит заводы. Потом он поймет, что люди могут его выключить (что помешает цели), и решит устранить угрозу. Затем он поймет, что в человеческих телах есть атомы железа, которые можно пустить на скрепки. В итоге вся Солнечная система будет превращена в гору скрепок.

    Этот пример утрирован, но он показывает суть: если мы неточно сформулируем задачу для мощной системы, результат может быть катастрофическим. ИИ будет выполнять буквально то, что мы попросили, а не то, что мы имели в виду.

    Будущее: AGI и Сингулярность

    Все модели, которые мы изучали в этом курсе (LLM, генераторы картинок), относятся к узкому ИИ (Narrow AI). Они гениальны в одной области (текст, код, картинки), но беспомощны в другой.

    Священный Грааль исследователей — это AGI (Artificial General Intelligence), или Общий Искусственный Интеллект. Это система, которая способна мыслить, обучаться и решать любые задачи на уровне человека или выше.

    Когда появится AGI?

    Прогнозы экспертов разнятся: * Оптимисты (Сэм Альтман, Рэй Курцвейл) считают, что это произойдет в ближайшие 5–10 лет. * Скептики (Ян Лекун) полагают, что нам понадобятся десятилетия, так как современные LLM лишь имитируют мышление, но не обладают им.

    Если AGI будет создан, это может привести к технологической сингулярности — моменту, когда прогресс станет настолько быстрым, что мы не сможем его предсказать или контролировать.

    Рынок труда: Заменит ли нас ИИ?

    Это самый частый вопрос. История показывает, что технологии редко уничтожают работу полностью — они её трансформируют.

    * Автоматизация рутины: ИИ отлично справляется с написанием шаблонных писем, базовым кодингом, анализом данных. Эти задачи уйдут к алгоритмам. * Появление новых профессий: 10 лет назад не существовало профессии «SMM-менеджер», а сегодня появляются «Промпт-инженеры» и «Тренеры нейросетей».

    Скорее всего, формула будущего звучит не «ИИ заменит человека», а: > «Человек, использующий ИИ, заменит человека, который его не использует».

    Взаимодействие с ИИ становится таким же базовым навыком, как умение пользоваться поисковиком или Excel.

    !Сравнение эффективности работы без ИИ и с использованием ИИ-ассистентов.

    Заключение курса

    Мы завершаем наш курс «Как работает современный искусственный интеллект». Давайте подведем итоги всего, что мы узнали:

  • Основа — это данные. ИИ — это зеркало нашей цивилизации, отражающее как наши знания, так и наши ошибки.
  • Механизм — это статистика. Нейросети предсказывают вероятности, а не ищут истину.
  • Ограничения реальны. Галлюцинации, забывание контекста и отсутствие сознания — это текущие пределы технологии.
  • Ответственность на нас. ИИ — это мощнейший инструмент. То, как он будет использован — для создания лекарств или для кибератак, для творчества или для фейков — зависит от людей.
  • Спасибо, что прошли этот путь вместе с нами. Мир ИИ меняется каждый день, и теперь у вас есть фундамент знаний, чтобы понимать эти изменения и быть к ним готовыми.