1. Введение в Reinforcement Learning: Агент, Среда и Марковские процессы принятия решений
Введение в Reinforcement Learning: Агент, Среда и Марковские процессы принятия решений
Добро пожаловать в курс по Deep Reinforcement Learning (глубокому обучению с подкреплением). Если вы когда-либо видели, как ИИ обыгрывает чемпионов мира в Go, Dota 2 или StarCraft II, и хотели понять, как это работает — вы попали по адресу. В этой первой статье мы разберем фундамент, на котором строятся все современные алгоритмы: от простых табличных методов до сложных нейросетей.
Что такое обучение с подкреплением?
Обучение с подкреплением (Reinforcement Learning, RL) — это раздел машинного обучения, где мы учим агента принимать решения, взаимодействуя со средой. В отличие от обучения с учителем (Supervised Learning), где у нас есть правильные ответы (датасет с метками), в RL правильных ответов заранее нет. Агент должен сам найти выигрышную стратегию методом проб и ошибок.
Представьте, что вы учите собаку команде «сидеть». Вы не объясняете ей законы физики или биомеханику движения лап. Вы говорите команду, и если собака садится, вы даете ей лакомство. Если она прыгает — вы ничего не даете. Со временем собака понимает: «Ага, если я сяду после этого звука, мне будет вкусно». Это и есть суть RL.
Основные компоненты RL
В любой задаче обучения с подкреплением есть два главных действующих лица и цикл взаимодействия между ними:
!Циклический процесс взаимодействия агента и среды
Процесс взаимодействия происходит пошагово:
Разберем эти термины на примере игры Super Mario:
* Состояние (): Пиксели на экране (где находится Марио, где враги, где трубы). * Действие (): Нажать кнопку «вправо», «прыжок» или «бежать». * Награда (): +100 очков за монетку, +1000 за завершение уровня, -1000 за смерть (падение в яму).
Цель агента: Гипотеза о вознаграждении
Чего хочет агент? Он не хочет просто «выжить» или «победить» в человеческом понимании. В мире RL цель определяется математически.
> Гипотеза о вознаграждении: Все цели могут быть описаны как максимизация ожидаемого кумулятивного (суммарного) вознаграждения.
Агент — это жадный оптимизатор. Он хочет собрать как можно больше наград не только сейчас, но и в будущем. Сумма всех наград, которые агент получит от текущего момента времени до конца эпизода, называется возвратом (Return) и обозначается .
Формально это выглядит как простая сумма:
где: * — суммарный возврат (Return) начиная с момента времени . * — награды, полученные на каждом последующем шаге. * — последний шаг эпизода (например, конец игры).
Проблема бесконечности и Дисконтирование
Но что, если игра не имеет конца (например, робот, который должен вечно балансировать)? Тогда сумма наград уйдет в бесконечность, и мы не сможем сравнивать стратегии. Кроме того, награда сейчас обычно ценнее, чем награда потом (лучше получить 100 рублей сейчас, чем через год).
Для решения этих проблем вводится коэффициент дисконтирования (гамма).
где: * — дисконтированный возврат. * — коэффициент дисконтирования, число в диапазоне . * — награда на шаге в будущем.
Как влияет на поведение агента?
* Если : Агент «близорук». Его волнует только мгновенная награда . * Если : Агент «дальновиден». Он готов терпеть убытки сейчас ради огромной награды в будущем.
В играх обычно используют около 0.99, чтобы агент думал на много ходов вперед.
Марковский процесс принятия решений (MDP)
Чтобы научить компьютер решать задачи RL, нам нужно формализовать среду математически. Для этого используется Марковский процесс принятия решений (Markov Decision Process, MDP).
Название происходит от свойства Маркова: «Будущее зависит только от настоящего, а не от прошлого». Это значит, что текущее состояние содержит абсолютно всю необходимую информацию для принятия решения. Историю того, как мы попали в это состояние, помнить не нужно.
Например, в шахматах, чтобы сделать ход, вам нужно видеть только текущее положение фигур на доске. Вам не нужно знать, в каком порядке они туда попали.
Формально MDP определяется как кортеж из 5 элементов:
где: * — Множество состояний (State Space). Все возможные ситуации, в которых может оказаться агент. * — Множество действий (Action Space). Все, что агент может сделать. * — Функция перехода (Transition Probability). Это «физика» мира. Она показывает вероятность попасть в состояние из состояния , совершив действие . Записывается как . * — Функция награды (Reward Function). Показывает, какую награду мы получим, перейдя в состояние из с помощью действия . * — Коэффициент дисконтирования, который мы обсудили выше.
!Графическое представление Марковского процесса принятия решений
Политика (Policy)
Мы определили среду (MDP) и цель (максимизация ). Но как агенту выбирать действия? Здесь вступает в игру понятие Политики.
Политика — это «мозг» или стратегия агента. Она определяет поведение агента в конкретном состоянии. Обозначается греческой буквой (пи).
Политики бывают двух видов:
В Deep Reinforcement Learning нашей главной задачей будет найти такую оптимальную политику , которая максимизирует ожидаемый возврат.
Value Function и Q-Function
Чтобы найти лучшую политику, агенту нужно уметь оценивать, насколько хороша текущая ситуация. Для этого существуют две ключевые функции:
1. Функция ценности состояния (State-Value Function, )
Она отвечает на вопрос: «Насколько хорошо находиться в этом состоянии ?».где: * — ценность состояния при следовании политике . * — математическое ожидание (среднее значение) при следовании политике . * — будущий дисконтированный возврат.
Если велико, значит, из этого состояния мы ожидаем получить много наград. В шахматах это эквивалентно оценке позиции (например, «у белых преимущество +2 пешки»).
2. Функция ценности действия (Action-Value Function, )
Она отвечает на вопрос: «Насколько хорошо совершить действие в состоянии ?».где: * — ценность пары «состояние-действие» (Q-value).
Именно Q-функция является центральным элементом многих алгоритмов, таких как Q-Learning и DQN (Deep Q-Network), которые мы будем изучать в следующих статьях. Буква Q означает Quality (качество) действия.
Итоги
Сегодня мы заложили фундамент для создания игрового ИИ:
* RL — это обучение через пробы и ошибки. * Агент взаимодействует со Средой, получая Награды. * Цель агента — максимизировать сумму дисконтированных наград (). * MDP — математическая модель среды. * Политика () — стратегия выбора действий. * V-функция и Q-функция помогают оценивать ситуации и действия.
В следующей статье мы разберем, как именно агент может выучить эти функции и найти оптимальную стратегию, используя уравнение Беллмана.