Теория оптимизирующих компиляторов: от IR до машинного кода

1. Архитектура современных компиляторов и теория промежуточных представлений (IR)

Архитектура современных компиляторов и теория промежуточных представлений (IR)

Добро пожаловать в курс «Теория оптимизирующих компиляторов». Мы начинаем погружение в одну из самых сложных и увлекательных областей computer science не с написания кода, а с фундаментальной архитектуры. Чтобы понять, как компилятор превращает высокоуровневый код в эффективные машинные инструкции, необходимо разобраться, как он устроен внутри и на каком языке «думает» его оптимизатор.

Проблема и трёхфазная архитектура

Исторически первые компиляторы были монолитными программами. Они читали исходный код и сразу генерировали машинный код для конкретного процессора. Это создавало огромную проблему масштабируемости.

Представьте, что у нас есть языков программирования (C, C++, Fortran, Rust) и целевых архитектур (x86, ARM, RISC-V, MIPS). Если писать отдельный компилятор для каждой пары «язык-архитектура», нам потребуется реализовать компиляторов. Это колоссальный объем работы.

Решением стала трёхфазная архитектура (Three-Phase Design), которая разделяет компилятор на три независимые части:

Фронтенд (Frontend): Отвечает за анализ исходного кода конкретного языка. Он проверяет синтаксис и семантику, а затем транслирует код в общее промежуточное представление.

Миддл-енд (Middle-end) или Оптимизатор: Работает исключительно с промежуточным представлением. Он ничего не знает о синтаксисе исходного языка (C++ или Rust) и ничего не знает о деталях процессора (x86 или ARM). Его задача — математически улучшить код.

Бэкенд (Backend): Транслирует оптимизированное промежуточное представление в машинный код конкретной архитектуры.

!Трёхфазная архитектура, позволяющая переиспользовать оптимизатор для разных языков и архитектур

Благодаря введению общего промежуточного представления (Intermediate Representation — IR), сложность разработки снижается кардинально. Математически выигрыш можно выразить так:

где — общая трудоемкость разработки экосистемы, — количество поддерживаемых языков (требуется фронтендов), а — количество архитектур (требуется бэкендов). Вместо умножения мы получаем сложение.

Промежуточное представление (IR): Лингва франка компилятора

IR (Intermediate Representation) — это структура данных или код, который служит интерфейсом между фазами компиляции. Хорошее IR должно быть достаточно выразительным, чтобы сохранить семантику исходной программы, но достаточно низкоуровневым, чтобы оптимизатор мог видеть детали реализации.

Существует несколько уровней IR, которые часто используются совместно:

1. Графовые представления (AST и DAG)

На выходе из парсера мы обычно получаем Абстрактное синтаксическое дерево (AST). Оно идеально повторяет структуру исходного кода, но плохо подходит для оптимизаций, так как скрывает поток управления и поток данных.

2. Линейные представления (Трёхадресный код)

Это наиболее популярный формат для оптимизаторов. Он напоминает ассемблер для абстрактной машины с бесконечным количеством регистров. Инструкция обычно имеет вид:

где — целевой операнд (куда пишем), — операция, а и — исходные операнды. Именно поэтому код называется «трёхадресным».

3. Граф потока управления (CFG)

Для анализа программы линейный список инструкций разбивают на Базовые блоки (Basic Blocks). Базовый блок — это последовательность инструкций, в которую управление может попасть только через первую инструкцию и выйти только через последнюю. Внутри блока нет ветвлений.

Блоки соединяются в Граф потока управления (Control Flow Graph — CFG), где узлы — это базовые блоки, а ребра — возможные переходы между ними.

!Граф потока управления, состоящий из базовых блоков и переходов между ними

SSA-форма: Главный инструмент оптимизатора

В современных компиляторах (таких как LLVM или GCC) используется специальная форма IR, называемая Static Single Assignment (SSA) или статическая форма единственного присваивания.

Ключевое правило SSA звучит просто: каждая переменная присваивается ровно один раз.

Рассмотрим пример обычного кода:

В этом коде переменная x меняет свое значение. Для человека это понятно, но для алгоритма анализа данных это создает сложность: когда мы видим использование x в строке y = x, нам нужно сканировать код назад, чтобы понять, какое именно присваивание актуально.

В SSA-форме мы версионируем переменные:

Теперь связь между определением (x_2) и использованием (y_1) очевидна и неизменна. Это свойство называется ссылочной прозрачностью.

Проблема слияния потоков и -функция

Однако, что делать, если у нас есть ветвление?

В SSA мы создаем версии x_1 и x_2 внутри веток if и else. Но какую версию использовать после выхода из if? Для решения этой проблемы вводится специальная фиктивная инструкция — -функция (Phi-function).

Математически это записывается так:

где: * — новая версия переменной, объединяющая предыдущие; * — функция выбора, которая возвращает , если управление пришло из ветки then, и , если из ветки else; * — версии переменной из предшествующих базовых блоков.

Важно понимать: -функция не является реальной машинной инструкцией. Это теоретическая конструкция для анализатора. На этапе генерации машинного кода (в бэкенде) -функции заменяются на обычные инструкции пересылки данных (move) или просто исчезают благодаря грамотному распределению регистров.

LLVM IR: Промышленный стандарт

Чтобы закрепить теорию, взглянем на LLVM IR — де-факто стандарт в индустрии компиляторов. Это типичный пример линейного IR в SSA-форме.

Пример функции, вычисляющей сумму двух чисел:

Здесь: * i32 — тип данных (32-битное целое). LLVM IR строго типизирован. * %a, %b, %sum — виртуальные регистры. Их количество бесконечно. * add — инструкция трёхадресного кода.

Если мы добавим условие, появятся метки базовых блоков и -узлы:

Обратите внимание на инструкцию phi. Она явно говорит: «Если мы пришли из блока %then, то результат равен %a. Если из %else, то %b».

Зачем нам всё это?

Использование SSA и графов потока управления позволяет сводить сложные задачи оптимизации к задачам на графах. Например:

Удаление мертвого кода (Dead Code Elimination): Если переменная определена, но список её использований пуст, инструкцию можно удалить. В SSA это тривиальная проверка.

Распространение констант (Constant Propagation): Если и , мы мгновенно видим, что , так как никогда не изменится.

Выделение регистров: Задача сводится к раскраске графа интерференции переменных.

В следующих статьях мы будем детально разбирать, как именно работают эти алгоритмы на базе представленной сегодня теории.

2. Математические основы анализа потока данных и графов управления

Математические основы анализа потока данных и графов управления

Оптимизация программного кода часто воспринимается как набор эвристических правил: «заменить умножение на сдвиг» или «удалить лишнюю переменную». Однако за этими действиями скрывается строгий математический аппарат. Чтобы компилятор мог гарантировать корректность преобразований (то есть то, что оптимизированная программа делает ровно то же самое, что и исходная), он моделирует выполнение программы как систему алгебраических уравнений на графах.

В основе этого моделирования лежат две фундаментальные концепции: теория графов (для анализа управления) и теория решёток (для анализа данных).

Доминаторы и структура графа управления

Граф потока управления (CFG), который мы рассматривали ранее, показывает возможные пути исполнения. Однако для многих оптимизаций (например, для выноса инвариантов из циклов или построения SSA-формы) простого знания «кто с кем соединён» недостаточно. Нам нужно знать иерархию подчинения блоков.

Отношение доминирования

Введём строгое определение доминирования. Узел доминирует над узлом (обозначается ), если любой путь от входного узла графа (Entry) к узлу обязательно проходит через .

Это определение обладает свойствами частичного порядка:

Рефлексивность: (каждый узел доминирует сам над собой).

Транзитивность: если и , то .

Антисимметричность: если и , то .

Если и , то говорят, что строго доминирует над .

Непосредственный доминатор и дерево доминаторов

Среди всех строгих доминаторов узла существует один уникальный узел, который находится «ближе всего» к . Он называется непосредственным доминатором (immediate dominator, ).

Математически это выражается так: — это такой узел , что:

строго доминирует над .

не доминирует ни над каким другим строгим доминатором .

Благодаря свойству уникальности непосредственного доминатора, мы можем построить Дерево доминаторов (Dominator Tree). В этом дереве родительским узлом для является .

!Сравнение графа потока управления и дерева доминаторов для одной и той же функции

Дерево доминаторов позволяет компилятору мгновенно отвечать на вопросы типа: «Если мы находимся в блоке B, гарантировано ли, что блок A уже выполнился?». Если A является предком B в дереве доминаторов — ответ «да».

Граница доминирования (Dominance Frontier)

Ещё одно ключевое понятие, необходимое для построения SSA-формы — это граница доминирования. Границей доминирования узла (обозначается ) называется множество узлов , таких что:

доминирует над непосредственным предшественником .

не строго доминирует над самим .

Интуитивно это «место, где заканчивается власть узла ». Именно в точках границы доминирования необходимо вставлять -функции при построении SSA, так как именно там сливаются потоки данных, один из которых прошёл через , а другой — нет.

Анализ потока данных (Data Flow Analysis)

Если доминаторы описывают структуру управления, то анализ потока данных (DFA) описывает, как значения переменных распространяются по этой структуре. DFA — это фреймворк для решения систем уравнений, где переменными являются свойства программы в каждой точке.

Уравнения потока данных

Для каждого базового блока мы определяем два множества фактов: * — информация, верная перед выполнением блока. * — информация, верная после выполнения блока.

Связь между ними описывается двумя типами уравнений:

Передаточная функция (Transfer Function): Описывает, как сам блок изменяет информацию.

где: * — информация на выходе блока ; * — информация на входе блока ; * — передаточная функция, специфичная для содержимого блока .

Уравнение слияния (Control Flow Equation): Описывает, как информация собирается от предшественников (для прямого анализа).

где: * — информация на входе блока ; * — оператор сбора (meet operator), объединяющий информацию; * — переменная, пробегающая всех предшественников блока ; * — множество всех предшественников блока ; * — информация на выходе предшествующего блока .

Gen и Kill множества

Для большинства анализов передаточная функция имеет стандартный вид:

где: * — входное множество фактов; * — множество фактов, которые генерируются (становятся истинными) внутри блока ; * — оператор объединения множеств; * — оператор разности множеств; * — множество фактов, которые убиваются (становятся ложными) внутри блока .

Пример: Анализ «Достигающие определения» (Reaching Definitions). Мы хотим знать, какие присваивания переменным могут быть актуальны в данной точке. Если в блоке есть инструкция a = 5, она генерирует новое определение переменной a и убивает* все предыдущие определения a.

Теория решёток (Lattice Theory)

Почему мы уверены, что эти уравнения вообще можно решить? И почему алгоритм не зациклится бесконечно? Ответ даёт теория решёток.

Значения, которые мы вычисляем (множества живых переменных, доступных выражений и т.д.), образуют алгебраическую структуру, называемую решёткой.

Определение решётки

Решётка состоит из: * — множества элементов (возможных состояний анализа). * — отношения частичного порядка (определяет, какое состояние «больше» или «информативнее»). * — оператора пересечения (Meet) или точной нижней грани. * — оператора соединения (Join) или точной верхней грани. * (Top) — максимального элемента. * (Bottom) — минимального элемента.

!Визуализация структуры решётки, используемой для анализа данных

Монотонность и неподвижная точка

Ключевое требование к передаточным функциям — они должны быть монотонными. Это значит:

где: * — элементы решётки; * — отношение порядка; * — передаточная функция; * — логическое следствие.

Если функции монотонны, а решётка имеет конечную высоту (мы не можем бесконечно подниматься вверх), то итеративное применение функций гарантированно приведёт к состоянию, которое перестанет меняться. Это состояние называется неподвижной точкой (Fixed Point):

Именно эту неподвижную точку и находит компилятор. Это и есть решение системы уравнений потока данных.

Классификация задач анализа

В зависимости от направления движения и оператора сбора, задачи делятся на четыре основных класса:

Пример: Анализ живых переменных (Live Variables)

Это обратный анализ. Переменная считается «живой» в точке , если её значение может быть использовано в будущем до того, как она будет перезаписана.

Уравнения для блока :

Здесь: * — переменные, используемые в блоке до переопределения (Gen). * — переменные, переопределяемые в блоке (Kill). * — множество наследников блока (так как анализ обратный).

Этот анализ критически важен для распределения регистров. Если переменная не является «живой», её значение можно выкинуть из регистра, освободив место для других данных.

Итеративный алгоритм (Worklist Algorithm)

Как компилятор решает эти уравнения на практике? Используется алгоритм рабочего списка (Worklist Algorithm).

Инициализируем все и множества (обычно или , в зависимости от задачи).

Помещаем все блоки в рабочий список (Worklist).

Пока список не пуст:

* Извлекаем блок . * Вычисляем новое значение (или для прямого анализа) на основе текущих значений соседей. * Применяем передаточную функцию, чтобы получить новое значение на другой стороне блока. * Если выходное значение изменилось, добавляем всех соседей, зависящих от этого блока, обратно в список.

Благодаря теории решёток мы знаем, что этот цикл while обязательно завершится.

Заключение

Математический фундамент компиляторов строится на пересечении теории графов и абстрактной алгебры. Доминаторы дают нам иерархию управления, а теория решёток предоставляет универсальный язык для описания того, как данные «текут» через программу. Понимая эти принципы, мы можем формально доказывать корректность таких сложных оптимизаций, как удаление частичной избыточности или распространение констант, не полагаясь на интуицию.

3. SSA-форма: теоретические аспекты построения и алгоритмы оптимизации

SSA-форма: теоретические аспекты построения и алгоритмы оптимизации

В предыдущих статьях мы рассмотрели архитектуру компиляторов и математический фундамент анализа потока данных — теорию графов и решёток. Теперь мы переходим к сердцу современного миддл-енда: SSA-форме (Static Single Assignment).

Многие воспринимают SSA просто как способ именования переменных, где x превращается в x_1, x_2 и так далее. Однако теоретическая глубина этой концепции гораздо больше. SSA — это свойство графа потока управления, которое упрощает проверку свойств программы, превращая императивный анализ в функциональный.

Теория построения SSA

Построение SSA-формы состоит из двух этапов:

Вставка -функций в точки слияния потоков управления.

Переименование переменных для соблюдения правила единственного присваивания.

Критерий размещения -функций

Наивный подход — вставить -функции для каждой переменной в начале каждого базового блока, имеющего несколько предшественников. Это приведёт к взрывному росту количества инструкций (Maximal SSA), что замедлит компиляцию. Нам нужна Minimal SSA — форма, содержащая минимально необходимое количество -функций.

Здесь нам пригодится понятие границы доминирования (Dominance Frontier — DF), изученное в прошлой лекции. Напомним, что — это множество узлов, где доминирование узла заканчивается.

Теорема о размещении гласит: если переменная определяется в блоке , то -функция для необходима во всех блоках, входящих в границу доминирования .

Однако вставка -функции сама по себе является новым определением переменной. Это означает, что процесс должен быть итеративным. Мы приходим к понятию итерированной границы доминирования ().

Пусть — множество блоков, содержащих присваивание переменной . Тогда множество блоков , где нужны -функции, определяется как предел последовательности:

где: * — итоговое множество блоков для вставки -функций; * — исходное множество блоков с присваиваниями; * — предел последовательности итераций; * — граница доминирования на -м шаге.

Итеративный шаг вычисляется так:

где: * — функция вычисления границы доминирования; * — оператор объединения множеств.

Алгоритмически это решается эффективно: мы помещаем блоки с исходными присваиваниями в рабочий список (Worklist). Для каждого блока из списка находим его границу доминирования, вставляем туда -функции и, если там их ещё не было, добавляем эти блоки в список.

Алгоритм переименования

После расстановки -функций нужно дать переменным уникальные индексы (версии). Этот процесс выполняется за один проход по дереву доминаторов.

Для каждой переменной исходной программы компилятор поддерживает стек счётчиков версий. Алгоритм выглядит так:

Обходим дерево доминаторов в глубину (DFS).

При входе в блок :

* Для каждой инструкции генерируем новые имена для (push в стек) и заменяем на текущие актуальные имена из стека. * Для каждой -функции в этом блоке генерируем новое имя определяемой переменной.

Обновляем параметры -функций в блоках-наследниках (в графе CFG, а не в дереве доминаторов).

При выходе из блока (возврат рекурсии) удаляем из стеков все имена, сгенерированные в этом блоке (pop).

Использование дерева доминаторов гарантирует, что когда мы обрабатываем использование переменной, её определение (которое обязательно доминирует над использованием) уже находится на вершине стека.

Оптимизации на базе SSA

Сила SSA заключается в том, что она делает поток данных явным. Рассмотрим два мощных алгоритма, которые становятся тривиальными благодаря этой форме.

Разреженное условное распространение констант (SCCP)

Классическое распространение констант (Constant Propagation) и удаление мёртвого кода (Dead Code Elimination) часто работают в паре. Если мы узнали, что ветка if (0) никогда не выполнится, мы можем удалить код внутри, что может сделать другие переменные константами.

Алгоритм SCCP (Sparse Conditional Constant Propagation) выполняет обе задачи одновременно. Он использует решётку с тремя типами значений:

где: * (Top) — значение ещё не известно (потенциально константа); * — отношение порядка «информативности»; * — конкретная константа (например, 5 или 42); * (Bottom) — значение точно не является константой (варьируется во время исполнения).

Алгоритм использует два рабочих списка:

Flow Worklist: список рёбер графа управления, которые являются исполняемыми.

SSA Worklist: список рёбер графа потока данных (использования переменных).

Ключевая особенность SCCP — обработка -функций. Значение -узла вычисляется как meet (пересечение в решётке) значений всех его операндов, пришедших по исполняемым рёбрам. Если ребро помечено как неисполняемое (например, из ветки else, в которую мы никогда не заходим), оно игнорируется. Это позволяет доказать константность переменных, которые в обычном анализе считались бы вариативными.

!Диаграмма решётки значений для анализа констант: от неопределенного (Top) через константы к неконстантному (Bottom)

Глобальная нумерация значений (GVN)

Нумерация значений (Value Numbering) — это метод обнаружения избыточных вычислений. Идея проста: если и , и не менялись, то и имеют одинаковое «значение».

В SSA-форме переменные никогда не меняются. Это позволяет расширить нумерацию значений с одного базового блока на всю функцию (Global Value Numbering).

Компилятор присваивает каждому выражению уникальный номер значения. Если выражение уже встречалось и получило номер , то при следующей встрече мы просто переиспользуем результат .

Для -функций применяется специальная логика: считается эквивалентной другой , если их аргументы имеют одинаковые номера значений и они находятся в эквивалентных блоках.

Деконструкция SSA

Процессоры (x86, ARM) ничего не знают о -функциях и бесконечных виртуальных регистрах. Перед генерацией машинного кода необходимо выполнить деконструкцию SSA.

Основная задача — удалить -функции, сохранив семантику. Теоретически, инструкция означает: «если пришли слева, то , если справа, то ».

Это реализуется вставкой копирующих инструкций (moves) в конец предшествующих блоков.

Пример:

Превращается в:

Block A: ... y = x1 jmp block_merge

Block B: ... y = x2 jmp block_merge

Проблема потерянной копии и параллельное присваивание

Сложность возникает, когда -функции зависят друг от друга в одном блоке. Рассмотрим пример обмена значений (swap):

Если мы просто вставим копии последовательно:

a = b

b = a

То значение a будет потеряно, и в b запишется уже новое значение a. Это называется проблемой потерянной копии.

Для корректной деконструкции необходимо моделировать параллельное копирование (Parallel Copy). Компилятор строит граф зависимостей копий и выполняет топологическую сортировку или вводит временные переменные для разрыва циклов в графе зависимостей.

Заключение

SSA-форма — это не просто промежуточный формат, а фундаментальный инструмент, позволяющий применять мощные математические методы к анализу программ. Использование границ доминирования для построения и решёток для оптимизации (SCCP) превращает сложные эвристики в строгие алгоритмы с доказуемыми свойствами. Понимание этих принципов отличает разработчика компиляторов от простого пользователя инструментов сборки.

4. Теория оптимизации циклов, автовекторизация и модель полиэдров

Теория оптимизации циклов, автовекторизация и модель полиэдров

В предыдущих частях курса мы рассматривали программу как граф потока управления (CFG) или граф зависимостей данных. Однако для высокопроизводительных вычислений (HPC) этих абстракций недостаточно. Львиная доля времени выполнения научных и инженерных приложений приходится на циклы. Оптимизатор общего назначения, работающий с SSA-формой, часто не видит структуру многомерных итерационных пространств, скрытую за ветвлениями и -функциями (где — специальная функция в SSA-форме, выбирающая значение переменной в зависимости от пути, по которому поток управления пришел в текущий блок).

Для агрессивных преобразований, таких как тайлинг (tiling) или автовекторизация, требуется более высокий уровень абстракции. Мы переходим от анализа скалярных переменных к анализу пространств итераций и аффинных зависимостей.

Анализ зависимостей данных в циклах

Фундаментом любой оптимизации цикла является понимание того, в каком порядке можно выполнять итерации, не нарушая семантику программы. Если две инструкции обращаются к одной и той же ячейке памяти и хотя бы одно из обращений — запись, между ними существует зависимость.

Пусть и — инструкции внутри гнезда циклов, где и — обозначения конкретных инструкций. Обозначим как вектор итераций (набор счетчиков циклов от внешнего к внутреннему). Запись означает выполнение инструкции на итерации .

Существует три фундаментальных типа зависимостей:

Истинная зависимость (Flow dependence, Read-after-Write): , где — инструкция записи, — инструкция чтения, — символ истинной зависимости. Инструкция пишет значение, которое затем читает . Порядок выполнения менять нельзя.

Анти-зависимость (Anti-dependence, Write-after-Read): , где — инструкция чтения, — инструкция записи, — символ анти-зависимости. Инструкция читает значение, которое затем перезаписывает . Если поменять их местами, прочитает новое (неверное) значение.

Выходная зависимость (Output dependence, Write-after-Write): , где — первая инструкция записи, — вторая инструкция записи, — символ выходной зависимости. Обе инструкции пишут в одну ячейку. Порядок определяет, чье значение останется финальным.

Векторы расстояния и направления

В циклах зависимости часто возникают между разными итерациями. Если зависимость существует между итерацией (источник) и итерацией (сток), то вектором расстояния называется:

где — вектор расстояния, — вектор итераций стока зависимости, а — вектор итераций источника.

Например, для кода:

Чтение A[i-1] на итерации зависит от записи A[i] на итерации . Вектор итераций одномерный. Источник — , сток — . Вектор расстояния:

где — скалярное расстояние, — текущая итерация.

Если вектор расстояния константен, зависимость называется равномерной (uniform). Это ключевое свойство для векторизации.

!Граф зависимостей в итерационном пространстве: стрелки указывают на ограничения порядка выполнения

Классические преобразования циклов

Основываясь на векторе расстояния, компилятор применяет преобразования для улучшения локальности данных или подготовки к векторизации.

Перестановка циклов (Loop Interchange)

Меняет местами внешний и внутренний циклы. Это критически важно для улучшения пространственной локальности (spatial locality).

Рассмотрим доступ к массиву в языке C (хранение по строкам):

Здесь внутренний цикл по i скачет по памяти с шагом (stride-N, где — размерность массива). Это приводит к промахам кэша (cache misses). Перестановка циклов делает доступ последовательным (stride-1).

Математическое условие корректности: перестановка допустима, если она не делает лексикографически положительный вектор зависимости отрицательным.

Тайлинг (Loop Tiling / Blocking)

Разбивает итерационное пространство на небольшие блоки, которые помещаются в кэш процессора. Это классический метод оптимизации умножения матриц.

Вместо прохода по всей строке длины , мы проходим по блоку размера , где — полная длина строки, а — размер блока. Это повышает временную локальность (temporal locality) — повторное использование данных, пока они еще в кэше.

Развертка цикла (Loop Unrolling)

Дублирование тела цикла несколько раз. Снижает накладные расходы на проверку условий и инкремент счетчика, а также увеличивает размер базового блока, давая планировщику инструкций больше свободы.

Автовекторизация (Auto-vectorization)

Современные процессоры (x86 с AVX, ARM с NEON) используют архитектуру SIMD (Single Instruction, Multiple Data). Одна инструкция может сложить сразу 4, 8 или 16 чисел.

Компилятор пытается автоматически преобразовать скалярный код в векторный. Главное препятствие — зависимости, переносимые циклом (loop-carried dependencies).

Если вектор расстояния (как в примере A[i] = A[i-1], где — расстояние между зависимыми итерациями), векторизация невозможна без специальных трюков, так как для вычисления следующего элемента вектора нужен результат предыдущего, который вычисляется в том же векторном шаге.

SLP-векторизация (Superword Level Parallelism)

В отличие от векторизации циклов, SLP работает внутри базовых блоков. Она ищет изоморфные последовательности скалярных инструкций и объединяет их.

SLP-трансформатор объединит это в одну векторную загрузку, сложение и сохранение.

Модель полиэдров (The Polyhedral Model)

Классические оптимизации циклов работают как набор эвристик («давайте попробуем переставить циклы, если не вышло — попробуем развернуть»). Модель полиэдров предлагает единый математический фреймворк для представления и преобразования гнезд циклов.

В этой модели каждая итерация цикла рассматривается как целочисленная точка в геометрическом пространстве. Совокупность всех итераций образует полиэдр (многогранник).

Представление SCoP

Модель применима к частям программы, называемым Static Control Parts (SCoP). Это гнезда циклов, где границы и индексы массивов являются аффинными функциями от переменных внешних циклов и глобальных параметров.

Любой SCoP описывается тремя компонентами:

Домен итераций (Iteration Domain): Множество всех векторов итераций , удовлетворяющих системе линейных неравенств:

где — матрица коэффициентов итераций, — вектор переменных итераций, — матрица коэффициентов параметров, — вектор параметров (например, размер массива ), — вектор констант, — нулевой вектор.

Функции доступа (Access Functions): Описывают, к каким ячейкам памяти обращается инструкция. Они также должны быть аффинными:

где — функция отображения итерации в адрес памяти, — матрица доступа, — вектор итераций, — вектор смещения.

Расписание (Schedule): Функция, которая каждой итерации ставит в соответствие логическое время выполнения. Изначально расписание соответствует лексикографическому порядку циклов.

Преобразование как аффинное отображение

Оптимизация в модели полиэдров сводится к поиску нового расписания , где — функция расписания, а — вектор итераций. Если мы хотим изменить порядок выполнения, мы применяем аффинное преобразование к полиэдру.

Например, skewing (скашивание) цикла преобразует прямоугольный домен итераций в параллелограмм. Это часто используется для устранения зависимостей, мешающих распараллеливанию.

Пусть исходные координаты , где — индексы циклов. Новое расписание:

где — новые координаты времени (итерации трансформированного цикла), матрица — матрица преобразования, — исходные координаты итераций.

В данном случае , , где — новые индексы, а — старые индексы. Это преобразование меняет векторы зависимостей, потенциально делая внутренний цикл независимым.

!Геометрическая интерпретация Loop Skewing в модели полиэдров

Генерация кода (Code Generation)

После того как математически найдено оптимальное расписание (например, минимизирующее коммуникации или максимизирующее параллелизм), необходимо сгенерировать обратно код на C или LLVM IR. Это нетривиальная задача, называемая сканированием полиэдра (polyhedron scanning).

Алгоритм (например, алгоритм Cloog) должен построить новые циклы for, которые посещают все целочисленные точки внутри трансформированного многогранника в лексикографическом порядке. Это часто приводит к сложному коду с min/max в границах циклов, чтобы корректно обработать края полиэдра.

Заключение

Переход от синтаксического анализа к геометрическому представлению в модели полиэдров позволяет компиляторам (таким как Polly в LLVM или Graphite в GCC) выполнять преобразования, недоступные человеку вручную. Это вершина теории оптимизации циклов, объединяющая линейную алгебру и целочисленное программирование для достижения максимальной производительности.

Итоги

* Анализ зависимостей: Корректность любых преобразований циклов базируется на анализе векторов расстояний и направлений зависимостей данных (истинных, анти- и выходных). * Классические методы: Перестановка циклов, тайлинг и развертка — основные инструменты для улучшения локальности данных и подготовки кода к векторизации. * Автовекторизация и SLP: Компиляторы используют SIMD-инструкции, преобразуя циклы или объединяя скалярные инструкции внутри базовых блоков, при условии отсутствия циклических зависимостей с расстоянием 1. * Модель полиэдров: Представляет собой мощный математический аппарат, описывающий гнезда циклов как геометрические объекты (SCoP), что позволяет применять сложные аффинные преобразования для глобальной оптимизации.

5. Алгоритмы распределения регистров и планирования инструкций в бэкенде

Алгоритмы распределения регистров и планирования инструкций в бэкенде

Мы прошли долгий путь от разбора исходного кода во фронтенде до сложных математических преобразований в миддл-енде (SSA, полиэдры). Теперь наш код оптимизирован, но он всё ещё абстрактен. Он оперирует бесконечным количеством виртуальных регистров и идеализированной моделью исполнения. Бэкенд (Backend) — это место, где идеальный мир математики сталкивается с суровой реальностью «железа».

Две самые сложные и взаимозависимые задачи бэкенда — это планирование инструкций (Instruction Scheduling) и распределение регистров (Register Allocation). Именно они определяют, насколько эффективно будут использоваться ресурсы процессора.

Проблема фазового упорядочивания (Phase Ordering Problem)

Прежде чем углубляться в алгоритмы, обозначим фундаментальный конфликт. Эти две задачи противоречат друг другу:

Планирование инструкций стремится увеличить расстояние между определением переменной и её использованием, чтобы скрыть латентность (задержку) операций. Это увеличивает время жизни переменных.

Распределение регистров стремится уменьшить количество одновременно живых переменных, чтобы все они поместились в ограниченный набор физических регистров. Для этого нужно сближать определение и использование.

Этот конфликт делает поиск оптимального решения NP-полной задачей. Компиляторы вынуждены использовать эвристики.

Планирование инструкций (Instruction Scheduling)

Современные процессоры — это суперскалярные конвейерные машины. Выполнение инструкции c = a / b может занимать 10–20 тактов. Если следующая инструкция зависит от c, процессор будет простаивать (stall). Задача планировщика — переупорядочить инструкции так, чтобы загрузить конвейер полезной работой, не нарушая зависимостей данных.

Граф зависимостей (Dependency DAG)

Планирование начинается с построения ориентированного ациклического графа (DAG) для каждого базового блока. Узлы графа — это машинные инструкции, а рёбра — зависимости между ними.

Пусть и — инструкции. Ребро с весом означает, что может начать исполнение не раньше, чем через тактов после запуска .

!Граф зависимостей (DAG), где веса ребер обозначают латентность инструкций.

Списочное планирование (List Scheduling)

Самый популярный алгоритм — списочное планирование. Это жадный алгоритм, который на каждом шаге выбирает лучшую инструкцию из списка готовых к исполнению.

Алгоритм работает следующим образом:

Вычисляем для каждой инструкции приоритет (обычно это длина критического пути от узла до конца блока).

Инициализируем список кандидатов (Ready List) инструкциями, у которых нет неисполненных предшественников.

Пока список не пуст:

* Выбираем инструкцию с наивысшим приоритетом. * Планируем её на текущий такт (с учетом занятости ресурсов процессора). * Обновляем состояние готовности зависимых инструкций. * Если все предшественники новой инструкции выполнены, добавляем её в список кандидатов.

Математически приоритет часто выражается так:

где: * — приоритет узла (длина пути до выхода); * — время выполнения инструкции ; * — выбор максимального значения среди всех потомков; * — ребро от узла к узлу в графе зависимостей ; * — приоритет узла-потомка .

Распределение регистров (Register Allocation)

В IR мы использовали бесконечное число виртуальных регистров (например, %v1, %v2, ... %v1000). Реальный процессор (например, x86-64) имеет всего около 16 регистров общего назначения. Задача распределителя — отобразить множество (виртуальные) на множество (физические), где .

Если регистров не хватает, компилятор должен выполнить сброс (spilling) — сохранить значение переменной в оперативной памяти (стеке) и загрузить его обратно, когда оно понадобится. Это дорогая операция, и её нужно минимизировать.

Живые диапазоны (Live Intervals)

Первый шаг — анализ времени жизни. В отличие от анализа потока данных, здесь нас интересует не просто факт живости, а точный интервал инструкций , где переменная хранит нужное значение.

Граф интерференции (Interference Graph)

Ключевая абстракция для распределения регистров — граф интерференции.

* Узлы: Живые диапазоны переменных (Live Ranges). * Рёбра: Соединяют два узла, если их живые диапазоны пересекаются (интерферируют).

Если две переменные соединены ребром, они не могут находиться в одном и том же физическом регистре, так как они нужны одновременно.

Задача распределения регистров сводится к задаче раскраски графа (Graph Coloring). Нам нужно раскрасить узлы графа в цветов (где — число физических регистров) так, чтобы никакие два смежных узла не имели одинаковый цвет.

!Визуализация задачи раскраски графа интерференции для распределения регистров.

Алгоритм Чайтина-Бриггса (Chaitin-Briggs)

Задача раскраски графа для является NP-полной. Однако Грегори Чайтин предложил эффективную эвристику, основанную на степени узлов.

Основная идея: если у узла степень (количество соседей) меньше (), то мы гарантированно сможем найти для него цвет, если раскрасим всех его соседей. У него просто не хватит соседей, чтобы занять все цветов.

Алгоритм состоит из четырех фаз:

Построение (Build): Строим граф интерференции.

Упрощение (Simplify): Находим узел с , удаляем его из графа и помещаем в стек. Повторяем, пока возможно.

Сброс (Spill): Если все оставшиеся узлы имеют степень , мы зашли в тупик. Выбираем узел для сброса в память (эвристика выбирает переменную, которая меньше всего используется и не находится внутри глубоких циклов). Удаляем его (помечаем как потенциальный spill) и продолжаем упрощение.

Выбор (Select): Извлекаем узлы из стека в обратном порядке и назначаем цвета. Узлы, удаленные на фазе упрощения, гарантированно получат цвет.

Математическое условие упрощаемости:

где: * — квантор существования (существует); * — узел графа ; * — знак принадлежности множеству; * — степень узла (количество ребер, инцидентных ему); * — количество доступных цветов (физических регистров).

Линейное сканирование (Linear Scan)

Алгоритм раскраски графа дает отличный результат, но работает медленно (сложность может достигать ). Для JIT-компиляторов (Java HotSpot, V8), где время компиляции критично, используется алгоритм линейного сканирования.

Он не строит граф. Вместо этого он сортирует все живые интервалы по времени начала и проходит по ним один раз слева направо.

Берем следующий интервал .

Освобождаем регистры, занятые интервалами, которые уже закончились к моменту начала .

Если есть свободный регистр — назначаем его .

Если нет — выбираем «жертву» для сброса среди текущих активных интервалов (обычно ту, которая заканчивается позже всех).

Сложность этого алгоритма близка к линейной, но качество кода (количество сбросов) обычно хуже, чем у раскраски графа.

Слияние регистров (Register Coalescing)

Важная оптимизация, работающая в паре с распределением регистров. Рассмотрим код:

Инструкция %b = %a создает копию. Если %a и %b не интерферируют (их живые диапазоны не перекрываются после момента копирования), мы можем назначить им один и тот же физический регистр. Тогда инструкция копирования станет mov R1, R1 и может быть удалена (No-Op).

В графе интерференции это выглядит как стягивание (merging) двух узлов в один. Однако агрессивное слияние может увеличить степень объединенного узла и сделать граф нераскрашиваемым, вызвав лишние сбросы. Поэтому применяются консервативные стратегии (например, правило Бриггса).

Заключение

Бэкенд компилятора решает сложнейшую задачу упаковки многомерного пазла в жесткие рамки архитектуры процессора. Планировщик борется с задержками памяти и конвейера, а распределитель регистров пытается втиснуть данные в крошечный регистровый файл. Понимание этих алгоритмов необходимо не только разработчикам компиляторов, но и тем, кто занимается низкоуровневой оптимизацией производительности, чтобы понимать, почему изменение порядка строк в коде может внезапно ускорить или замедлить программу.

Итоги

В данной статье мы рассмотрели ключевые этапы работы бэкенда компилятора: планирование инструкций и распределение регистров. Мы изучили проблему фазового упорядочивания, где цели минимизации задержек и экономии регистров вступают в конфликт. Были разобраны основные алгоритмы: списочное планирование для оптимизации конвейера, а также раскраска графа и линейное сканирование для эффективного использования регистров. Эти механизмы позволяют преобразовать абстрактный промежуточный код в высокопроизводительный машинный код.