Компрессия изображений на основе МО с кватернионными банками фильтров: 6-недельный теоретический план

1. Неделя 1: Алгебра кватернионов (Ell—QFT; Sangwine—цвет; Bayro—геом.); КП: RGB→q и базовые операции

Неделя 1: Алгебра кватернионов (Ell—QFT; Sangwine—цвет; Bayro—геом.); КП: RGB→q и базовые операции

Зачем кватернионы в компрессии изображений

Классические кодеки (JPEG, JPEG2000) и многие нейрокодеки обычно обрабатывают цвет как набор отдельных каналов (например, RGB), где преобразования и квантование применяются либо по каналам, либо после линейного преобразования цветового пространства. Это удобно, но часто приводит к расслоению цветовых структур: края, текстуры и мелкие детали могут «ехать» между каналами при агрессивной компрессии.

Кватернионы позволяют представить цвет единым объектом и строить преобразования, которые учитывают корреляции между каналами внутри самой алгебры. Это особенно важно для нашего курса, где далее (недели 2–4) мы будем обсуждать кватернионные банки фильтров и их интеграцию в обучаемые кодеки.

Результаты недели

К концу недели вы должны:

Понимать устройство кватернионов, их базис и почему умножение некоммутативно

Уметь переводить пиксель RGB в кватернионную форму (несколько вариантов отображения)

Уметь выполнять базовые операции: сложение, умножение, сопряжение, норма, обратный

Понимать геометрический смысл единичных кватернионов как поворотов (на уровне идеи)

Видеть, почему квантование кватернионных коэффициентов — нетривиальная проблема для компрессии

Таймлайн недели и контрольные точки

| День | Фокус | Контрольная точка (КП) | |---|---|---| | 1 | Базис , правила умножения | Уметь записать таблицу умножения и объяснить некоммутативность | | 2 | Сопряжение, норма, обратный кватернион | Посчитать , , для заданного | | 3 | Отображение RGB и обратно | Реализовать правило RGB как чистый кватернион (концептуально) | | 4 | Произведение чистых кватернионов: связь со скалярным и векторным произведением | Объяснить, откуда берутся «скалярная» и «векторная» части результата | | 5 | Геометрия: единичные кватернионы как повороты | Уметь объяснить формулу поворота без вывода | | 6–7 | Связь с обработкой изображений и компрессией: что это дает | Сформулировать 3 причины, почему цвет выгодно обрабатывать кватернионно |

Ключевые работы недели и зачем они нужны

Stephen J. Sangwine (1996) — один из ранних и наиболее цитируемых источников, который мотивирует применение кватернионов к цветным изображениям: идея «цвет = единый гиперкомплексный сигнал» и обсуждение преимуществ перед поканальной обработкой.

- Google Scholar: Sangwine 1996 quaternion colour image Fourier transform

Todd A. Ell (работы по Quaternion Fourier Transform, конец 1990-х) — линия работ, где формализуются кватернионные спектральные преобразования (QFT) и свойства, важные для дальнейшего перехода к фильтробанкам/вейвлетам. Нам это нужно как «мост» от алгебры к преобразованиям.

- Google Scholar: Todd Ell quaternion Fourier transform

Eduardo Bayro-Corrochano (книги/монографии по геометрической алгебре, включая 2010-е) — источник, который помогает выстроить геометрическую интуицию (повороты, представление векторных величин, связь с обработкой сигналов). Для нас это важно, чтобы не воспринимать кватернионы как «магические числа», а понимать структуру операций.

- Google Scholar: Bayro-Corrochano geometric algebra 2010

Кватернионы: определение и базис

Кватернион — это расширение комплексных чисел:

где:

— скалярная часть (действительное число)

— векторная часть

— мнимые базисные элементы

Ключевые правила умножения базисов:

Из них следует, например:

, но

Это и есть причина некоммутативности: в общем случае .

!Таблица умножения базисных элементов кватернионов и акцент на некоммутативность

Базовые операции

Сложение и умножение на скаляр

Если

то сложение выполняется покомпонентно:

Здесь каждое , и т. д. — обычная сумма действительных чисел.

Сопряжение

Сопряжение меняет знак у векторной части:

Интуитивно: это обобщение комплексного сопряжения .

Норма

Норма кватерниона — это неотрицательное число:

— квадраты компонент

корень делает норму сопоставимой с «длиной в 4D»

Важно свойство: (это число, без ).

Обратный кватернион

Если , то

Смысл:

в числителе «разворачивает» векторную часть

деление на нормирует величину так, чтобы

Чистые кватернионы и их геометрический смысл

Чистый кватернион — это кватернион с нулевой скалярной частью:

Его удобно интерпретировать как 3D-вектор .

Произведение чистых кватернионов: «скалярная + векторная» части

Пусть и — два 3D-вектора. Представим их как чистые кватернионы:

Тогда их произведение можно записать так:

Как читать эту формулу:

— обычное скалярное произведение (число), оно попадает в скалярную часть результата со знаком «минус»

— обычное векторное произведение (3D-вектор), оно становится векторной частью результата

Почему это важно для изображений: при обработке цвета как «вектора» внутри одного объекта, перемешивание компонент при умножении не является ошибкой — это встроенный механизм учета взаимосвязей.

КП недели: представление RGB как кватерниона

Базовый вариант: RGB как чистый кватернион

Пусть пиксель имеет значения , обычно в диапазоне или после нормализации. Самое распространенное отображение:

Здесь:

скалярная часть равна (мы не кодируем яркость отдельно)

каналы напрямую становятся координатами по осям

Плюсы:

сохраняется «векторная» природа цвета

удобно применять преобразования, которые не разрывают каналы

Минусы:

яркость и цветность «смешаны» в одном векторе; иногда полезно выделять яркость отдельно

Вариант с яркостью в скалярной части (идея)

Можно положить скалярную часть равной некоторой яркостной компоненте :

Это уже дизайнерское решение кодека: что именно класть в (например, luma-подобную комбинацию) и как это влияет на последующее преобразование и энтропийное кодирование.

!Визуальная интуиция отображения RGB-пикселя в чистый кватернион

Единичные кватернионы и повороты (интуиция, пригодится дальше)

Если кватернион имеет норму (то есть ), его называют единичным. В геометрии единичные кватернионы используются для описания поворотов в 3D.

Если — чистый кватернион (вектор), то поворот можно записать как:

Здесь:

— исходный вектор (например, «цветовой вектор» в пространстве )

— единичный кватернион, задающий поворот

— обратный (для единичного кватерниона )

— повернутый вектор

Важно для курса: это намекает, что кватернионные операции позволяют строить согласованные преобразования цвета, которые можно трактовать как «вращения/смешивания» каналов без разрыва структуры.

Критическая проблема для компрессии: квантование кватернионных коэффициентов

В компрессии нам неизбежно нужно квантовать коэффициенты преобразования (в JPEG это коэффициенты DCT; в JPEG2000 — вейвлет-коэффициенты; в нейрокодеках — латентные).

С кватернионами появляется несколько сложностей:

Связность компонент: компоненты (или в чистом виде) статистически связаны. Независимое покомпонентное квантование может разрушать цветовые корреляции и порождать артефакты.

Некоммутативность: порядок операций имеет значение. То, что эквивалентно в вещественной/комплексной арифметике (например, перестановка факторов), может менять результат и статистику коэффициентов.

Метрика ошибки: простое MSE по компонентам кватерниона не всегда соответствует воспринимаемой цветовой ошибке. Это напрямую связывает нас с неделей 5 (метрики, включая ).

Практический вывод недели: уже на уровне алгебры видно, что «квантовать кватернион» — это не просто округлить четыре числа; нужно продумать стратегию: совместное квантование, квантование нормы и направления, или переход в представление, более удобное для энтропийного кодирования.

Как это связано со следующей неделей

На этой неделе мы построили минимальный язык: что такое кватернион, как им кодировать цвет и какие операции естественны.

Далее (неделя 2) мы будем использовать этот язык для понимания кватернионных банков фильтров и кватернионных преобразований (QFT/QWT-логика): зачем они сохраняют цветовые корреляции и как это может дать выигрыш в компрессии по артефактам и эффективности.

2. Неделя 2: Кватернионные банки фильтров и QWT; КП: сравнить сохранение цветовых корреляций (Ell; Sangwine; Bayro)

Неделя 2: Кватернионные банки фильтров и QWT; КП: сравнить сохранение цветовых корреляций (Ell; Sangwine; Bayro)

Связь с прошлой неделей и роль этой недели в курсе

На прошлой неделе мы ввели кватернионы как язык представления цвета: RGB-пиксель можно рассматривать как единый объект (например, чистый кватернион), а не как три независимых канала. Теперь мы делаем следующий шаг: вместо простых операций над кватернионами строим преобразования, которые в компрессии играют роль «разложения по частотам».

В классической компрессии эту роль выполняют DCT (JPEG) или вейвлеты (JPEG2000). В нашем курсе мы хотим понять, что изменится, если такие разложения делать не поканально, а кватернионно: через кватернионные банки фильтров и кватернионные (вейвлетоподобные) преобразования, включая QWT.

Далее (неделя 3) мы сравним это с традиционными и обучаемыми кодеками, а на неделе 4 — обсудим, как кватернионный блок можно встроить в современный нейрокодек.

Результаты недели

К концу недели вы должны:

Понимать, что такое банк фильтров и почему вейвлет-преобразование удобно для компрессии

Понимать, что означает идеальная реконструкция (perfect reconstruction) и почему это важнее «красивой математики»

Понимать, чем кватернионный банк фильтров отличается от поканального (RGB отдельно)

Знать, что обычно подразумевают под QWT в контексте цветных изображений: кватернионное представление коэффициентов, которое старается сохранить связность цвета (корреляции каналов) в поддиапазонах

Уметь описать и выполнить контрольную точку недели: сравнить, как разные разложения сохраняют межканальные корреляции

Осознавать критическую проблему: квантование кватернионных коэффициентов в поддиапазонах и его влияние на цветовые артефакты

Таймлайн недели и контрольные точки

| День | Фокус | Контрольная точка (КП) | |---|---|---| | 1 | Что такое банк фильтров: анализ/синтез, поддиапазоны | Уметь словами объяснить, чем отличаются фильтры анализа и синтеза | | 2 | Вейвлет-разложение как частный случай банка фильтров | Уметь нарисовать схему 2D вейвлет-разложения на 4 поддиапазона | | 3 | Идеальная реконструкция: зачем нужна в компрессии | Объяснить, что «ошибка» должна определяться квантованием, а не самим преобразованием | | 4 | Кватернионная фильтрация: что меняет некоммутативность | Уметь объяснить разницу между левым и правым умножением в фильтрации | | 5 | Интуиция QWT: что кодирует коэффициент (амплитуда/фаза/ориентация) и почему это полезно для цвета | Уметь объяснить, почему «единый коэффициент на цвет» снижает риск цветового расслоения | | 6 | КП: сравнение сохранения корреляций (кватернионно vs поканально) | Посчитать и сравнить межканальные корреляции коэффициентов поддиапазонов | | 7 | Критическая проблема: квантование кватернионных коэффициентов | Сформулировать 2–3 стратегии квантования и их риски |

Банк фильтров: минимальная теория без лишней формальности

Что такое банк фильтров

Банк фильтров — это схема, которая:

разлагает сигнал на несколько компонент (обычно по частотам/масштабам) с помощью фильтров анализа

(в компрессии) позволяет по-разному квантовать/сжимать эти компоненты

затем собирает сигнал обратно фильтрами синтеза

В 2D (для изображений) самый типичный вариант — разложение на поддиапазоны:

низкие частоты по обеим осям (приближение)

низкие по одной оси и высокие по другой (детали)

высокие по обеим (мелкие детали/шум)

Почему вейвлеты так часто используются в компрессии

Вейвлет-разложение можно понимать как хорошо организованный банк фильтров, который:

дает много коэффициентов около нуля (их легко энтропийно кодировать)

локализован и по пространству, и по масштабу (ошибки квантования часто выглядят менее «глобальными», чем у DCT)

естественно поддерживает многоуровневость (пирамиду масштабов)

Идеальная реконструкция (perfect reconstruction)

Ключевая инженерная идея: если у нас нет квантования (то есть мы храним коэффициенты точно), то после анализа и синтеза мы должны получить исходное изображение.

Если реконструкция неидеальна сама по себе, то мы смешиваем два источника ошибки: ошибку преобразования и ошибку квантования.

Для компрессии это плохо: мы хотим, чтобы качество контролировалось только квантованием/битрейтом.

Переход к цвету: поканально или кватернионно

Поканальная схема (базовая, но проблемная)

Самый распространенный подход: применить один и тот же 2D-банк фильтров к R, G, B по отдельности.

Плюсы:

простота реализации

можно использовать готовые вейвлет-фильтры без изменений

Минусы (важные для нашего курса):

связи между каналами учитываются слабо или не учитываются вообще

при агрессивном квантовании поддиапазонов возможны цветовые ореолы и расслоение контуров между каналами

Кватернионная схема (идея недели)

Мы представляем цветной пиксель как кватернион (часто как чистый кватернион):

Разбор формулы:

— координаты пикселя

— значения каналов в этой точке

— базисные мнимые элементы кватерниона

скалярная часть равна нулю, поэтому это чистый кватернион

Дальше мы хотим применить к этому полю фильтрацию и разложение на поддиапазоны так, чтобы преобразование работало с цветом как с единым объектом.

Кватернионные банки фильтров: что принципиально меняется

Кватернионная фильтрация и некоммутативность

В вещественной/комплексной фильтрации порядок умножения обычно не обсуждают: он «по умолчанию» коммутативен или не вызывает проблем. Для кватернионов это не так: в общем случае .

Поэтому уже на уровне определения свертки (фильтрации) нужно выбрать соглашение:

левая фильтрация: коэффициент фильтра умножается слева

правая фильтрация: коэффициент фильтра умножается справа

Практический смысл для банка фильтров:

нужно фиксировать порядок умножения одинаково в анализе и синтезе

иначе можно получить преобразование, которое плохо реконструирует сигнал или меняет статистику коэффициентов непредсказуемо

Что означает «кватернионный фильтр»

Есть два частых сценария:

Фильтры вещественные (скалярные), а сигнал кватернионный

- тогда фильтрация не смешивает компоненты напрямую, но и не разрывает их на отдельные каналы: коэффициент в поддиапазоне остается кватернионом, что удобно для совместного квантования и энтропийного моделирования

Фильтры тоже кватернионные

- тогда фильтр может реализовывать «согласованное смешивание» компонент (цветовых осей) в процессе разложения

Для компрессии нас особенно интересует второй вариант, потому что он потенциально позволяет встроенно учитывать корреляции RGB при формировании поддиапазонных коэффициентов.

Что обычно подразумевают под QWT в обработке изображений

Термин QWT в литературе и практике может употребляться не идеально единообразно, но в контексте нашей темы полезно держать следующую рабочую интерпретацию.

Интуитивное определение

QWT (quaternion wavelet transform) — это вейвлетоподобное разложение, в котором коэффициенты являются кватернионами и несут информацию о локальных структурах изображения так, чтобы:

детали (границы, текстуры) описывались компактно

цветовые каналы оставались согласованными

было легче избежать цветового расслоения при квантовании

Что может «кодировать» кватернионный коэффициент

Если говорить на уровне интуиции (без тяжелого вывода), один коэффициент в поддиапазоне может одновременно выражать:

локальную силу детали (аналог амплитуды)

локальную структуру/фазу детали

ориентационную информацию

и при этом быть единым контейнером для связанного изменения в RGB

Это полезно именно для компрессии: квантование одного связанного объекта часто дает более предсказуемые артефакты, чем независимое квантование трех каналов.

Где QWT «похожа» на привычные инструменты

Чтобы не создавать ощущение, что QWT — это полностью другой мир:

вейвлет-идея сохраняется: разложение на масштабы и поддиапазоны

как и в JPEG2000, возникает набор коэффициентов, большинство из которых малы

отличие в том, что коэффициент несет сцепленный цветовой смысл

Визуальная интуиция: схема кватернионного разложения

!Блок-схема, показывающая отличие поканального и кватернионного фильтробанка

КП недели: сравнить сохранение цветовых корреляций

Цель КП: не «доказать теорему», а увидеть измеримо и визуально, что кватернионное разложение может лучше сохранять совместную структуру цвета в поддиапазонах.

Что именно сравниваем

Сравниваем две линии обработки:

Поканальная

- применяем один и тот же банк фильтров к R, затем к G, затем к B

Кватернионная

- собираем и применяем кватернионный банк фильтров так, что коэффициенты поддиапазонов остаются кватернионами

Как измерить «сохранение корреляций»

Есть два простых измеримых подхода (их можно комбинировать).

Межканальная корреляция в поддиапазонах

- берем коэффициенты поддиапазона (например, LH на первом уровне) - если у нас поканально, то это три массива коэффициентов - считаем корреляции между парами (R,G), (R,B), (G,B) - сравниваем, насколько сильно эти корреляции «проседают» относительно исходного изображения

Поведение артефактов после одинакового квантования/обнуления

- применяем одинаковое правило грубого квантования (например, округление или обнуление малых коэффициентов) в обоих подходах - сравниваем ошибки в цвете: визуально и с помощью метрик цвета (подготовка к неделе 5)

Что фиксировать как результат КП

Результат КП удобно оформить как таблицу наблюдений:

поддиапазон (LL/LH/HL/HH и уровень)

корреляции (RG/RB/GB) до и после

субъективное наблюдение: где появляется цветовое расслоение

!Сравнение типичных цветовых артефактов при поканальном и кватернионном разложении

Критическая проблема: квантование кватернионных коэффициентов в поддиапазонах

На прошлой неделе мы уже отметили, что квантование кватерниона «как четырех независимых чисел» часто разрушает структуру. В банках фильтров проблема усиливается, потому что:

в каждом поддиапазоне статистика коэффициентов разная

именно квантование поддиапазонов напрямую определяет артефакты

Ниже — основные стратегии и их компрессионный смысл.

Покомпонентное квантование

Идея: квантовать отдельно компоненты кватерниона.

плюс: просто, можно использовать стандартные энтропийные модели

минус: легко разрушить совместную структуру цвета, особенно в высокочастотных поддиапазонах

Квантование «норма + направление»

Идея: представить кватернионный коэффициент как произведение величины и «направления».

На уровне интуиции:

норма отвечает за «силу детали»

направление отвечает за то, как эта деталь распределена по цветовым компонентам

Компрессионный смысл:

можно квантовать норму грубее, а направление беречь сильнее

это часто лучше сохраняет цветовую согласованность границ

Зависимость от энтропийного кодирования

Даже если преобразование хорошее, итоговый битрейт определит энтропийная модель (мы будем подробно говорить об этом на неделе 3 и особенно в контексте нейрокодеков).

Важно заранее понимать: кватернионные коэффициенты могут требовать

совместного моделирования компонент

или смены параметризации (например, кодировать норму отдельно)

Иначе потенциальное преимущество кватернионного разложения может «не дойти» до реального выигрыша по битрейту.

Ключевые работы недели и зачем они нужны

Todd A. Ell, Stephen J. Sangwine — Hypercomplex Fourier Transforms (Springer, 2014)

- Зачем: это один из наиболее цельных источников по гиперкомплексным (включая кватернионные) преобразованиям сигналов и изображений, включая свойства, важные для фильтрации и построения преобразований. Для нашей недели это методологическая база: как аккуратно переносить идеи частотного/линейного анализа в кватернионный мир. - Ссылка: Hypercomplex Fourier Transforms (Springer)

Stephen J. Sangwine — Fourier transforms of colour images using quaternion, or hypercomplex, numbers (Electronics Letters, 1996)

- Зачем: короткая, но фундаментальная мотивация «цвет как единый гиперкомплексный сигнал». Эта идея прямо поддерживает кватернионные фильтробанки: если цвет единый сигнал, то и разложение на поддиапазоны логично делать единым. - Ссылка: Sangwine (1996), Electronics Letters (DOI)

Eduardo Bayro-Corrochano — Geometric Computing: for Wavelet Transforms, Robot Vision, Learning, Control and Action (Springer, 2010)

- Зачем: дает геометрическую интерпретацию алгебраических конструкций и связывает их с вейвлетами и вычислительными схемами. Для нас это важно, чтобы кватернионные фильтры и QWT не воспринимались как набор трюков, а как геометрически осмысленные операции. - Ссылка: Geometric Computing (Springer)

Как эта неделя готовит нас к неделе 3

Теперь у нас есть «кандидатный блок» для кодека: кватернионный банк фильтров/QWT, который потенциально лучше сохраняет цветовые корреляции. На неделе 3 мы разберем, как устроены реальные кодеки (JPEG/JPEG2000 и обучаемые нейрокодеки) и где именно подобный блок может дать преимущество или, наоборот, создать сложности (например, из-за энтропийного кодирования и квантования).

3. Неделя 3: JPEG/JPEG2000 и нейрокодеки (Wallace; Taubman; Ballé); КП: таблица отличий + WaLLoC

Неделя 3: JPEG/JPEG2000 и нейрокодеки (Wallace; Taubman; Ballé); КП: таблица отличий + WaLLoC

Роль недели в курсе и связь с предыдущими темами

На неделях 1–2 мы построили кватернионный язык для цвета и обсудили кватернионные банки фильтров: идея в том, чтобы разлагать цвет совместно, не разрывая RGB на независимые каналы, и тем самым уменьшать цветовое расслоение при квантовании.

Эта неделя нужна, чтобы понять, как устроены реальные кодеки сегодня:

JPEG как эталон блочной трансформ-компрессии

JPEG2000 как эталон вейвлет-компрессии и кодирования по поддиапазонам

Нейрокодеки как современный подход с обучаемыми преобразованиями и вероятностным энтропийным моделированием

Гибридные методы (на примере WaLLoC), которые пытаются объединить строгую структуру вейвлетов с гибкостью нейросетей

Далее (неделя 4) мы будем обсуждать, куда именно вставлять кватернионный фильтробанк в нейрокодек и что потребуется изменить в квантовании и энтропийном кодировании.

Результаты недели

К концу недели вы должны:

Понимать конвейер JPEG: блоки, DCT, квантование, зигзаг, энтропийное кодирование

Понимать конвейер JPEG2000: вейвлет-разложение, квантование поддиапазонов, EBCOT и прогрессивность

Понимать базовый нейрокодек: автоэнкодер, латенты, квантование (через приближения при обучении), entropy bottleneck и гиперприор

Уметь объяснить, почему энтропийная модель в нейрокодеке так же важна, как и само преобразование

Выполнить КП: составить таблицу отличий (JPEG vs JPEG2000 vs нейрокодеки vs WaLLoC) и сформулировать гипотезу, где кватернионный блок даст наибольший эффект

Таймлайн недели и контрольные точки

| День | Фокус | Контрольная точка (КП) | |---|---|---| | 1 | JPEG как блочная трансформ-компрессия | Уметь перечислить этапы кодека и назвать источники артефактов | | 2 | JPEG2000 как вейвлет-кодек | Уметь объяснить отличие квантования по блокам и по поддиапазонам | | 3 | Базовый нейрокодек (Ballé): латенты и энтропийная модель | Уметь объяснить, что такое entropy bottleneck и зачем нужен гиперприор | | 4 | Сравнение артефактов и поведения на градиентах | Сформулировать, где возникают блокинг, рингинг и цветовое расслоение | | 5 | Гибридные кодеки: идея WaLLoC | Уметь описать, что дает вейвлет-декомпозиция, если дальше ее «дожимать» обучением | | 6–7 | КП: таблица отличий + позиционирование кватернионных банков | Итоговая таблица + 2–3 вывода для дизайна метода недели 4 |

!Схема-конвейер для сопоставления кодеков и мест, где «живет» квантование и энтропийное кодирование

JPEG: что важно для нашего курса

JPEG (в классическом виде) строится вокруг блочного косинусного преобразования.

Конвейер JPEG на уровне смысла

Преобразование цвета

- На практике часто переходят к YCbCr, чтобы отделить яркость от цветоразностных компонент.

Разбиение на блоки

- Типично . Это критично, потому что блочность проявляется в артефактах.

DCT (дискретное косинусное преобразование)

- Делает коэффициенты более пригодными к квантованию: много высокочастотных коэффициентов становится маленькими.

Квантование

- Главный источник потерь: высокие частоты квантуюются сильнее.

Энтропийное кодирование

- RLE для нулей + кодирование по Хаффману (в базовом стандарте).

Типичные артефакты JPEG

Блокинг: границы блоков становятся заметны при сильном сжатии.

Рингинг: колебания около резких границ из-за усечения/квантования частот.

Цветовое расслоение: часто связано с тем, что цветовые компоненты квантованы иначе и/или обработаны несимметрично.

Для нашего курса важный вывод: JPEG показывает, что даже хорошее преобразование теряет качество главным образом из-за квантования, а артефакты во многом определяются структурой разложения (блоки) и тем, как цвет отделен от яркости.

JPEG2000: вейвлеты, поддиапазоны и прогрессивность

JPEG2000 заменяет блочную DCT на вейвлет-разложение всего изображения (многоуровневое), а затем кодирует коэффициенты поддиапазонов.

Конвейер JPEG2000 на уровне смысла

Преобразование цвета (опционально)

- Может использоваться преобразование компонент (component transform).

Вейвлет-разложение

- Формирует поддиапазоны LL, LH, HL, HH на нескольких уровнях.

Квантование коэффициентов

- Разные поддиапазоны могут квантоваться по-разному.

EBCOT (Embedded Block Coding with Optimized Truncation)

- Кодирование по кодовым блокам в вейвлет-домене и формирование прогрессивного битстрима.

Что JPEG2000 дает по сравнению с JPEG

Сильно снижает блокинг (нет жесткого деления на блоки в пространстве исходного изображения).

Поддерживает прогрессивную передачу по качеству/разрешению.

Часто лучше на гладких градиентах.

Связь с неделей 2 прямая: JPEG2000 демонстрирует инженерную ценность фильтробанков и поддиапазонной структуры. Именно поэтому кватернионные банки фильтров логично рассматривать как потенциальную «цветосогласованную» альтернативу поканальным разложениям.

Нейрокодеки: автоэнкодеры, латенты и entropy bottleneck

Современные обучаемые кодеки (линия работ Ballé и последователей) заменяют фиксированное преобразование (DCT/вейвлет) на обучаемый анализ-трансформ, а фиксированное энтропийное кодирование дополняют обучаемой вероятностной моделью латентов.

Базовая схема нейрокодека

Анализ-трансформ : изображение превращается в латенты .

- означает входное изображение (например, RGB). - означает компактное представление, которое и будет кодироваться.

Квантование:

- означает округление до целых значений (в инференсе).

Энтропийная модель :

- оценивает вероятность каждого значения , чтобы эффективно кодировать битстрим арифметическим кодированием.

Синтез-трансформ : реконструкция .

Что оптимизируется при обучении

Чаще всего оптимизируют компромисс «битрейт–искажение»:

Расшифровка всех частей:

— итоговая функция потерь, которую минимизируют.

— оценка ожидаемой длины кодирования (битрейта), связанная с тем, насколько хорошо энтропийная модель предсказывает латенты.

— искажение (например, MSE или прокси под MS-SSIM), то есть насколько реконструкция отличается от оригинала.

— число, которое задает баланс: больше означает больший акцент на качество, меньший — на экономию бит.

Почему entropy bottleneck принципиален

Если преобразование сделало латенты «компактными», но их распределение плохо моделируется, вы заплатите лишние биты. Поэтому нейрокодек — это не только «сильная сеть», но и качественная вероятностная модель.

Гиперприор (интуитивно)

Гиперприор вводит дополнительные латенты (часто обозначают ), которые описывают локальную шкалу/неопределенность распределений и позволяют точнее оценить . Практический эффект: меньше бит при том же качестве.

Гибридные подходы: WaLLoC как мост между вейвлетами и обучением

Гибридные кодеки пытаются взять лучшее из двух миров:

структуру и интерпретируемость вейвлетов/поддиапазонов

адаптивность нейросетевого моделирования и энтропийной оптимизации

Пример для чтения и обсуждения на этой неделе:

WaLLoC: WaLLoC (arXiv:2412.09405)

Концептуально такие методы часто устроены так:

Вейвлет-разложение формирует поддиапазоны (как в JPEG2000).

Нейросеть кодирует/предсказывает/уплотняет коэффициенты поддиапазонов.

Вероятностная модель и арифметическое кодирование делают битстрим.

Почему это важно именно нам:

Если мы хотим вставить кватернионный банк фильтров (неделя 2) в обучаемый кодек (неделя 4), гибридные работы дают готовую «точку входа»: вейвлетоподобный front-end + обучаемое уплотнение.

!Иллюстрация того, что нас интересует дальше: уменьшение цветового расслоения при совместной обработке

КП недели: таблица отличий + выводы для кватернионного дизайна

Ниже шаблон таблицы, которую вы должны заполнить и расширить по итогам чтения и анализа.

Таблица для КП

| Критерий | JPEG | JPEG2000 | Нейрокодек (Ballé-тип) | Гибрид (WaLLoC-тип) | |---|---|---|---|---| | Преобразование | DCT по блокам | Вейвлет-фильтробанк, многоуровневость | Обучаемый анализ-трансформ | Вейвлеты + обучаемые блоки | | Где возникают структуры ошибок | На границах блоков | Около резких границ (рингинг), в поддиапазонах | Пере-сглаживание, текстурные потери, иногда «пластик» | Комбинация, зависит от роли нейросети | | Квантование | Таблицы квантования DCT | Квантование коэффициентов поддиапазонов | Квантование латентов | Квантование поддиапазонов/латентов | | Энтропийное кодирование | RLE + Хаффман | EBCOT (контекстное кодирование) | Арифметическое кодирование + обучаемая модель | Арифметическое кодирование + гибридная модель | | Работа с цветом | Обычно через YCbCr | Возможны компонентные преобразования | Чаще RGB или YCbCr, зависит от реализации | Часто явная структуризация по поддиапазонам | | Дифференцируемость конвейера | Нет | Нет | Да (в обучении используют приближения квантования) | Частично/да | | Где логично вставлять кватернионный блок | До DCT (нетипично) | На месте вейвлет-банка | В анализ-трансформ или перед ним | В вейвлет-front-end |

Что считается выполнением КП

Таблица заполнена не общими словами, а конкретными инженерными отличиями.

Добавлены 2–3 строки, важные лично для вашей будущей архитектуры (например, устойчивость к цветовым градиентам, стоимость декодирования, совместимость с энтропийной моделью).

Написаны 2–3 вывода (в тексте), например:

- где цвет страдает сильнее всего и почему - какой кодек ближе по духу к кватернионному фильтробанку - какие части нейрокодека придется менять, если коэффициенты становятся кватернионными

Критическая проблема курса, проявляющаяся уже здесь: квантование и цвет

На этой неделе полезно зафиксировать общий принцип:

JPEG и JPEG2000 показывают, что артефакты часто определяются тем, как именно квантовать коэффициенты и как распределять биты между компонентами.

Нейрокодеки показывают, что квантование тесно связано с тем, какую статистику будут иметь латенты и насколько хорошо их закодирует энтропийная модель.

Связь с нашей центральной проблемой курса:

Если на неделе 4 мы захотим квантовать кватернионные коэффициенты (например, коэффициенты кватернионного фильтробанка), то покомпонентная стратегия «квантовать 3–4 числа независимо» может привести к тем же проблемам, что и поканальная обработка цвета: разрушению межкомпонентных зависимостей и цветовым ореолам.

Минимальный вывод недели для будущего дизайна:

В обучаемом кодеке имеет смысл рассматривать такие параметризации, где энтропийная модель сможет эффективно кодировать кватернионную структуру, например через совместное моделирование компонент или через раздельное кодирование величины и направления коэффициента (идея из недели 2).

Ключевые работы недели и зачем они нужны

Gregory K. Wallace (1992): JPEG

- Работа: The JPEG still picture compression standard (Communications of the ACM) - Зачем: классическое, доступное описание того, что именно стандарт JPEG делает с изображением (включая DCT, квантование и энтропийное кодирование). Это база для сравнения: мы должны понимать, какие проблемы JPEG решает хорошо, а какие артефакты порождает неизбежно.

David Taubman, Michael Marcellin (2002): JPEG2000

- Книга: JPEG2000: Image Compression Fundamentals, Standards and Practice (Springer) - Зачем: системное изложение JPEG2000, особенно важно понимание поддиапазонного кодирования и EBCOT. Для нас это мост от недели 2 (вейвлеты и банки фильтров) к реальному инженерному кодеку.

Johannes Ballé и соавторы: обучаемая компрессия

- Работа: Variational image compression with a scale hyperprior (ICLR 2018, arXiv) - Зачем: одна из ключевых работ, оформившая современный шаблон нейрокодека: автоэнкодер + вероятностная модель латентов + гиперприор. Это нужно, чтобы на неделе 4 обсуждать интеграцию кватернионного фронтенда и изменения в энтропийной модели.

Переход к следующей неделе

Теперь у нас есть карта пространства методов:

фиксированные преобразования (JPEG, JPEG2000)

обучаемые преобразования и энтропийные модели (Ballé-тип)

гибриды (WaLLoC-тип)

На неделе 4 мы используем эту карту, чтобы спроектировать место кватернионного блока в архитектуре кодека и заранее увидеть узкие места:

как квантовать кватернионные коэффициенты так, чтобы не проиграть по битрейту

как адаптировать энтропийное кодирование под совместную статистику компонент

как сравнивать с базовыми и гибридными методами честно (метрики и датасеты уйдут в неделю 5)

4. Неделя 4: Интеграция кватернионов и МО (Parcollet; Gaudet; Ballé); КП: место блока и квантование коэффициентов

Неделя 4: Интеграция кватернионов и МО (Parcollet; Gaudet; Ballé); КП: место блока и квантование коэффициентов

Зачем нужна эта неделя

На неделях 1–2 мы обсудили кватернионное представление цвета и кватернионные банки фильтров (QWT-логика): идея в том, чтобы разлагать цвет совместно и не провоцировать расслоение RGB при квантовании. На неделе 3 мы разобрали, как устроены современные кодеки: от JPEG/JPEG2000 до нейрокодеков Ballé-типа и гибридов.

Эта неделя отвечает на главный инженерный вопрос курса: как именно встроить кватернионный блок в обучаемый кодек так, чтобы преимущества (цветовая согласованность) не были «съедены» квантованием и энтропийным кодированием.

Фокус недели:

где расположить кватернионный фильтробанк в архитектуре нейрокодека

как представить и квантовать кватернионные коэффициенты

как адаптировать энтропийную модель (entropy bottleneck и гиперприор) под связные компоненты

Результаты недели

К концу недели вы должны уметь:

объяснить 3 варианта размещения кватернионного блока в кодеке и их последствия

отличить подход кватернионные слои от подхода реальная сеть, но с кватернионной параметризацией данных

перечислить ключевые стратегии квантования кватернионных коэффициентов и типичные артефакты каждой

описать, что именно нужно поменять в энтропийной модели, если латенты перестают быть условно независимыми скалярами

Таймлайн недели и контрольные точки

| День | Фокус | Контрольная точка (КП) | |---|---|---| | 1 | Быстрый рекап: нейрокодек Ballé-типа и где в нем «живут» квантование и энтропия | Уметь нарисовать блок-схему: анализ → квантование → энтропия → синтез | | 2 | Варианты размещения кватернионного фронтенда (до/внутри/после анализа) | Выбрать вариант и обосновать, какие ошибки он уменьшает | | 3 | Кватернионные нейросети: что дает параметризация (Gaudet, Parcollet) | Уметь объяснить, почему кватернионные слои «связывают» компоненты | | 4 | Как кодировать кватернионные латенты: покомпонентно vs совместно | Сформулировать, почему факторизованная энтропийная модель может проиграть | | 5 | Квантование: компонентное vs «норма+направление» vs векторное | Составить список рисков (цветовые ореолы, нестабильная энтропия, дрейф оттенка) | | 6–7 | КП недели: место блока и квантование коэффициентов (дизайн-решение) | Итог: схема архитектуры + выбранная стратегия квантования + аргументы |

!Схема показывает, куда можно встроить кватернионный блок и где придется адаптировать квантование и энтропию

Ключевые работы недели и зачем они нужны

C.J. Gaudet, A.S. Maida — работы по deep quaternion networks

- Зачем: эти работы популяризовали идею, что кватернионные представления и операции полезны в нейросетях, когда компоненты сигнала связаны (как RGB). Для нашего курса это источник интуиции: как «сцепление компонент» можно перенести из кватернионной математики в обучаемые слои. - Ссылка для поиска первоисточника: Google Scholar: Gaudet Maida deep quaternion networks

T. Parcollet и соавторы — quaternion neural networks / quaternion convolution

- Зачем: практическая линия работ, показывающая, как строить кватернионные свертки/линейные слои с параметризацией, которая принудительно моделирует межкомпонентные зависимости. Для нас это важно при выборе: делать ли кватернионные слои (со своими ограничениями) или достаточно кватернионного фронтенда + обычной сети. - Ссылка для поиска релевантных статей Parcollet: Google Scholar: Parcollet quaternion neural networks

J. Ballé и соавторы — гиперприор и вероятностное энтропийное моделирование

- Зачем: это стандартная «точка сборки» современных нейрокодеков. Мы будем опираться на этот шаблон, но обсуждать, что ломается или требует адаптации, когда латенты становятся кватернионными (то есть статистически связанными векторными величинами). - Ссылка: Ballé et al. (2018) Variational image compression with a scale hyperprior

От чего мы отталкиваемся: нейрокодек Ballé-типа как базовый шаблон

Нам нужна общая рамка, чтобы корректно обсуждать интеграцию.

Типичная оптимизация нейрокодека выглядит как компромисс «битрейт–искажение»:

Пояснение каждого символа:

— итоговая функция потерь, которую минимизируют при обучении.

— оценка ожидаемого числа бит на кодирование латентов (через вероятностную модель и арифметическое кодирование).

— мера искажения между исходным изображением и реконструкцией (например, MSE или прокси для MS-SSIM).

— коэффициент, задающий баланс: чем больше , тем больше приоритет качества относительно битрейта.

Ключевой вывод для нашей темы: если кватернионный блок меняет статистику латентов, то меняется и (а значит, без адаптации энтропийной модели метод может внезапно стать хуже по битрейту).

Варианты интеграции кватернионов в обучаемый кодек

Ниже три базовые архитектурные стратегии. На практике их можно комбинировать, но для КП недели важно выбрать одну «опорную».

Кватернионный фронтенд до нейросети

Схема:

RGB → отображение в кватернионное поле

кватернионный банк фильтров/QWT → набор кватернионных поддиапазонов

далее нейросеть кодирует поддиапазоны (или их склейку) в компактные латенты

Что это дает:

интерпретируемая, структурная декомпозиция (родство с JPEG2000 и гибридами)

шанс уменьшить цветовое расслоение до того, как сеть начнет терять детали

Главный риск:

если затем квантовать/кодировать коэффициенты неудачно, выигрыш фронтенда исчезнет

Когда это особенно логично:

если вы хотите сравниваться с JPEG2000 и WaLLoC-подобными гибридами «на честных основаниях»

Кватернионные слои внутри анализа/синтеза

Схема:

вход (RGB или кватернионное представление) → кватернионные свертки/линейные слои в анализ-трансформе

латенты могут оставаться кватернионными группами

Что это дает:

сеть встроенно моделирует межканальные зависимости через кватернионную параметризацию

потенциально меньше параметров при сохранении выразительности (типичный аргумент в quaternion NN)

Главный риск:

усложнение реализации и обучения

нужно очень аккуратно определить, что именно является «кватернионной операцией» и как она сочетается с нормализациями/активациями

Когда это особенно логично:

если ваша основная ставка — именно на обучаемое кватернионное смешивание компонент, а не только на QWT-фронтенд

Кватернионное представление только на уровне латентов

Схема:

обычная (вещественная) сеть получает RGB

но латенты организованы группами по 3 или 4 компоненты, которые трактуются как «кватернионные коэффициенты»

дальше вводится совместное квантование и энтропийное моделирование на уровне групп

Что это дает:

минимальные изменения в анализ/синтез сетях

можно сфокусироваться на самой критичной части: квантование + энтропийная модель

Главный риск:

без кватернионного преобразования на входе сеть может «привыкнуть» к поканальной природе данных

Когда это особенно логично:

если вы исследуете именно «кватернионные коэффициенты как объект кодирования», а не как объект пространственной фильтрации

Что означает «кватернионная нейросеть» в инженерном смысле

В контексте Gaudet/Parcollet важно не название, а эффект: параметризация, которая связывает компоненты.

Практическая интуиция:

в обычной вещественной свертке для RGB у вас легко получается ситуация, когда сеть обрабатывает каналы почти независимо

в кватернионной параметризации веса устроены так, что обновление одной компоненты связано с другими (через структуру кватернионного произведения)

Почему это может помочь именно для компрессии:

компрессия чувствительна к согласованности цвета на границах и на градиентах

если представление «по умолчанию» совместное, то после квантования меньше шанс получить независимые ошибки по каналам, которые глаз интерпретирует как цветной ореол

Ограничение, которое нельзя забывать:

совместность компонент хороша, пока она соответствует статистике данных; если кватернионное связывание задано слишком жестко, оно может ухудшить адаптацию к разным типам изображений (например, необычная палитра, искусственная графика)

Центральная проблема недели: квантование кватернионных коэффициентов

На уровне компрессии квантование определяет вид ошибок. Для кватернионных коэффициентов это особенно критично: неудачное квантование может вернуть нас к тем же проблемам, которые мы пытались устранить (расслоение и дрейф цвета).

Ниже — три базовые стратегии, каждая из которых совместима с нейрокодеком, но по-разному влияет на артефакты и энтропию.

Покомпонентное квантование

Идея:

трактовать кватернионный коэффициент как 4 числа

квантовать каждое независимо (или с разными шагами)

Плюсы:

просто реализовать

энтропийные модели из нейрокодеков легко применимы (факторизованные или с гиперприором)

Минусы:

независимые ошибки в часто превращаются в видимые цветовые артефакты

статистическая связность компонент может приводить к «переплате» в , если энтропийная модель не учитывает корреляции

Когда допустимо:

как сильный бейзлайн, чтобы затем показать вклад более совместных схем

Квантование «норма + направление»

Идея:

представить коэффициент как величину (насколько сильная локальная деталь) и направление (как она распределена по компонентам)

Для чистого кватерниона (часто именно так кодируют RGB) удобно мыслить его как 3D-вектор . Тогда можно отделять:

норму

направление при

Пояснение символов:

— коэффициенты при базисах

— длина вектора (мера «силы»)

— единичный вектор направления (мера «цветового соотношения»)

Плюсы:

можно сильнее квантовать (обычно глаз терпимее к потере мелких деталей) и аккуратнее квантовать направление (сохраняя оттенок/соотношение каналов)

часто уменьшает риск цветового расслоения на границах

Минусы:

направление требует специальной параметризации (например, углы) и аккуратной энтропийной модели

поведение около нужно стабилизировать (иначе направление становится «шумным»)

Векторное квантование (совместное квантование группы компонент)

Идея:

квантовать сразу вектор из 3 или 4 компонент как единый объект (аналогично тому, как в классической теории есть решетчатое или кодбуковое квантование)

Плюсы:

лучше сохраняет межкомпонентную структуру

может давать более компактное кодирование, если энтропийная модель обучается под совместное распределение

Минусы:

сложнее в реализации и обучении

труднее сделать быстрый декодер и стабильную энтропийную оценку

Практическое замечание для нейрокодеков:

даже если квантование совместное, энтропийная модель должна быть совместной или условной; иначе выигрыш по качеству может увеличить битрейт

!Картинка помогает связать стратегию квантования и ожидаемые цветовые артефакты

Энтропийная модель: что нужно адаптировать под кватернионные латенты

Если латенты скалярные и условно независимы, часто хватает факторизованной модели (или гиперпрора, предсказывающего масштаб для каждого латента). Но кватернионные коэффициенты по смыслу связаны.

Ниже — практичные варианты, от простого к более корректному.

Группировка компонент + гиперприор на группу

Идея:

считать, что коэффициенты приходят группами (например, тройка для чистого кватерниона)

гиперсеть предсказывает параметры распределения для группы, а не для каждого скаляра независимо

Что можно предсказывать:

отдельные масштабы для каждой компоненты (минимум изменений)

общий масштаб на группу (сильнее связывает компоненты)

Чем это полезно:

модель перестает «делать вид», что компоненты независимы

часто это самый дешевый по сложности шаг в сторону совместного кодирования

Совместная модель с ковариацией (концептуально)

Более строгая идея:

описывать распределение вектора компонент не только масштабом, но и их корреляциями

Почему в компрессии это сложно:

полная ковариация дорога по параметрам и может быть нестабильна

нужно сохранять гарантию положительной определенности ковариационной матрицы

Практический компромисс:

ограниченная ковариация (например, диагональ + один-два дополнительных параметра)

или поворот в «более независимый» базис (обучаемый линейный слой), после которого применяется почти факторизованная модель

КП недели: место блока и квантование коэффициентов

Выполнение контрольной точки должно завершиться конкретным дизайн-решением, которое пригодится на неделе 5 для честной валидации.

Что нужно зафиксировать в результате КП:

Выбранная позиция кватернионного блока

- вариант A: кватернионный фильтробанк/QWT до анализа нейросети - вариант B: кватернионные слои внутри анализа/синтеза - вариант C: кватернионная структура только на уровне латентов и их кодирования

Формат коэффициентов, который вы реально будете квантовать

- кватернионы (4 компоненты) - чистые кватернионы (3 компоненты) - «норма+направление»

Стратегия квантования и ожидаемый тип ошибок

- покомпонентное (ожидаемые риски: цветовое расслоение) - «норма+направление» (ожидаемые риски: нестабильность направления при малой норме) - векторное (ожидаемые риски: сложность энтропийной модели)

Минимальная адаптация энтропийной модели

- факторизованная по компонентам (как бейзлайн) - групповая (рекомендуемый минимум для «кватернионной честности»)

Критерий хорошего КП:

ваше решение должно объяснять, почему оно уменьшает цветовые артефакты и почему оно не должно сильно ухудшить битрейт

Как эта неделя готовит нас к валидации

На неделе 5 мы будем сравнивать методы по PSNR, MS-SSIM и цветовым метрикам (например, ), а также делать бенчмаркинг на Kodak и DIV2K с акцентом на градиенты.

Чтобы сравнение было честным, уже сейчас нужно иметь фиксированные ответы:

что является вашим «коэффициентом» (кватернионный поддиапазон? латент автоэнкодера?)

где именно применено квантование

как энтропийная модель учитывает межкомпонентную связность

Иначе вы не сможете интерпретировать результат: улучшение качества может оказаться следствием просто большего битрейта, а не лучшей обработки цвета.

Мини-вывод недели

Кватернионы дают смысловую единицу «цвет как единый сигнал», но в компрессии этого недостаточно: нужно, чтобы квантование и энтропийное кодирование поддерживали эту единицу.

Если сформулировать цель недели одной фразой:

кватернионный блок должен появиться в архитектуре там, где он уменьшает цветовые артефакты, и при этом быть совместимым с вероятностной моделью, которая не переплачивает биты за игнорирование корреляций.

5. Неделя 5: Валидация и бенчмаркинг (Wang—MS-SSIM; Sharma—ΔE00; Agustsson—DIV2K); КП: протокол экспериментов

Неделя 5: Валидация и бенчмаркинг (Wang—MS-SSIM; Sharma—ΔE00; Agustsson—DIV2K); КП: протокол экспериментов

Зачем нужна эта неделя

На неделях 1–2 мы обосновали, почему кватернионное представление цвета и кватернионные банки фильтров могут уменьшать цветовое расслоение (несогласованные ошибки по каналам). На неделях 3–4 мы рассмотрели, как устроены реальные кодеки (JPEG/JPEG2000/нейрокодеки/гибриды) и где в архитектуре «живет» квантование и энтропийное кодирование — то есть откуда берутся артефакты.

Эта неделя превращает идеи в проверяемые утверждения. Компрессия — область, где красивый метод легко «ломается» некорректной оценкой:

разные реализации по-разному считают bpp и метрики

разные датасеты дают разные выводы (особенно по цвету)

можно случайно сравнить методы на разных битрейтах или с разной обработкой цвета

Поэтому цель недели — построить протокол экспериментов, который честно отвечает на вопрос: дает ли кватернионный блок реальное преимущество по качеству и цветовым артефактам при сопоставимом битрейте.

Результаты недели

К концу недели вы должны уметь:

различать метрики точности (PSNR) и метрики воспринимаемого качества (MS-SSIM)

понимать, почему для нашей темы обязательны цветовые метрики (например, ), а не только PSNR/MS-SSIM

составлять бенчмарк-план: датасеты, битрейты, бейзлайны, настройки, отчеты

фиксировать вычисление битрейта и гарантировать воспроизводимость

выполнить КП недели: написать протокол экспериментов (что именно запускать, на чем, как считать метрики и как оформлять результаты)

Таймлайн недели и контрольные точки

| День | Фокус | Контрольная точка | |---|---|---| | 1 | Что именно сравниваем: RD-логика (битрейт–качество) и базовые бейзлайны | Сформулировать набор сравниваемых кодеков и диапазон битрейтов | | 2 | Метрики: PSNR и MS-SSIM — что измеряют и чего не видят | Обосновать, почему одной метрики недостаточно | | 3 | Цветовые метрики: Lab и | Выбрать цветовую метрику и прописать условия расчета | | 4 | Датасеты и сценарии: Kodak, DIV2K (акцент на градиентах), доп. наборы | Зафиксировать список датасетов и правила предобработки | | 5 | Протокол: вычисление bpp, обработка паддинга/кропа, контроль детерминизма | Черновик протокола экспериментов | | 6–7 | КП: финальный протокол + шаблон отчета и визуализаций | Готовый документ протокола + структура таблиц/графиков |

Ключевые работы недели и зачем они нужны

Z. Wang и соавторы — MS-SSIM

- Работа: Multiscale structural similarity for image quality assessment - Зачем: MS-SSIM стала стандартом для оценки воспринимаемого качества в задачах компрессии. Для нашего курса это важно, потому что кватернионные методы обещают уменьшать видимые цветовые артефакты, а не только улучшать MSE.

G. Sharma, W. Wu, E. N. Dalal — CIEDE2000 ()

- Работа: The CIEDE2000 Color-Difference Formula: Implementation Notes, Supplementary Test Data, and Mathematical Observations - Зачем: — один из наиболее употребимых стандартов измерения различия цветов, ближе к человеческому восприятию, чем евклидова ошибка в RGB. Для кватернионного кодека это принципиально: мы целимся именно в согласованность цвета.

E. Agustsson, R. Timofte и соавторы — DIV2K (через NTIRE)

- Работа: NTIRE 2017 Challenge on Single Image Super-Resolution: Dataset and Study - Зачем: DIV2K содержит много изображений высокого разрешения и разнообразных текстур/градиентов. Для нас это база, чтобы проверять тезис о снижении цветового расслоения на плавных цветовых переходах и сложных деталях.

Что такое честный бенчмарк в компрессии

Компрессию нельзя сравнить одной цифрой «качество». Почти всегда сравнение делается по кривой битрейт–искажение.

Битрейт в привычной форме

Обычно используют bits per pixel (bpp):

Где:

— число бит в итоговом битстриме (то, что реально передается/хранится)

— высота изображения в пикселях

— ширина изображения в пикселях

Критически важная оговорка:

должно включать все служебные части (например, гиперлатенты в нейрокодеках, заголовки, параметры энтропийного кодирования, если они передаются)

если вы считаете bpp «по латентам», а не по реальному битстриму арифметического кодера, это допустимо только как оценка — и это должно быть явно прописано

Логика RD (rate–distortion)

Мы получаем набор точек:

фиксируем настройку кодека (например, параметр качества в JPEG или в нейрокодеке)

измеряем bpp и качество (PSNR, MS-SSIM, )

строим кривые и сравниваем методы в одинаковом диапазоне битрейтов

!Два RD-графика: качество и цветовая ошибка в зависимости от битрейта

Метрики: что измеряем и почему этого недостаточно

PSNR: базовая метрика точности

PSNR строится на среднеквадратичной ошибке (MSE).

Сначала MSE:

Где:

— число сравниваемых значений (например, пикселей, либо пикселей по всем каналам)

— значение в оригинале

— значение в реконструкции

Далее PSNR:

Где:

— максимальное возможное значение пикселя (для 8-bit обычно 255)

— логарифм по основанию 10

Как интерпретировать:

PSNR в децибелах растет, когда MSE уменьшается

высокая PSNR не гарантирует, что артефакты воспринимаются лучше: можно «сгладить» текстуру и получить хорошую MSE, но неприятный вид

Почему PSNR важна в курсе:

это стандартная базовая метрика для сравнения с JPEG/JPEG2000

она хорошо показывает «насколько далеко» реконструкция по энергии ошибки

Почему PSNR недостаточно для нашей темы:

кватернионный подход часто нацелен не на минимизацию MSE любой ценой, а на уменьшение цветовых несогласованностей и структурных артефактов

MS-SSIM: воспринимаемая структура на нескольких масштабах

MS-SSIM измеряет, насколько совпадают структурные характеристики изображения на нескольких масштабах (грубо: контраст, структура, локальные соотношения).

Практический смысл для компрессии:

лучше коррелирует с восприятием, чем PSNR, особенно на средних и низких битрейтах

часто используется как часть функции потерь в нейрокодеках

Ограничение:

MS-SSIM не является специально «цветовой» метрикой; она может пропустить некоторые типы дрейфа оттенка или межканальные расхождения, если структура сохраняется

Цветовые метрики: почему без них нельзя

Если цель метода — уменьшить цветовое расслоение, нужно измерять именно цветовую ошибку.

Типичный маршрут:

преобразовать RGB в перцептуальное пространство Lab (CIE Lab*)

посчитать различие цветов по стандарту

Что важно зафиксировать в протоколе:

какое RGB: sRGB (почти всегда)

применяем ли обратную гамму (линеаризация) перед преобразованиями

какой белый (обычно D65 для sRGB)

в полном виде содержит много поправок и коэффициентов; в этом курсе важно не выводить формулу, а понимать смысл:

маленькое означает, что средний наблюдатель почти не заметит разницу цветов

рост при том же PSNR — типичный признак цветовых артефактов (включая ореолы и дрейф оттенка)

!Сравнение цветовых артефактов и карта ΔE00

Датасеты и сценарии тестирования

Kodak: быстрый и понятный sanity-check

Kodak часто используют как небольшой набор изображений для быстрого сравнения.

Как использовать в протоколе:

фиксировать, что тест идет на оригинальном разрешении

считать метрики по всем изображениям и усреднять

дополнительно выделять изображения с плавными градиентами (там цветовое расслоение заметнее)

Риск:

небольшой объем может дать нестабильные выводы, особенно для редких типов сцен

DIV2K: разнообразие и акцент на сложных деталях

DIV2K полезен как более тяжелый тест.

Почему он важен именно здесь:

высокая детализация и множество текстур

много естественных градиентов (не только яркостных, но и цветовых)

на таком наборе легче увидеть, «переживает» ли метод реальные изображения, а не только узкие примеры

Практическая рекомендация:

для компрессии чаще берут валидационный/тестовый сплит и могут делать кропы (но тогда надо строго фиксировать правило кропа)

Сценарии, которые обязательно включить из-за кватернионов

Чтобы проверить именно обещание цветовой согласованности, добавьте в отчет отдельные поднаборы/категории:

плавные цветовые градиенты (небо, стены, дефокус)

тонкие цветные контуры (неоновые вывески, интерфейсы, графика)

мелкие повторяющиеся текстуры (трава, ткань), где часто появляется «цветной шум»

Бейзлайны и правила сравнения

Минимальный набор бейзлайнов для курса:

JPEG

JPEG2000

нейрокодек Ballé-типа (или ближайшая воспроизводимая реализация)

гибрид wavelet+learning (например, WaLLoC-тип, если есть воспроизводимая версия)

ваш метод с кватернионным блоком

Правило честности:

сравнение делается при близких битрейтах, а не «в одной точке качества»

если у метода нет точной настройки на нужный bpp, используйте интерполяцию по RD-кривой и явно укажите это в методике

Критическая проблема курса в терминах валидации: квантование кватернионных коэффициентов

В неделях 1–4 мы несколько раз отмечали: квантование кватернионных коэффициентов может разрушать связность компонент и порождать видимые цветовые артефакты.

На неделе 5 это превращается в требование к протоколу:

нельзя ограничиваться PSNR/MS-SSIM

нужно обязательно измерять цветовую ошибку () и показывать визуальные примеры (кропы + карты различий)

нужно анализировать, на каких типах сцен стратегия квантования (покомпонентная или «норма+направление») ведет себя лучше

Иначе вы рискуете получить ситуацию:

метод выигрывает по PSNR

но проигрывает по цвету (выше ) из-за дрейфа оттенка после квантования направления

КП недели: протокол экспериментов

Ниже — шаблон протокола, который должен быть вашим итогом недели. Его цель — сделать эксперименты воспроизводимыми и сравнение честным.

Что фиксируем перед запуском

Сравниваемые методы

- перечислить кодеки и дать ссылки/версии реализаций - указать, что именно вы считаете «вашим методом» (где стоит кватернионный блок, как в неделе 4)

Диапазон битрейтов

- выбрать 4–8 точек по bpp (например, от 0.05 до 1.0) - указать, как вы получаете эти точки для каждого метода (quality-параметр, , целевой bpp)

Датасеты

- Kodak: полный список изображений - DIV2K: какой сплит и какие правила (оригинал/кропы/ресайз)

Предобработка

- цветовое пространство входа (обычно sRGB) - нормализация (например, перевод в ) - паддинг: отражение/нули/кроп после декодирования (важно, чтобы метрики считались на одинаковой области)

Что считаем для каждого изображения

Битрейт

- bpp по реальному битстриму - если битстрим недоступен: bpp по оценке энтропии (и отметить это как приближение)

Качество

- PSNR (указать: по RGB или по яркости, и как именно) - MS-SSIM (указать библиотеку/реализацию) - средний (указать преобразование sRGB→Lab и параметры)

Диагностика цвета и артефактов

- сохранить 3–5 фиксированных кропов из заранее выбранных областей (границы, градиенты) - сохранить карты различий: абсолютная ошибка и карта

Как агрегируем результаты

усреднение по датасету (среднее и, желательно, стандартное отклонение)

RD-кривые отдельно для PSNR, MS-SSIM и

таблица значений по выбранным bpp-точкам

Минимальный формат отчета

таблица: средние метрики на Kodak и DIV2K при фиксированных bpp

два RD-графика: PSNR(bpp) и (bpp)

страница визуальных сравнений: одинаковые кропы для всех методов

!Схема полного протокола бенчмаркинга

Как эта неделя связывает дизайн (неделя 4) и новизну (неделя 6)

Неделя 4 дала вам пространство решений: где стоит кватернионный блок и как вы квантовали коэффициенты. Неделя 5 проверяет, не является ли улучшение иллюзией:

если кватернионный блок действительно снижает цветовые артефакты, это проявится как более низкий при том же bpp

если стратегия квантования неудачна, вы увидите это как рост на границах/градиентах даже при неплохих PSNR/MS-SSIM

На неделе 6 вы будете формулировать вклад и позиционирование. Корректный протокол недели 5 — это основа, чтобы заявлять новизну не словами, а результатами: на каких режимах, датасетах и типах сцен метод выигрывает.

6. Неделя 6: Новизна, позиционирование и визуализации; КП: схема архитектуры + сравнение цветовых артефактов и применений

Неделя 6: Новизна, позиционирование и визуализации; КП: схема архитектуры + сравнение цветовых артефактов и применений

Зачем нужна эта неделя

Предыдущие недели дали все технические кирпичики:

Недели 1–2: кватернионы как способ совместного представления цвета и кватернионные банки фильтров как структурное разложение без разрыва RGB.

Неделя 3: как устроены JPEG, JPEG2000, нейрокодеки и гибриды, и где именно рождаются артефакты.

Неделя 4: варианты интеграции кватернионного блока в обучаемый кодек и центральная проблема квантования кватернионных коэффициентов.

Неделя 5: честный протокол валидации, включая и визуальные доказательства.

Эта неделя превращает техническую идею в научно и инженерно защищаемый вклад:

формулируем, что именно является новизной и на каком фоне это ново

позиционируем метод среди традиционных, обучаемых и гибридных кодеков

готовим обязательные визуализации, которые показывают преимущество именно в цвете

обсуждаем, как переносить метод в прикладные области (медицинская визуализация, мультиспектральные и гиперспектральные данные)

Результаты недели

К концу недели вы должны уметь:

сформулировать 1–2 предложения вклада так, чтобы они были проверяемы экспериментом

указать, какие бейзлайны и абляции делают заявление о новизне честным

подготовить две ключевые визуализации: схема архитектуры и сравнение цветовых артефактов

описать требования и риски для применения в медицине и мультиспектральных данных

зафиксировать, почему квантование кватернионных коэффициентов остается критической проблемой, и как вы ее ограничиваете в заявлении

Таймлайн недели и контрольные точки

| День | Фокус | Контрольная точка | |---|---|---| | 1 | Что такое новизна в компрессии: измеримость, абляции, честные формулировки | Черновик формулировки вклада (2–3 тезиса) | | 2 | Позиционирование: традиционные vs обучаемые vs гибридные; где ваш метод выигрывает | Матрица сравнения: «что улучшаем» и «какой ценой» | | 3 | Квантование кватернионных коэффициентов как ограничение/фокус | Явное описание стратегии квантования и ожидаемых артефактов | | 4 | Визуализация архитектуры: что показывать, какие стрелки и где квантование | Готовая схема конвейера кодека | | 5 | Визуализация артефактов: кропы, карты , градиенты | Макет страницы визуальных сравнений | | 6 | Применения: медицина и гиперспектр; требования к качеству и данным | Краткий план раздела «Применения» (по 5–7 предложений) | | 7 | КП недели: собрать все в единый «позиционирующий пакет» | Схема архитектуры + сравнение артефактов + список применений |

Что считать новизной в этой теме

В компрессии «новизна» почти никогда не равна «мы взяли новый блок». Новизна должна быть одновременно:

конструктивной: что именно добавлено в кодек

сравнимой: с чем сравниваем и на каких режимах

объяснимой: почему именно это уменьшает цветовые артефакты

Пример корректной формулировки вклада

Ниже шаблон, который можно адаптировать под вашу конкретную реализацию (из недели 4) и протокол (из недели 5):

Архитектурный вклад: кватернионный фронтенд (кватернионный банк фильтров/QWT-логика) встроен в обучаемый кодек так, что цветовые компоненты остаются связанными до момента квантования.

Компрессионный вклад: предложена стратегия квантования кватернионных коэффициентов (например, норма+направление или групповая модель) и минимальная адаптация энтропийной модели, уменьшающая переплату по битрейту из-за игнорирования межкомпонентных зависимостей.

Эмпирический вклад: показано снижение цветовых артефактов на градиентах и контрастных цветных границах по при сопоставимом bpp на Kodak и DIV2K.

Если вы пишете «первый метод», то это нужно ограничивать условиями, иначе заявление легко опровергается:

первый в каком классе кодеков: обучаемые кодеки с энтропийным бутылочным горлышком, гибридные wavelet+learning или что-то еще

первый с чем именно: именно с кватернионным фильтробанком как структурным разложением, а не просто с кватернионными слоями

первый для каких данных: RGB, RAW, мультиспектральные

Позиционирование: где ваш метод находится на карте кодеков

Удобный способ позиционирования — не «мы лучше всех», а «мы решаем конкретную проблему иначе».

Центральная проблема, на которую нацелен метод

Цветовое расслоение и дрейф оттенка при агрессивном квантовании появляются, когда ошибки по каналам становятся несогласованными. В вашем курсе ключевая гипотеза звучит так:

кватернионное представление и кватернионные банки фильтров снижают шанс несогласованных ошибок, потому что детали кодируются как единый объект, а не как три независимых

Матрица позиционирования

| Класс метода | Сильные стороны | Типичные артефакты | Где ваш кватернионный блок потенциально выигрывает | |---|---|---|---| | JPEG | Простота, везде поддерживается | Блокинг, рингинг, цветовые ореолы | Цветовые границы и градиенты при низких битрейтах | | JPEG2000 | Поддиапазоны, хорош на градиентах | Рингинг, поддиапазонные ошибки | Совместность цвета на поддиапазонах вместо поканальности | | Нейрокодеки (Ballé-тип) | Лучшие RD-кривые, обучаемая энтропия | Пере-сглаживание, «пластик», иногда дрейф цвета | Стабилизация цвета при квантовании латентов | | Гибриды wavelet+learning | Структура + адаптивность | Зависит от связки блоков | Естественная точка для кватернионного wavelet-front-end |

Критическая проблема курса, которую нельзя замалчивать

Квантование кватернионных коэффициентов

Проблема звучит просто: «как квантовать кватернион», но в компрессии это определяет и качество, и битрейт.

При покомпонентном квантовании ошибки в компонентах могут стать независимыми и породить цветные ореолы.

При квантовании норма+направление сохраняется оттеночная согласованность, но возникает риск нестабильности направления при малой норме.

При векторном/групповом квантовании проще удержать согласованность, но сложнее энтропийно моделировать и декодировать.

Правильная научная позиция на неделе 6:

явно указать выбранную стратегию

явно описать, какие артефакты вы ожидаете как «плата»

подкрепить это визуализациями и

Визуализация архитектуры

Эта визуализация нужна для читателя, который знаком с нейрокодеками, но не видел кватернионные фильтробанки.

Что обязательно должно быть видно на схеме:

где происходит отображение RGB в кватернионное представление

где стоит кватернионный фильтробанк/QWT

где происходит квантование

что именно энтропийно кодируется (и есть ли гиперлатенты)

что именно декодер получает на вход

!Схема архитектуры: где именно находится кватернионный блок, квантование и энтропийное кодирование

Визуализация цветовых артефактов

На неделе 5 вы зафиксировали протокол; теперь вы показываете доказательство, что эффект относится именно к цвету.

Минимальный набор визуализаций в статье/отчете:

одинаковые кропы из двух типов сцен:

- плавный цветовой градиент (небо, стена, дефокус) - резкая цветная граница (вывеска, контур, тонкий объект)

панель методов: JPEG, JPEG2000, нейрокодек-бейзлайн, ваш метод

карта для каждого метода на том же кропе

Как интерпретировать для читателя:

если PSNR примерно одинаков, но ниже, это сильный аргумент, что уменьшены цветовые ошибки

если карта концентрируется вдоль границ у бейзлайна и уменьшается у вашего метода, это поддерживает гипотезу о снижении расслоения

!Сравнение цветовых артефактов и карт ΔE00 при равном битрейте

Применения и ограничения

На неделе 6 важно не обещать «универсальность», а показать, почему именно ваша конструкция уместна в конкретных доменах.

Медицинская визуализация

Что делает домен особенным:

требования к диагностической надежности могут запрещать агрессивные потери

часто используются стандартизованные контейнеры и протоколы (например, DICOM)

важны локальные детали и отсутствие ложных контуров

Как позиционировать кватернионный подход честно:

как способ уменьшить цветовые искажения там, где цвет имеет смысл (например, дерматология, эндоскопия, патология в цвете)

если данные чаще серые (КТ/МРТ), то кватернионы не дают прямой выгоды по цвету, но могут быть полезны для векторных представлений (например, несколько контрастов, многоканальные карты), однако это уже выходит за RGB

Практические замечания к протоколу:

кроме PSNR/MS-SSIM и могут понадобиться клинически-ориентированные критерии (в рамках курса достаточно зафиксировать это как будущую работу)

Мультиспектральные и гиперспектральные изображения

Чем отличаются от RGB:

каналов намного больше, и межканальные корреляции еще важнее

«цветовые» метрики типа уже не описывают весь сигнал

Как связать это с кватернионами, не делая лишних заявлений:

кватернионный подход можно рассматривать как частный случай более общей идеи: кодировать связанные каналы совместно и квантовать их согласованно

практический мост: группировка спектральных каналов в небольшие связные группы (не обязательно по 3), для которых применяются совместные преобразования и совместное моделирование энтропии

Если вы пишете раздел «гиперспектр» в статье, полезно прямо сказать, что:

кватернионы естественны для 3-компонентного цвета

для десятков/сотен каналов потребуется обобщение (группы, другие алгебры или просто векторные латенты с совместной энтропийной моделью)

Ключевые работы недели и зачем они нужны

Здесь источники подбираются не «про кватернионы», а про то, как правильно заявлять и внедрять компрессию в домены, и как думать о квантовании.

A. Gersho, R. M. Gray — Vector Quantization and Signal Compression (1991)

- Зачем: это фундаментальная база по векторному квантованию. Для нашей темы это главный теоретический якорь, который помогает формулировать квантование кватернионных коэффициентов как частный случай совместного (векторного) квантования и понимать компромиссы между качеством и сложностью. - Ссылка: Vector Quantization and Signal Compression (Kluwer)

D. Taubman, M. Marcellin — JPEG2000: Image Compression Fundamentals, Standards and Practice (2002)

- Зачем: JPEG2000 важен как инженерный пример «фильтробанки + поддиапазоны + реальный стандарт». В неделе 6 эта книга нужна как фон для позиционирования: ваш кватернионный фильтробанк — это альтернативный фронтенд к классу wavelet-подобных кодеков, но с прицелом на цветовую согласованность. - Ссылка: JPEG2000: Image Compression Fundamentals, Standards and Practice (Springer)

CCSDS — Lossless Multispectral & Hyperspectral Image Compression (стандарт CCSDS 123.0)

- Зачем: это реальный стандарт компрессии для мультиспектральных и гиперспектральных изображений (космические данные). Он нужен как корректная точка отсчета для раздела «применения»: показывает, что в спектральных задачах ключевыми являются межканальные зависимости и строгие требования к воспроизводимости. - Ссылка: CCSDS 123.0 Lossless Multispectral & Hyperspectral Image Compression (CCSDS)

КП недели: схема архитектуры + сравнение цветовых артефактов и применений

КП недели должна быть оформлена как небольшой пакет артефактов, который можно вставить в статью/презентацию.

Что нужно сдать:

Схема архитектуры

- показывает полный путь: RGB → кватернионный блок → обучаемое сжатие → квантование → энтропийное кодирование → декодирование - подписи: что квантовано и что кодируется в битстрим

Страница визуальных сравнений

- минимум два кропа (градиент и резкая граница) - одинаковый bpp для всех методов - карты , чтобы доказать, что улучшение связано с цветом

Позиционирование и применение (короткий текст)

- 5–8 предложений: чем метод отличается от JPEG2000 и от Ballé-типа - 5–8 предложений: почему метод релевантен для медицинского цвета и какие ограничения - 5–8 предложений: как идея переносится на мультиспектральные данные (без чрезмерных обещаний)

Итог курса: что у вас должно быть после 6 недель

После этой недели у вас есть связная линия от математики к инженерии:

кватернионное представление цвета и фильтробанки дают мотивированную структуру

нейрокодек дает механизм оптимизации «битрейт–искажение» и адаптивную энтропию

квантование кватернионных коэффициентов — центральная проблема, которая определяет вид цветовых ошибок

протокол и визуализации делают заявления проверяемыми

позиционирование и применения превращают метод из идеи в исследовательский вклад