Искусственный интеллект в иммунологии: математические модели и клиническая трансляция

Курс посвящён современным методам ИИ в иммунологии с акцентом на математические основы моделей и биологические механизмы. Рассматриваются прогнозирование специфичности рецепторов иммунных клеток, анализ одноклеточных данных, генеративный дизайн терапевтических антител и моделирование иммунного ответа. Особое внимание уделено архитектурам нейросетей, специфике V(D)J-рекомбинации и ограничениям клинической трансляции.

1. Математическое моделирование динамики иммунного ответа и популяций клеток

Математическое моделирование динамики иммунного ответа и популяций клеток

Иммунная система — это не статический набор клеток, а динамическая сеть, где миллионы клеток непрерывно взаимодействуют, делятся, гибнут и трансформируются. Как предсказать, через сколько дней после заражения вирусом количество цитотоксических T-лимфоцитов достигнет пика? Почему у одних пациентов развивается цитокиновый шторм, а у других — нет? Ответы на эти вопросы лежат в области математического моделирования иммунного ответа, где дифференциальные уравнения, стохастические процессы и методы машинного обучения объединяются для описания сложнейших биологических процессов.

От простого к сложному: моделирование взаимодействия вируса и иммунитета

Классическая точка отсчёта — модель вирус-иммунитет в виде системы обыкновенных дифференциальных уравнений (ОДУ). Рассмотрим базовую систему, описывающую конкуренцию между вирусными частицами, инфицированными клетками и иммунными эффекторами:

Здесь — концентрация вируса, — инфицированные клетки, — иммунные эффекторы (например, цитотоксические T-клетки), — здоровые клетки-мишени. Параметры: — скорость репликации вируса, — скорость естественной элиминации вируса, — скорость уничтожения вируса эффекторами, — скорость инфицирования, — эффективность лизиса инфицированных клеток, — скорость пролиферации эффекторов при стимуляции антигеном, — скорость апоптоза эффекторов.

На практике эта система демонстрирует несколько типов динамики: быстрая элиминация (вирус подавлен за 5–7 дней), хроническая инфекция (устойчивое сосуществование вируса и иммунитета) и бифуркация — резкий переход между режимами при изменении параметров. Именно бифуркационный анализ позволяет выявить критические пороги, за которыми система «срывается» в неконтролируемое воспаление.

Стохастические модели: когда средних значений недостаточно

Детерминированные ОДУ хорошо работают для крупных популяций клеток, но иммунный ответ часто определяется редкими событиями: появлением единственной мутантной клетки, способной ускользнуть от иммунного надзора, или случайной встречей T-клетки с антигеном в лимфатическом узле. Здесь необходимы стохастические модели.

Модель Гиллеспи (Gillespie algorithm) моделирует химические реакции как дискретные случайные события. Каждая реакция (например, связывание антигена с рецептором T-клетки) характеризуется вероятностью, зависящей от текущего состояния системы. Алгоритм на каждом шаге выбирает, какая реакция произойдёт следующей и когда именно. Это критически важно для моделирования клональной экспансии — процесса, где одна T-клетка порождает тысячи копий, и случайные флуктуации на ранних этапах определяют конечный результат.

Альтернативный подход — агентно-ориентированные модели (agent-based models, ABM), где каждая клетка представлена как автономный агент с набором правил поведения. Например, в модели C-ImmSim каждая B-клетка, T-клетка и макрофаг представлены отдельно, а их взаимодействия определяются вероятностными правилами. ABM позволяют моделировать пространственную организацию иммунного ответа — например, формирование герминативных центров в лимфатических узлах, где B-клетки конкурируют за антиген и проходят соматическую гипермутацию.

Интеграция с данными секвенирования: калибровка моделей на реальных данных

Теоретические модели бесполезны без калибровки на экспериментальных данных. Современные подходы используют данные scRNA-seq и масс-цитометрии для оценки параметров моделей в реальном времени. Например, динамика субпопуляций CD8+ T-клеток (наивные → эффекторные → памяти) может быть описана системой ОДУ, а параметры скоростей переходов оценены методом байесовского вывода на основе временных рядов scRNA-seq данных.

Ключевая трудность — высокая размерность. Иммунный ответ включает десятки типов клеток, сотни цитокинов и тысячи генов. Классические ОДУ с таким числом параметров становятся неуправляемыми. Здесь на помощь приходят нейросетевые дифференциальные уравнения (Neural ODE) — подход, где правые части уравнений аппроксимируются нейронными сетями, обученными на данных. Модель ImmuneVAE использует вариационный автокодировщик для снижения размерности scRNA-seq данных, а затем обучает Neural ODE на латентном пространстве, что позволяет одновременно моделировать динамику и генерировать гипотезы о неизмеренных промежуточных состояниях.

Моделирование вакцинального ответа: от первичной к вторичной реакции

Одно из практических применений — предсказание эффективности вакцин. Модель иммунной памяти должна учитывать не только первичный ответ, но и формирование пулов клеток памяти (центральных и эффекторных), которые определяют скорость и силу вторичного ответа. Система уравнений расширяется за счёт дополнительных переменных — (центральные клетки памяти) и (эффекторные клетки памяти) — с переходами, зависящими от концентрации антигена и цитокинового окружения.

Практический пример: при моделировании ответа на бустерную дозу mRNA-вакцины против SARS-CoV-2 критически важно предсказать, через сколько дней после бустера произойдёт пик нейтрализующих антител и как долго он будет поддерживаться. Модели, калиброванные на данных клинических испытаний фазы I–II, показали, что оптимальный интервал между второй и третьей дозами составляет 6–8 месяцев — именно столько времени необходимо для созревания долгоживущих плазматических клеток костного мозга.

Ограничения и вызовы клинической трансляции

Несмотря на впечатляющий прогресс, математические модели иммунного ответа сталкиваются с рядом фундаментальных ограничений. Идентифицируемость параметров — проблема, при которой разные наборы параметров дают одинаковую динамику, что делает выводы неоднозначными. Межиндивидуальная вариабельность требует персонализированных моделей, но данные для калибровки у каждого конкретного пациента обычно ограничены. Наконец, пространственная организация иммунного ответа (например, гетерогенность опухолевого микроокружения) требует перехода от ОДУ к уравнениям в частных производных или гибридным подходам, что резко увеличивает вычислительную сложность.

Ключевой инсайт для Data Scientist: математические модели иммунного ответа — это не просто упражнение в дифференциальных уравнениях. Это инструмент, который, будучи интегрированным с данными высокой пропускной способности, позволяет переходить от описательной иммунологии к предиктивной — предсказывать исход инфекции, оптимизировать схемы вакцинации и идентифицировать пациентов группы риска до появления клинических симптомов.

2. Автоматизация классификации иммунофенотипов на основе проточной цитометрии

Автоматизация классификации иммунофенотипов на основе проточной цитометрии

Когда клинический иммунолог получает файл с данными проточной цитометрии, содержащий 500 000 событий по 20–40 параметрам, ручной гейтинг — последовательное «вырезание» популяций клеток на двумерных точечных диаграммах — может занять часы и привести к субъективным расхождениям между экспертами. Как сделать так, чтобы классификация иммунофенотипов была воспроизводимой, масштабируемой и способной улавливать редкие патологии, которые человек может пропустить? Автоматический анализ проточной цитометрии с использованием методов машинного обучения — это ответ на этот вызов, и он уже трансформирует клиническую лабораторную диагностику.

Специфика данных проточной цитометрии: почему стандартные подходы не работают

Данные проточной цитометрии обладают рядом уникальных свойств, которые делают их нетривиальной задачей для классических алгоритмов кластеризации. Во-первых, распределения флуоресценции не являются гауссовыми: они часто имеют тяжёлые хвосты, бимодальность и зависят от компенсации спектрального перекрытия между каналами. Во-вторых, размер событий варьируется на порядки: от 0.01% для редких предшественников до 70% для зрелых T-клеток. В-третьих, артефакты (двойтки клеток,碎片, неспецифическое связывание) создают фоновый шум, который необходимо отделить от биологически значимых сигналов.

Классический ручной гейтинг строится на последовательном применении порогов: сначала выделяют живые клетки (например, по отрицательной окраске на жизнеспособность), затем лимфоциты (по прямому и боковому рассеянию), затем CD3+ клетки, затем CD4+/CD8+ и так далее. Проблема в том, что порядок гейтинга влияет на результат, а границы между популяциями не всегда чёткие.

Алгоритмы автоматического гейтинга

Первое поколение автоматических методов адаптировало классические алгоритмы кластеризации. FlowSOM использует самоорганизующиеся карты Кохонена: данные проецируются на двумерную сетку узлов, каждый из которых представляет кластер клеток со схожим фенотипом. Затем применяется иерархическая кластеризация узлов для выделения макропопуляций. Преимущество FlowSOM — скорость (анализ 10⁶ событий за минуты) и визуализация в виде топологических карт, где расстояние между узлами отражает фенотипическое сходство.

Phenograph применяет графовый подход: строится -ближайший соседей граф, где вершины — клетки, а рёбра соединяют клетки с близкими профилями экспрессии маркеров. Кластеры выделяются алгоритмом Louvain для оптимизации модулярности графа. Phenograph особенно эффективен для выявления тонких субпопуляций — например, редких регуляторных T-клеток с атипичным профилем маркеров.

SPADE (spanning-tree progression analysis of density-normalized events) строит минимальное остовное дерево в пространстве маркеров, что позволяет визуализировать иерархические отношения между популяциями — от стволовых клеток до зрелых эффекторов. Это особенно ценно в гематоонкологии, где необходимо проследить путь дифференцировки злокачественного клона.

Глубокое обучение для классификации иммунофенотипов

Современные подходы используют нейронные сети для прямой классификации. CytoDx — свёрточная нейронная сеть, которая принимает на вход матрицу экспрессии маркеров (клетки × маркеры) и предсказывает вероятности принадлежности к заданным популяциям. Ключевая архитектурная особенность — использование одномерных свёрток по оси маркеров, что позволяет модели учитывать корреляции между маркерами (например, коэкспрессию CD4 и CD25 для Treg).

CellCnn решает задачу на уровне пациента, а не отдельной клетки: сеть обучается предсказывать клинический исход (например, наличие иммунодефицита) на основе множества клеточных событий. Архитектура использует множественное обучение (multiple instance learning): каждое событие обрабатывается отдельно, а затем результаты агрегируются через пулинг. Это позволяет обнаруживать редкие патологические клетки, которые сами по себе не определяют диагноз, но в совокупности указывают на заболевание.

FlowNet и аналогичные архитектуры применяют трансформеры к цитометрическим данным: каждая клетка представлена как токен, а механизм внимания позволяет модели учитывать контекст — как фенотип окружающих клеток влияет на классификацию данной клетки. Это имитирует подход эксперта, который при интерпретации учитывает не только отдельные маркеры, но и общую картину распределения.

Нормализация и батч-эффекты: практический барьер

Одна из главных практических проблем — межприборная и межлабораторная вариабельность. Данные, полученные на разных цитометрах или в разных условиях окрашивания, систематически смещены. Алгоритм CytoNorm использует контрольные образцы (например, замороженные aliquots одного донора) для обучения модели коррекции сдвига: на контрольных данных обучается сплайн-преобразование, которое затем применяется к исследуемым образцам. Более современный подход — 对抗ное обучение (adversarial training), где нейронная сеть одновременно обучается классифицировать популяции и «забывать» информацию о batch-эффекте.

Клиническое применение: от диагностики до мониторинга терапии

Автоматическая классификация иммунофенотипов уже применяется в клинической практике. В диагностике первичных иммунодефицитов алгоритмы FlowSOM и Phenograph помогают выявлять отсутствующие или аномальные субпопуляции лимфоцитов — например, отсутствие naïve CD4+ T-клеток при синдроме Ди Джорджи. В онкогематологии автоматический анализ используется для детекции минимальной остаточной болезни (MRD) при остром лимфобластном лейкозе: алгоритм способен обнаружить 0.01% бластных клеток среди нормальных лимфоцитов с чувствительностью, превышающей ручной анализ.

При мониторинге CAR-T-терапии автоматическая классификация позволяет отслеживать динамику экспансии CAR-T-клеток, их фенотипическую эволюцию (переход от эффекторного к мемориальному фенотипу) и появление признаков истощения — всё это в режиме реального времени, без задержек на ручной анализ.

Ключевое ограничение для клинической трансляции — отсутствие стандартизированных наборов данных для обучения и валидации. В отличие от медицинской визуализации, где существуют крупные размеченные датасеты (например, ImageNet для компьютерного зрения), цитометрические данные сильно зависят от протокола окрашивания, панели маркеров и типа цитометра. Унификация протоколов и создание открытых референсных датасетов — необходимое условие для широкого внедрения ИИ в клиническую цитометрию.

3. Прогнозирование специфичности TCR и BCR с использованием protein language models и структурного моделирования

Прогнозирование специфичности TCR и BCR с использованием protein language models и структурного моделирования

Адаптивная иммунная система распознаёт практически любую молекулу благодаря V(D)J-рекомбинации — процессу, который генерирует порядка уникальных вариантов T-клеточных рецепторов (TCR) и вариантов B-клеточных рецепторов (BCR). Но как предсказать, какой именно TCR свяжется с конкретным антигеном, если мы видели лишь ничтожную долю всех возможных пар рецептор-лиганд? Эта задача — одна из центральных в вычислительной иммунологии, и её решение обещает революцию в разработке персонализированных вакцин и Т-клеточной терапии.

Особенности иммунорецепторных данных

Прежде чем переходить к моделям, необходимо понять, чем данные TCR/BCR отличаются от обычных белковых последовательностей. V(D)J-рекомбинация — это стохастический процесс, при котором сегменты V (variable), D (diversity, только для тяжёлой цепи BCR и β-цепи TCR) и J (joining) объединяются с добавлением случайных нуклеотидов на стыках (N-добавки). Результат — CDR3 (complementarity-determining region 3), самый вариабельный участок, непосредственно контактирующий с антигеном. Длина CDR3 варьируется от 5 до 26 аминокислот, а его последовательность уникальна для каждого клона.

Для BCR добавляется второй уровень разнообразия: соматическая гипермутация (SHM) — процесс точечных мутаций в генах вариабельного домена, происходящий в герминативных центрах лимфатических узлов. SHM вносит 1–2 мутации на генерацию клетки, что за несколько раундов деления создаёт BCR, значительно отличающийся от исходного генерминативного. Это означает, что BCR одной специфичности могут иметь совершенно разные первичные последовательности, что делает задачу предсказания специфичности по последовательности ещё более сложной.

Protein language models: от последовательностей к эмбеддингам

Protein language models (PLMs) — это трансформерные модели, обученные на миллиардах белковых последовательностей, которые преобразуют аминокислотную последовательность в векторное представление (эмбеддинг), кодирующее эволюционные, структурные и функциональные свойства белка.

ESM-2 (Evolutionary Scale Modeling) — один из наиболее влиятельных PLM — обучен на 65 миллионах последовательностей из UniRef. Модель использует архитектуру трансформера с механизмом внимания и генерирует эмбеддинги для каждого остатка, которые несут информацию о локальном структурном окружении, контактах между остатками и эволюционных ограничениях. Для иммунорецепторов ESM-2 эмбеддинги CDR3-петель коррелируют с их способностью связывать конкретные антигены — несмотря на то, что модель не обучалась специально на иммунологических данных.

Специализированные модели идут дальше. AntiBERTy обучена на 3,5 миллионах последовательностей антител из базы OAS (Observed Antibody Space) и использует задачу маскированного языкового моделирования (masked language modeling): модель предсказывает скрытые аминокислоты в последовательности, что заставляет её выучить закономерности, специфичные для антител — например, консервативность определённых положений в framework-регионах и гипервариабельность CDR3.

TCR-специфичные моделиNetTCR и ERGO — используют комбинацию PLM-эмбеддингов и информации об антигене (пептид + HLA). ERGO применяет вариационный автокодировщик для кодирования TCR-последовательностей в латентное пространство, где близость TCR отражает сходство их специфичности. Это позволяет решать задачу нулевого переноса (zero-shot transfer): предсказывать специфичность TCR для антигенов, не представленных в обучающей выборке.

Структурное моделирование: от последовательности к комплексу

Последовательностные модели достигают определённого потолка точности, потому что специфичность связывания определяется не только первичной структурой, но и трёхмерной конформацией комплекса рецептор-антиген. Здесь на помощь приходят инструменты структурного предсказания.

AlphaFold3 представляет собой революционный шаг вперёд по сравнению с AlphaFold2: модель способна предсказывать структуру белок-белковых комплексов, включая комплексы TCR–пептид–MHC и антитело–антиген. Архитектура использует диффузионную головку (diffusion head) для генерации координат атомов и модуль парного внимания для моделирования межмолекулярных контактов. Для TCR это означает возможность предсказать, как именно CDR3-петли взаимодействуют с пептидом в канавке MHC, и оценить энергию связывания.

TCRdock — специализированный инструмент, адаптирующий AlphaFold2 для предсказания структуры TCR–пептид–MHC комплексов. Модель использует мультиплексное выравнивание (MSA) известных TCR–пептид–MHC структур из PDB в качестве шаблонов и применяет специализированные эволюционные признаки для CDR-петель. Бенчмаркинг показывает, что TCRdock предсказывает ориентацию TCR относительно пептида–MHC с RMSD менее 2 Å для хорошо представленных аллелей HLA.

Интеграция последовательностных и структурных подходов

Наиболее перспективные современные системы комбинируют оба подхода. Пайплайн выглядит так:

  • Генерация эмбеддингов CDR3 с помощью PLM (например, ESM-2 или AntiBERTy)
  • Предсказание структуры комплекса с помощью AlphaFold3 или TCRdock
  • Извлечение структурных признаков: площадь поверхности контакта (SASA), водородные связи, солевые мостики, гидрофобные контакты
  • Обучение классификатора (например, градиентного бустинга или нейронной сети) на комбинации последовательностных и структурных признаков для предсказания аффинности связывания
  • Такой гибридный подход превосходит каждый компонент по отдельности: PLM обеспечивают обобщение на новые последовательности, а структурные признаки добавляют информацию о физике взаимодействия, недоступную из одной лишь последовательности.

    Текущие ограничения

    Главная проблема — дефицит качественных данных о парах TCR/BCR–антиген. Несмотря на рост баз данных (VDJdb, IEDB, McPAS-TCR), число верифицированных пар составляет порядка десятков тысяч — ничтожно мало по сравнению с разнообразием репертуара. Аллельная специфичность HLA добавляет ещё одно измерение: один и тот же пептид презентируется по-разному на разных аллелях, и модели, обученные на одном аллеле, плохо переносятся на другой. Наконец, конформационная гибкость CDR3-петель — они способны менять конформацию при связывании с разными антигенами — делает статическое предсказание структуры недостаточным для полного понимания специфичности.

    Для Data Scientist, работающего в этой области, ключевой вывод: ни одна из существующих моделей не решает задачу предсказания специфичности TCR/BCR с приемлемой точностью для клинического применения. Но комбинация PLM, структурного моделирования и растущих объёмов данных секвенирования создаёт условия для прорыва в ближайшие годы.

    4. Анализ scRNA-seq для идентификации биомаркеров и мультиомиксная интеграция данных

    Анализ scRNA-seq для идентификации биомаркеров и мультиомиксная интеграция данных

    Представьте, что вы получили данные секвенирования 100 000 клеток из опухоли пациента с меланомой. Каждая клетка описана экспрессией 20 000 генов, но 90% значений — нули (проблема разреженности или dropout). Среди этих клеток скрываются несколько сотен T-лимфоцитов-инфильтрантов, часть из которых истощена и не способна бороться с опухолью. Как найти эти клетки, понять, почему они истощены, и предсказать, ответит ли пациент на иммунотерапию? Именно такие задачи решает анализ одноклеточных транскриптомных данных (scRNA-seq) в контексте иммунологии.

    Предобработка: борьба с шумом и артефактами

    Сырые данные scRNA-seq — это счётная матрица (клетки × гены), где каждое значение представляет число молекул mRNA, обнаруженных для данного гена в данной клетке. Прежде чем извлекать биологический сигнал, необходимо удалить технический шум.

    Фильтрация клеток: удаляются клетки с аномально низким числом обнаруженных генов (менее 200 — вероятно, пустые капли) или аномально высоким (более 5000 — вероятно, двойтки). Также фильтруются клетки с высокой долей митохондриальных генов (более 20%) — признак деградации клетки.

    Нормализация: raw counts нормализуются для коррекции глубины секвенирования (library size). Метод SCTransform (regularized negative binomial regression) моделирует дисперсию каждого гена как функцию средней экспрессии и применяет регуляризованную трансформацию, что одновременно нормализует данные и стабилизирует дисперсию.

    Коррекция батч-эффектов: при объединении данных из разных образцов (например, опухоль и периферическая кровь) или разных платформ возникают систематические сдвиги. Harmony и Scanorama проецируют клетки в общее латентное пространство, минимизируя межбатчевые различия при сохранении биологической вариабельности. scVI (single-cell Variational Inference) использует вариационный автокодировщик с batch-меткой как условным признаком, что позволяет модели «вычитать» батч-эффект в латентном пространстве.

    Кластеризация и аннотация клеточных типов

    После нормализации и снижения размерности (PCA, затем UMAP или t-SNE для визуализации) клетки кластеризуются. Leiden-алгоритм — стандарт де-факто — оптимизирует модулярность графа -ближайших соседей, построенного в латентном пространстве. Результат — набор кластеров, каждый из которых теоретически представляет отдельный клеточный тип или состояние.

    Аннотация кластеров — этап, где ИИ приносит наибольшую ценность. SingleR автоматически присваивает метки клеточного типа, сравнивая профили экспрессии кластеров с референсными датасетами (например, Blueprint или Monaco). CellTypist использует логистическую регрессию, обученную на размеченных данных, для классификации. Более продвинутый подход — Garnett, который использует маркерные гены, заданные экспертом в виде иерархического классификатора, и обучает регуляризованную модель для присвоения меток.

    Для иммунологических данных критически важно различать тонкие субпопуляции: наивные CD4+ T-клетки (CCR7+, SELL+), центральные клетки памяти (CCR7+, CD69+), эффекторные клетки памяти (CCR7−, GZMB+), истощённые T-клетки (PDCD1+, LAG3+, TOX+). Различие между этими состояниями определяется десятками генов, и автоматическая аннотация должна быть достаточно чувствительной, чтобы уловить эти нюансы.

    Идентификация биомаркеров: от дифференциальной экспрессии к предиктивным моделям

    Классический подход к поиску биомаркеров — дифференциальная экспрессия (DE): сравнение профилей экспрессии между двумя группами клеток (например, responders vs. non-responders к иммунотерапии). Модели MAST (Model-based Analysis of Single-cell Transcriptomics) и DESeq2 учитывают разреженность данных и технические факторы (dropout rate, доля ненулевых значений) при оценке статистической значимости различий.

    Однако DE-анализ даёт список генов, а не предсказательную модель. Для клинической трансляции необходимо построить классификатор, который на основе экспрессионного профиля клеток или пациента предсказывает исход. ScType и AUCell оценивают активность генных наборов (gene sets) в каждой клетке, что позволяет перейти от отдельных генов к функциональным путям. Например, активность сигнатуры интерферонового ответа в опухолевых клетках может предсказывать чувствительность к иммунотерапии.

    Мультиомиксная интеграция: объединение транскриптома, эпигенома и протеома

    Одного транскриптома недостаточно для полного понимания клеточного состояния. Мультиомиксные технологии позволяют измерять несколько молекулярных слоёв одновременно в одной клетке: CITE-seq добавляет данные о поверхностных белках (протеом) к транскриптомным данным через олигонуклеотидно-меченные антитела; scATAC-seq измеряет доступность хроматина (эпигеном); SHARE-seq комбинирует оба подхода.

    Интеграция этих данных — нетривиальная задача. MOFA+ (Multi-Omics Factor Analysis) применяет факторный анализ для выявления скрытых латентных факторов, объясняющих вариабельность across omics layers. totalVI — вариационный автокодировщик, специально разработанный для CITE-seq данных, который совместно моделирует транскриптомные counts и протеомные измерения в едином латентном пространстве.

    Практический пример: при анализе опухолевого микроокружения меланомы интеграция scRNA-seq и scATAC-seq данных выявила, что истощённые T-клетки характеризуются не только повышенной экспрессией ингибиторных рецепторов (PDCD1, LAG3, TIM3), но и специфическим эпигенетическим профилем: открытый хроматин в локусах генов TOX и NR4A, что указывает на устойчивое, «записанное» состояние истощения, которое не может быть легко обращено одной лишь блокадой PD-1.

    Клиническая трансляция: от биомаркеров к решениям

    Переход от идентификации биомаркеров к клиническому применению требует решения нескольких инженерных задач. Воспроизводимость: биомаркер, выявленный на одном когорте пациентов, должен быть валидирован на независимой когорте. Масштабируемость: scRNA-seq остаётся дорогим и трудоёмким методом; перенос биомаркеров на более дешёвые платформы (например, поточная цитометрия или NanoString) необходим для рутинного применения. Временная динамика: одноклеточные снимки не отражают развитие процесса; интеграция с математическими моделями динамики (рассмотренными в предыдущей статье) позволяет интерполировать между временными точками и предсказывать будущее состояние.

    Для Data Scientist ключевой инсайт: анализ scRNA-seq — это не просто кластеризация и визуализация. Это конвейер от сырых counts до клинически значимых предсказаний, где каждый этап требует осознанного выбора метода и понимания его ограничений. Мультиомиксная интеграция открывает новые измерения биологического понимания, но также экспоненциально увеличивает сложность анализа и требования к вычислительным ресурсам.

    5. Генеративный дизайн терапевтических антител и вакцин с применением диффузионных моделей

    Генеративный дизайн терапевтических антител и вакцин с применением диффузионных моделей

    Традиционный путь создания терапевтического антитела — от иммунизации животного до клинических испытаний — занимает 4–6 лет и обходится в сотни миллионов долларов. При этом более 90% кандидатов отсеиваются на стадии разработки из-за низкой аффинности, плохой стабильности или иммуногенности. Что если можно было бы генерировать оптимизированные антитела с заданными свойствами с нуля, минуя годы экспериментального скрининга? Диффузионные модели — класс генеративных нейронных сетей, произведший революцию в генерации изображений, — сегодня обещают сделать то же самое для белкового дизайна, и именно антитела стали одной из первых областей, где этот подход демонстрирует впечатляющие результаты.

    Принцип диффузионных моделей: от шума к структуре

    Диффузионные модели работают в два этапа. На этапе прямого процесса (forward process) к чистым данным (например, координатам атомов антитела) последовательно добавляется гауссов шум в течение шагов, пока данные не превратятся в чистый шум. На этапе обратного процесса (reverse process) нейронная сеть обучается удалять шум шаг за шагом, восстанавливая структуру из случайного начального состояния.

    Формально, прямой процесс определяется как:

    где — состояние данных на шаге , — дисперсия шума на шаге , а — нормальное распределение. Обученная сеть предсказывает шум, добавленный на каждом шаге, что эквивалентно предсказанию градиента логарифма плотности распределения данных (score function). На этапе генерации модель начинает с чистого шума и последовательно денойзирует его, порождая новые, правдоподобные структуры.

    Ключевое преимущество диффузионных моделей перед другими генеративными архитектурами (GAN, VAE) — стабильность обучения и разнообразие генерации. GAN страдают от mode collapse (генерация ограниченного набора образцов), а VAE — от размытости генераций. Диффузионные модели покрывают всё распределение обучающих данных и генерируют высококачественные, разнообразные образцы.

    RFdiffusion и его адаптация для антител

    RFdiffusion — пионерская модель, адаптировавшая архитектуру RoseTTAFold (нейросеть для предсказания структуры белков) для обратного процесса диффузии. Вместо предсказания структуры по последовательности модель предсказывает координаты атомов из шума, используя SE(3)-эквиварантную архитектуру — свойство, гарантирующее, что поворот или перенос входных данных приводит к соответствующему повороту или переносу выхода.

    Для антител RFdiffusion была специализирована путём дообучения на структурах Fab-фрагментов из базы SAbDab (Structural Antibody Database). Модель генерирует каркас (backbone) антитела — координаты -атомов основной цепи — а затем инверсный фолдинг с помощью ProteinMPNN определяет аминокислотную последовательность, которая стабильно сворачивается в данную структуру. Этот двухэтапный пайплайн — генерация структуры, затем определение последовательности — стал стандартом в области.

    Критическое дополнение — условная генерация: модель может генерировать CDR-петли, комплементарные заданному эпитопу антигена. Это достигается путём фиксации координат антигена и каркасных областей антитела (framework) на входе модели и генерации только CDR-регионов. Результат — антитело, спроектированное de novo для связывания конкретного антигена.

    DiffAb и AbDiffuser: специализированные модели для антител

    DiffAb — диффузионная модель, специально разработанная для совместной генерации последовательности и структуры CDR-регионов. Модель интегрирует три типа информации: типы аминокислотных остатков, координаты атомов и ориентации боковых цепей. На вход подаётся структура антигена и framework-регионов антитела, а на выходе генерируются CDR-петли с оптимизированными для связывания свойствами. Архитектура использует механизм внимания между остатками CDR и остатками антигена, что позволяет модели «видеть» пространственное взаимодействие между ними.

    AbDiffuser идёт ещё дальше, генерируя полноатомные структуры антител, включая боковые цепи. Модель использует APMixer — архитектуру на основе MLP-Mixer — внутри денойзингового процесса, что обеспечивает эффективную обработку атомарных координат. Это важно, потому что боковые цепи CDR3 непосредственно контактируют с антигеном, и их конформация определяет специфичность связывания.

    HuDiff решает задачу гуманизации — замены аминокислотных остатков мышиных или верблюжьих антител на человеческие без потери аффинности. Модель использует адаптивный диффузионный подход: на вход подаются только CDR-последовательности исходного антитела, а модель генерирует человеческие framework-регионы, оптимизированные для сохранения конформации CDR. Экспериментальная валидация показала, что гуманизированное антитело против SARS-CoV-2, полученное с помощью HuDiff, сохранило аффинность связывания (0.15 нМ против 0.12 нМ у родительского антитела), а гуманизированный нанobody демонстрирует 54% улучшение аффинности по сравнению с исходным.

    Оценка сгенерированных антител: метрики и валидация

    Генерация антитела — это только половина дела. Необходимо оценить, будет ли сгенерированная молекула функциональной. Метрики оценки делятся на несколько категорий:

    Структурные метрики: RMSD (root-mean-square deviation) между предсказанной и эталонной структурой, pAE (predicted alignment error от AlphaFold), ipTM (interface predicted template modeling score). Эти метрики оценивают структурную правдоподобность, но не напрямую предсказывают функцию.

    Последовательностные метрики: AAR (amino acid recovery) — доля правильно предсказанных аминокислот; perplexity языковой модели — насколько «естественной» выглядит последовательность с точки зрения статистики известных антител.

    Функциональные метрики: предсказанная аффинность связывания (через молекулярный докинг или ML-модели); log-likelihood генеративной модели — согласно недавним исследованиям, логарифм правдоподобия последовательности под обученной диффузионной моделью коррелирует с экспериментально измеренной аффинностью связывания, что делает его надёжным инструментом для ранжирования кандидатов.

    Экспериментальная валидация остаётся золотым стандартом: биолayer интерферометрия (BLI) для измерения кинетики связывания, ELISA для подтверждения специфичности, нейтрализационные тесты для функциональной активности. Ни одна in silico метрика не заменяет эксперимент, но правильный выбор метрик позволяет отобрать из тысяч in silico кандидатов десятки для экспериментальной проверки, что на порядки снижает стоимость разработки.

    Дизайн вакцин: диффузионные модели для антигенного дизайна

    Принципы генеративного дизайна антител переносятся и на вакцины. Вместо проектирования антитела для заданного антигена задача формулируется наоборот: спроектировать антиген (белок или его фрагмент), который вызовет защитный иммунный ответ. RFdiffusion используется для генерации де novo антигенов — белков с заданной структурой эпитопа, но не существующих в природе. Это позволяет создавать вакцины, нацеленные на консервативные эпитопы вируса, которые не подвержены антигенному дрейфу.

    ProteinMPNN затем определяет последовательность, стабильно фолдирующуюся в сгенерированную структуру, а AlphaFold3 верифицирует, что предсказанная структура совпадает с задуманной. Такой пайплайн был применён для дизайна наночастицных вакцин против респираторно-синцитиального вируса (РСВ), где сгенерированные антигены стабилизировали белок F в префузионной конформации, что привело к более сильному нейтрализующему ответу по сравнению с природным антигеном.

    Ограничения и будущее

    Несмотря на обнадёживающие результаты, генеративный дизайн антител и вакцин сталкивается с серьёзными вызовами. Разрыв in silico — in vitro: даже антитела с высокими in silico метриками могут не связываться в эксперименте из-за непредсказанных конформационных изменений или стерических конфликтов. Developability — набор свойств, определяющих пригодность антитела для коммерческого производства (стабильность при хранении, низкая вязкость, отсутствие агрегации) — пока плохо интегрирован в генеративные модели. Иммуногенность сгенерированных последовательностей (риск вызвать нежелательный иммунный ответ у пациента) требует отдельной верификации.

    Тем не менее, темпы прогресса впечатляют. Переход от генерации отдельных CDR-петлей к проектированию полноценных антител и вакцинных антигенов, интеграция свойств developability в процесс оптимизации и рост объёмов экспериментально верифицированных данных — всё это указывает на то, что диффузионные модели станут стандартным инструментом в арсенале биофармацевтической разработки в ближайшие 3–5 лет. Для Data Scientist, работающего в этой области, сейчас — уникальный момент: методология достаточно зрела для практических применений, но достаточно молода, чтобы каждый новый подход мог стать прорывным.