1. Дизайн биологического эксперимента и технологии подготовки библиотек для RNA-Seq
Геном любой клетки многоклеточного организма практически идентичен и статичен. Транскриптом же напоминает хаотичный, постоянно меняющийся мегаполис: в нейроне и гепатоците активны совершенно разные наборы генов, а их экспрессия меняется каждую минуту в ответ на стресс, температуру или сигналы соседей. Задача RNA-Seq — сделать моментальный снимок этого мегаполиса. Однако то, насколько четким получится этот снимок, зависит не от мощности биоинформатических серверов, а от решений, принятых до того, как первая пробирка коснется льда. Ошибки на этапе пробоподготовки невозможно исправить математическими алгоритмами.
Анатомия биологического эксперимента
Планирование транскриптомного исследования начинается с определения структуры выборки. Главная ошибка на этом этапе — непонимание природы дисперсии (разброса данных) и попытка сэкономить на правильном типе повторностей. Биоинформатические инструменты дифференциальной экспрессии опираются на статистические модели, требующие точной оценки вариативности внутри исследуемых групп.
Биологические и технические повторности
В RNA-Seq мы имеем дело с двумя источниками шума: ошибками самого метода (секвенирования, выделения) и естественной вариативностью живых систем.
Технические повторности возникают, когда берется один и тот же биологический образец (например, гомогенат печени одной конкретной мыши), делится на три пробирки, из них независимо готовятся три библиотеки и секвенируются. Различия между этими тремя результатами покажут техническую погрешность пайплайна. Современные протоколы Illumina, BGI и других платформ настолько точны, что техническая дисперсия минимальна — коэффициенты корреляции между техническими репликами обычно превышают . Делать технические повторности в стандартных RNA-Seq проектах сегодня считается нецелесообразным расходованием бюджета, за исключением случаев валидации совершенно нового кастомного протокола.
Биологические повторности предполагают забор материала от разных независимых организмов (три разные мыши, получавшие одинаковый препарат). Именно они позволяют оценить популяционную дисперсию. Уровень экспрессии гена иммунного ответа TNF у трех генетически идентичных мышей в контрольной группе может отличаться в разы из-за микроскопических различий в их состоянии, микробиоме или перенесенном стрессе. Без знания того, как сильно базово колеблется экспрессия гена у здоровых особей, биоинформатический алгоритм не сможет статистически доказать, что двукратное изменение экспрессии под действием лекарства действительно значимо, а не является случайным выбросом.
Минимальным стандартом для bulk RNA-Seq долгое время считались три биологические повторности на группу (). Однако статистическая мощность такого дизайна крайне низка. Для генов с низкой экспрессией или высокой естественной вариабельностью этого критически мало. Современные рекомендации (например, консорциума ENCODE) требуют для клеточных линий и инбредных животных, и для клинических образцов человека, где генетическая гетерогенность пациентов добавляет гигантский слой шума.
Эффект партии (Batch Effect)
Даже при идеальном количестве повторностей эксперимент можно уничтожить неправильным распределением образцов во времени и пространстве. Эффект партии возникает, когда небиологические факторы систематически совпадают с биологическими группами.
Классический сценарий провала: лаборатория исследует опухолевые и здоровые ткани. В понедельник исследователь выделяет РНК из всех контрольных образцов, используя старый набор реактивов. В пятницу он выделяет РНК из опухолей, открыв новую коробку с набором. Через месяц, после секвенирования, анализ главных компонент (PCA) покажет идеальное разделение групп. Эти переменные оказались «сцеплены» (confounded). Математически невозможно определить, вызвана ли разница в профилях экспрессии биологией рака или разницей между наборами реактивов и днями недели.
Правильный дизайн требует рандомизации и блокирования. Если в эксперименте 12 образцов (6 контроль, 6 опыт) и выделение РНК занимает два дня, необходимо в первый день выделить 3 контроля и 3 опыта, и во второй день — оставшиеся 3 контроля и 3 опыта. Аналогично при запуске на секвенаторе: образцы из разных групп должны быть равномерно распределены по дорожкам (lanes) проточной ячейки.
Качество РНК: фундамент библиотеки
Секвенирование РНК начинается с ее выделения, и здесь возникает главная биохимическая проблема: РНК — крайне нестабильная молекула. Одинарная спираль и наличие 2'-OH группы в рибозе делают ее химически уязвимой, а вездесущие ферменты РНКазы способны разрушить образец за минуты.
Для оценки целостности РНК используется капиллярный электрофорез. В тотальной РНК эукариотической клетки более 80% массы приходится на рибосомальную РНК (рРНК), в частности на субъединицы 28S и 18S. В идеальном неповрежденном образце на фореграмме видны два острых высоких пика, причем площадь пика 28S должна быть примерно в два раза больше площади 18S. По мере деградации РНК длинные молекулы рРНК рвутся, пики сглаживаются, и сигнал смещается в сторону коротких фрагментов, образуя «горб» в левой части графика.
Соотношение площадей этих пиков и общий профиль деградации ложатся в основу метрики RIN (RNA Integrity Number). Шкала RIN варьируется от (полностью деградированная РНК) до (идеально интактная РНК).
Показатель RIN диктует, какую технологию подготовки библиотеки допустимо использовать. При доступны любые методы. Если RIN падает ниже 5 — что типично для клинических образцов, залитых в парафин (FFPE, Formalin-Fixed Paraffin-Embedded) — стандартные методы приведут к катастрофическим искажениям данных, так как молекулы РНК в таких блоках фрагментированы до кусочков длиной 100-200 нуклеотидов.
Стратегии обогащения: избавление от балласта
Матричная РНК (мРНК), кодирующая белки и представляющая главный интерес для большинства исследователей, составляет всего 1–3% от всей РНК в клетке. Если просто фрагментировать тотальную РНК и отсеквенировать ее, до 95% прочтений (ридов) будут картироваться на гены рибосомальной РНК. Перед созданием библиотеки необходимо провести процедуру обогащения.
Poly-A селекция (Обогащение мРНК)
Большинство зрелых эукариотических мРНК имеют на 3'-конце полиадениновый хвост (Poly-A). Метод использует магнитные шарики, покрытые короткими цепочками олиго-дТ (Oligo-dT). При смешивании шариков с тотальной РНК, поли-А хвосты мРНК гибридизуются с олиго-дТ. Магнит притягивает шарики на стенку пробирки, а вся рибосомальная и транспортная РНК смывается.
Преимущества:
Уязвимости и ограничения:
Ribo-Zero (Истощение рРНК)
Вместо того чтобы «вытягивать» нужную мРНК, этот метод «выбрасывает» ненужную рРНК (rRNA depletion). В образец добавляются специфические биотинилированные ДНК-зонды, комплементарные последовательностям рибосомальной РНК. Зонды гибридизуются с рРНК, после чего этот комплекс удаляется с помощью стрептавидиновых магнитных шариков (стрептавидин имеет высочайшее сродство к биотину). Все, что осталось в растворе — мРНК, lncRNA, пре-мРНК — идет в библиотеку.
Преимущества:
Уязвимости и ограничения:
Сравнительная таблица стратегий
| Характеристика | Poly-A селекция | Ribo-Zero (rRNA Depletion) | | :--- | :--- | :--- | | Целевая фракция | Только РНК с Poly-A хвостом | Вся РНК, кроме рибосомальной | | Требование к качеству (RIN) | Строгое () | Мягкое (подходит для деградированной РНК) | | Захват lncRNA и гистонов | Плохой (только полиаденилированные) | Отличный | | Наличие интронных ридов | Минимальное | Высокое (захватывает пре-мРНК) | | Организмы | Только эукариоты | Эукариоты и прокариоты |
Синтез кДНК и проблема направленности (Strandedness)
Секвенаторы Illumina не умеют читать РНК напрямую — им нужна двухцепочечная ДНК. Поэтому после обогащения и химической фрагментации РНК (обычно до кусочков в 200–300 нуклеотидов) необходимо провести обратную транскрипцию.
Исторически первые протоколы RNA-Seq создавали обычную двухцепочечную кДНК (комплементарную ДНК). К ней пришивались адаптеры, и она отправлялась на секвенирование. Проблема заключалась в потере информации о том, с какой именно цепи геномной ДНК был считан транскрипт (с «плюс» или «минус» цепи).
В плотных эукариотических геномах часто встречаются перекрывающиеся гены. Например, ген NR1D1 закодирован на одной цепи ДНК, а ген THRA — на противоположной, при этом их 3'-концы физически перекрываются. Если прочитать фрагмент из зоны перекрытия классическим не-направленным методом, невозможно определить, продуктом какого из двух генов является этот рид.
Современным стандартом является направленный (stranded) RNA-Seq, чаще всего реализуемый через метод включения dUTP.
Механика метода элегантна в своей биохимической простоте:
В результате биоинформатик получает риды, которые картируются на геном со строгим указанием исходной цепи. Это радикально повышает точность подсчета экспрессии в сложных локусах и позволяет выявлять антисмысловые РНК (antisense RNA), играющие важную роль в регуляции транскрипции.
Параметры секвенирования: глубина и длина рида
Финальный этап дизайна — заказ параметров на секвенаторе. Необходимо определить глубину (количество прочтений на образец) и режим чтения.
Глубина секвенирования (Sequencing Depth) определяет чувствительность эксперимента. Человеческий геном содержит около 20 000 белок-кодирующих генов. Если цель — найти дифференциально экспрессируемые гены со средним и высоким уровнем транскрипции, 20–30 миллионов ридов на образец (для Poly-A библиотек) обеспечивают достаточное покрытие. Если задача — детектировать редкие транскрипты, факторы транскрипции или анализировать альтернативный сплайсинг, глубину увеличивают до 50–100 миллионов. Дальнейшее увеличение глубины подчиняется закону убывающей отдачи: затраты растут кратно, но открываются лишь единичные новые низкокопийные гены, статистическая значимость которых часто сомнительна.
Режим чтения: Single-end (SE) против Paired-end (PE). В режиме SE секвенатор читает фрагмент кДНК только с одного конца (обычно 50–75 нуклеотидов). В режиме PE прибор читает фрагмент с обоих концов (например, нуклеотидов).
Режим SE дешевле и полностью покрывает базовую задачу — подсчет уровня экспрессии известных генов (Gene Counting). Короткого участка в 50 нуклеотидов достаточно, чтобы алгоритм картирования (например, STAR) однозначно определил, из какого гена выпал этот рид.
Режим PE обязателен в следующих случаях:
Рекомендуемые ресурсы для углубленного изучения
Для перехода от теоретического понимания к самостоятельной настройке экспериментов и пайплайнов, рекомендуется опираться на фундаментальные труды и признанные сообществом практические руководства.
Книги и учебники:
Практические руководства и GitHub-репозитории:
Решения, принятые на этапе дизайна эксперимента, необратимы. Никакая продвинутая математическая нормализация не спасет проект, в котором перепутаны биологические группы и дни выделения РНК, а попытка изучать некодирующие РНК на Poly-A библиотеках обречена на провал еще до запуска секвенатора. Понимание биохимической сути подготовки библиотек — это основа, на которой строится логика фильтрации, картирования и статистического анализа данных.