Method Article
Представленный здесь протокол объясняет полный конвейер in silico , необходимый для прогнозирования и функциональной характеристики цирковых РНК на основе данных транскриптома секвенирования РНК, изучающих взаимодействия хозяина и патогена.
Кольцевые РНК (цирковые РНК) представляют собой класс некодирующих РНК, которые образуются путем обратного сплайсинга. Эти циркулярные РНК преимущественно изучаются на предмет их роли в качестве регуляторов различных биологических процессов. Примечательно, что новые данные демонстрируют, что цирковые РНК хозяина могут дифференциально экспрессироваться (ДЭ) при инфицировании патогенами (например, гриппом и коронавирусами), что свидетельствует о роли циркРНК в регуляции врожденных иммунных реакций хозяина. Однако исследования роли цирковых РНК во время патогенных инфекций ограничены знаниями и навыками, необходимыми для проведения необходимого биоинформатического анализа для идентификации цирковых РНК DE по данным секвенирования РНК (RNA-seq). Биоинформационное прогнозирование и идентификация циркулярных РНК имеет решающее значение перед любой проверкой и функциональными исследованиями с использованием дорогостоящих и трудоемких методов мокрой лаборатории. Для решения этой проблемы в данной рукописи приведен пошаговый протокол in silico предсказания и характеристики цирковых РНК с использованием данных RNA-seq. Протокол можно разделить на четыре этапа: 1) Прогнозирование и количественное определение циркулярных РНК DE с помощью конвейера CIRIquant; 2) Аннотация через circBase и характеристика цирковых РНК DE; 3) Прогнозирование взаимодействия CircRNA-miRNA через конвейер Circr; 4) анализ функционального обогащения родительских генов циркРНК с использованием Gene Ontology (GO) и Kyoto Encyclopedia of Genes and Genomes (KEGG). Этот конвейер будет полезен для проведения будущих исследований in vitro и in vivo для дальнейшего раскрытия роли цирковых РНК во взаимодействиях хозяина и патогена.
Взаимодействия хозяина и патогена представляют собой сложное взаимодействие между патогенами и организмами-хозяевами, которое запускает врожденные иммунные реакции хозяев, которые в конечном итоге приводят к удалению вторгшихся патогенов 1,2. Во время патогенных инфекций регулируется множество иммунных генов хозяина, чтобы ингибировать репликацию и высвобождение патогенов. Например, общие интерферон-стимулированные гены (ISG), регулируемые патогенными инфекциями, включают ADAR1, IFIT1, IFIT2, IFIT3, ISG20, RIG-I и OASL 3,4. Помимо генов, кодирующих белок, исследования также показали, что некодирующие РНК, такие как длинные некодирующие РНК (днРНК), микроРНК (миРНК) и кольцевые РНК (циркРНК), также играют роль и регулируются одновременно во время патогенных инфекций 5,6,7. В отличие от генов, кодирующих белки, которые в основном кодируют белки как функциональные молекулы, известно, что некодирующие РНК (нРНК) функционируют как регуляторы генов на транскрипционном и посттранскрипционном уровнях. Однако исследования, включающие участие некодирующих РНК, особенно цирковых РНК, в регуляции иммунных генов хозяев, не очень хорошо представлены по сравнению с генами, кодирующими белок.
Цирковые РНК широко характеризуются своей ковалентно замкнутой непрерывной петлевой структурой, которая генерируется с помощью неканонического процесса сплайсинга, называемого обратным сплайсингом8. Процесс обратного сплайсинга, в отличие от процесса сплайсинга родственных линейных РНК, включает лигирование нижестоящего донорного сайта с вышестоящим акцепторным сайтом, образуя структуру круглой формы. В настоящее время предложены три различных механизма обратного сплайсинга для биогенеза циркРНК. Это опосредованная РНК связывающим белком (RBP)циркуляция 9,10, циркуляция, управляемая спариванием интронов, 11 и циркуляция, управляемая лариатом12,13,14. Учитывая, что цирковые РНК соединены встык в кольцевую структуру, они, как правило, естественным образом устойчивы к нормальному расщеплению экзонуклеазы и, таким образом, считаются более стабильными, чем их линейные аналоги15. Другая общая характеристика, проявляемая циркРНК, включает специфическую для клеток или тканей экспрессию у хозяев16.
Как следует из их уникальной структуры и клеточной или тканеспецифической экспрессии, было обнаружено, что циркРНК играют важные биологические функции в клетках. На сегодняшний день одной из основных функций цирковых РНК является их роль в качестве губок микроРНК (миРНК)17,18. Эта регуляторная роль цирковых РНК происходит за счет комплементарного связывания нуклеотидов циркРНК с затравочной областью микроРНК. Такое взаимодействие circRNA-miRNA ингибирует нормальные регуляторные функции микроРНК на мРНК-мишенях, тем самым регулируя экспрессию генов 19,20. Кроме того, известно также, что цирковые РНК регулируют экспрессию генов, взаимодействуя с РНК-связывающими белками (RBP) и образуя РНК-белковые комплексы21. Хотя цирковые РНК классифицируются как некодирующие РНК, есть также доказательства того, что цирковые РНК могут выступать в качестве шаблонов для трансляции белка22,23,24.
Недавно было продемонстрировано, что цирковые РНК играют ключевую роль в регулировании взаимодействий хозяина и патогена, особенно между хозяевами и вирусами. Как правило, предполагается, что циркРНК хозяина помогают регулировать иммунные реакции хозяина для устранения вторгшихся патогенов. Примером циркулярной РНК, способствующей иммунному ответу хозяина, является circRNA_0082633, о чем сообщают Guo et al.25. Эта циркулярная РНК усиливает передачу сигналов интерферона I типа (ИФН) в клетках A549, что помогает подавить репликацию вируса гриппа25. Кроме того, Qu et al. также сообщили об интронной циркулярной РНК человека, называемой циркулярной РНК AIVR, которая способствует иммунитету, регулируя экспрессию CREB-связывающего белка (CREBBP), сигнального преобразователя ИФН-β26,27. Тем не менее, циркулярные РНК, которые, как известно, способствуют патогенезу заболевания при заражении, также существуют. Например, Yu et al. недавно сообщили о роли, которую играет циркулярная РНК, сплайсированная из домена цинкового пальца GATA, содержащего ген 2A (circGATAD2A), в стимулировании репликации вируса H1N1 посредством ингибирования аутофагии клетки-хозяина28.
Для эффективного изучения цирковых РНК обычно реализуется полногеномный алгоритм прогнозирования циркулярных РНК с последующей характеристикой in silico предсказанных кандидатов на циркРНК до того, как можно будет провести какие-либо функциональные исследования. Такой биоинформатический подход к прогнозированию и характеристике цирковых РНК является менее дорогостоящим и более эффективным по времени. Это помогает уточнить количество кандидатов, подлежащих функциональному изучению, и потенциально может привести к новым выводам. Здесь мы предоставляем подробный биоинформатический протокол для идентификации, характеристики и функциональной аннотации circRNA in silico во время взаимодействия хозяина и патогена. Протокол включает идентификацию и количественное определение цирковых РНК из наборов данных секвенирования РНК, аннотацию через circBase и характеристику кандидатов на цирковые РНК с точки зрения типов цирковых РНК, количества перекрывающихся генов и прогнозируемых взаимодействий циркРНК-миРНК. Это исследование также обеспечивает функциональную аннотацию родительских генов циркРНК с помощью онтологии генов (GO) и анализа обогащения Киотской энциклопедии генов и геномов (KEGG).
В этом протоколе из базы данных Gene Expression Omnibus (GEO) были загружены и использованы деидентифицированные наборы данных библиотеки РНК-секвенирования РНК (рРНК), подготовленные из инфицированных вирусом гриппа А клеток макрофагов человека. Весь конвейер биоинформатики от прогнозирования до функциональной характеристики циркулярных РНК кратко представлен на рисунке 1. Каждая часть конвейера более подробно описана в разделах ниже.
1. Подготовка, загрузка и настройка перед анализом данных
ПРИМЕЧАНИЕ: Все программные пакеты, используемые в этом исследовании, являются бесплатными и с открытым исходным кодом.
2. Прогнозирование и анализ дифференциальной экспрессии цирковых РНК с использованием CIRIquant
ПРИМЕЧАНИЕ: Более подробное руководство по установке и выполнению анализа дифференциальных выражений можно найти в разделе о доступности кода документаCIRIquant 31. Дополнительные данные также включают некоторые из основных команд, используемых в этом протоколе.
3. Характеристика и аннотация предсказанных ДЭ циркРНК
4. Прогнозирование взаимодействия circRNA-miRNA с помощью Circr
ПРИМЕЧАНИЕ: Более подробное руководство по установке и использованию Circr для анализа взаимодействия circRNA-miRNA можно найти по адресу: https://github.com/bicciatolab/Circr37.
5. Построение сети цеРНК
ПРИМЕЧАНИЕ: Подробное руководство по использованию Cytoscape можно найти по адресу: http://manual.cytoscape.org/en/stable/ и https://github.com/cytoscape/cytoscape-tutorials/wiki#introduction
6. Анализ функционального обогащения
Протокол, перечисленный в предыдущем разделе, был изменен и настроен в соответствии с системой ОС Linux. Основная причина заключается в том, что большинство библиотек модулей и пакетов, участвующих в анализе circRNA, могут работать только на платформе Linux. В этом анализе деидентифицированные наборы данных библиотеки RNA-seq с обедненной рибосомной РНК (рРНК), подготовленные из инфицированных вирусом гриппа А клеток макрофагов человека, были загружены из базы данных42 GEO и использованы для получения репрезентативных результатов.
Прогнозирование и количественное определение циркРНК
В этом анализе наборы данных библиотеки РНК-секвенирования рибосомной РНК (рРНК), подготовленные из инфицированных вирусом гриппа А клеток макрофагов человека, использовались для обнаружения циркулярной РНК и функционального анализа. Как указано в разделе протокола, CIRIquant использовался для идентификации и проведения DE-анализа идентифицированных circRNA с использованием наборов данных библиотеки RNA-seq в качестве входных данных. Используемые справочные файлы основаны на последней версии генома человека (hg38). В таблице 4 приведен пример итоговых результатов анализа CIRIquant. Идентификация и фильтрация циркулярных РНК DE из выходных данных CIRIquant выполнялись с помощью простых скриптов RStudio (дополнительный файл 1). Цирковые РНК классифицируются как ДЭ только в том случае, если значение коэффициента ложного обнаружения (FDR) составляет <0,05, а изменение log fold (LogFC) >|2|. В таблице 5 показано общее количество обнаруженных цирковых РНК и ДЭ. Всего было обнаружено 35 846 цирковых РНК, из которых 306 были DE. Циркулярные РНК DE, обнаруженные в этом выходе, полностью повышаются (LogFC > 2), и ни одна из них не подавляется (LogFC < 2).
Аннотация и характеристика цирковых РНК DE
Статус аннотации цирковых РНК DE
Идентифицированные циркРНК DE были перепроверены с установленной базой данных цирковых РНК, circBase. Однако, поскольку координаты циркРНК, депонированные в circBase, основаны на предыдущей версии генома человека (hg19), координаты циркулярной РНК из circBase должны быть преобразованы в текущую версию генома человека (hg38) для перекрестной проверки в этом исследовании. Кроме того, начальная координата должна быть преобразована в 0 из выходных данных CIRIquant на основе 1. Преобразованные в версию hg38 координаты circRNA circBase предоставляются в папке диска на Github (https://github.com/bicciatolab/Circr)37. Затем скрипты Rstudio (дополнительный файл 1) использовались для присвоения статуса аннотации цирковых РНК в новом столбце кадра данных. В таблице 6 приведен пример цирковых РНК со статусом аннотации.
Характеристика цирковых РНК DE
Эта часть была полностью выполнена с помощью скриптов R в программном обеспечении RStudio. Скрипты R упрощают аналитические процессы, и требуются только базовые знания.
Типы циркРНК
На этом этапе цирковые РНК DE были охарактеризованы их типами цирковых РНК (антисмысловые, экзонические, межгенные и интронные) в зависимости от их геномных позиций. В таблице 7 ниже показана процентная разбивка различных типов цирковых РНК, охватываемых идентифицированными цирковыми РНК DE. Из общего числа 306 цирковых РНК DE 263 циркРНК (85,95%) были идентифицированы как экзонные циркРНК, что является наиболее распространенным типом циркРНК. Интронные цирковые РНК являются вторым наиболее идентифицируемым типом цирковых РНК, включающим 17 цирковых РНК DE, что составляет до 5,56% от общего количества циркРНК DE. Далее следуют межгенные циркРНК (16 ДЭ-циркРНК ~5,23%) и антисмысловые РНК (10 ДЭ-циркРНК ~3,27%).
Количество генов, охватываемых на циркулярную РНК
ЦиркРНК, идентифицированные CIRIquant, могут перекрываться по ряду генов. На сегодняшний день большинство исследований сосредоточено на цирковых РНК, которые охватывают один ген. Следовательно, в этом протоколе кандидаты на цирковые РНК, охватывающие более одного гена, исключаются из последующего анализа. В таблице 8 ниже описано количество и процент циркулярных РНК DE, охватывающих один и более одного гена. В этой таблице исключаются межгенные циркРНК (16 ДЭ циркРНК), поскольку они не перекрывают ни одного гена хозяина, в то время как остальные типы цирковых РНК (290 ДЭ циркРНК) подвергаются этому анализу. Из 290 цирковых РНК DE большинство цирковых РНК DE (261 цирковая РНК ~ 90%) охватывают только один ген, в то время как остальные 29 цирковых РНК (~ 10%) охватывают более одного гена.
Построение сети цеРНК
Сеть цеРНК обычно рисуется для визуализации взаимодействия циркулярных РНК-миРНК после того, как она была предсказана. На рисунке 3 ниже в качестве репрезентативного результата была выбрана только одна цирковая РНК DE, которая является hsa_DE_58 циркРНК. Основываясь на предсказаниях Circr, hsa_DE_58 может губить до девяти различных микроРНК. Эти девять микроРНК идентифицируются после фильтрации по строгим критериям.
Анализ функционального обогащения
GO и KEGG анализ родительских генов цирковой РНК
На рисунке 4 ниже показан пузырьковый график функционального обогащения родительских генов DE circRNA с помощью анализа GO. По сути, анализ GO направлен на то, чтобы разгадать биологические процессы, клеточные местоположения и молекулярные функции, которые обогащаются или изменяются в изучаемом состоянии, в данном случае в зараженном вирусом образце. Обогащение считается статистически значимым и наносится на пузырьковую диаграмму только в том случае, если p-значение < 0,01. Как показано на рисунке 4, три основных обогащения для биологических процессов (BP) включают биогенез рибонуклеопротеинового комплекса, реакцию на вирус и регуляцию ответа на биотический стимул, в то время как для молекулярных функций (MF) статистически обогащена только каталитическая активность, действующая на РНК и связывание одноцепочечной РНК. С другой стороны, только ретромерный комплекс статистически обогащен клеточными компонентами (КК).
На рисунке 5 показан анализ обогащения KEGG родительских генов DE circRNA на пузырьковом графике. Подобно анализу обогащения GO, обогащение KEGG считается статистически значимым и наносится на пузырьковый график только в том случае, если p-значение < 0,01. В этом случае были обогащены только два термина KEGG, а именно пути жизненного цикла гриппа А и вируса (ВИЧ-1).
Рисунок 1: Конвейер для прогнозирования и функциональной характеристики цирковых РНК. Конвейер показывает простой обзор ключевых шагов от начала до конца, включая установку необходимых программных пакетов, прогнозирование и количественную оценку экспрессии циркулярных РНК, построение сети цеРНК и выполнение функционального обогащения родительского гена циркРНК. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 2: Древовидная структура папок для Circr. Эта древовидная структура папок должна быть установлена перед запуском программного обеспечения Circr, чтобы обнаружить необходимые файлы для анализа. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 3: Сеть цеРНК, состоящая из взаимодействия циркРНК-миРНК. Синяя овальная форма представляет собой циркулярную РНК, а оранжевые треугольники представляют микроРНК. Сплошные линии, соединяющие циркулярную РНК с микроРНК, описывают потенциальную функцию губки микроРНК hsa_DE_58 циркРНК. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 4: Пузырьковый график анализа обогащения GO родительских генов DE circRNA. GeneRatio по оси x — это количество генов во входном списке, связанном с данным термином GO, делящее общее количество входных генов. Размер точки на графике представлен значением count, которое представляет собой количество генов во входном списке, связанных с данным термином GO. Чем больше размер точек, тем больше количество входных генов, связанных с термином. Кроме того, точки на графике имеют цветовую кодировку на основе p-значения. P-значение рассчитывается путем сравнения наблюдаемой частоты термина аннотации с частотой, ожидаемой случайно. Отдельные термины считаются обогащенными сверх порогового значения (p-значение < 0,01). Цветовой градиент p-значения в диапазоне от синего до красного указывает на возрастающее обогащение терминов. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Рисунок 5: Анализ обогащения KEGG родительских генов DE circRNA. GeneRatio по оси x - это количество генов во входном списке, связанное с данным термином KEGG, делящим общее количество входных генов. Размер точки на графике представлен значением count, которое представляет собой количество генов во входном списке, связанных с данным термином KEGG. Чем больше размер точек, тем больше количество входных генов, связанных с термином. Кроме того, точки на графике имеют цветовую кодировку на основе p-значения. P-значение рассчитывается путем сравнения наблюдаемой частоты термина аннотации с частотой, ожидаемой случайно. Отдельные члены считаются обогащенными сверх порогового значения (p-значение < 0,01). Цветовой градиент p-значения в диапазоне от синего до красного указывает на увеличение обогащения слагаемых. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.
Пример имени | Путь к выходному GTF-файлу CIRIquant | Группировка |
Управление 1 | /path/to/CIRIquant/ctrl1.gtf | C |
Управление 2 | /path/to/CIRIquant/ctrl2.gtf | C |
Зараженные 1 | /path/to/CIRIquant/infect1.gtf | T |
Зараженные 2 | /path/to/CIRIquant/infect2.gtf | T |
Таблица 1: Подготовка файла .lst CIRIquant. Конечные пути контрольного и обработанного образцов из выходных данных CIRIquant записываются в текстовый файл для сравнения экспрессий циркулярной РНК между двумя типами образцов.
Chr | Начало | Конец | Имя | . | Прядь |
ХР2 | 137428930 | 137433876 | hsa_circ_000076 | . | - |
ХР2 | 154705868 | 154706632 | hsa_circ_000105 | . | - |
ХР2 | 159104273 | 159106793 | hsa_circ_000118 | . | - |
ХР2 | 159215701 | 159226125 | hsa_circ_000119 | . | - |
ХР4 | 39980067 | 39980129 | hsa_circ_002584 | . | - |
Таблица 2: Пример файла BED для Circr. Шесть столбцов (Chr, Start, End, Name, Gene и Strand), связанных с circRNA, необходимы для создания файла BED.
circRNA_name | Тип | miRNA_name | Тип |
DE_circRNA_1 | circRNA | miR-001 | микроРНК |
DE_circRNA_1 | circRNA | miR-002 | микроРНК |
DE_circRNA_2 | circRNA | miR-003 | микроРНК |
DE_circRNA_2 | circRNA | miR-004 | микроРНК |
Таблица 3: Входной файл Cytoscape. Четыре столбца (circRNA_name, Тип, miRNA_name и Тип) должны быть записаны в текстовый файл.
ЦиркРНК | logFC | logCPM | ЛР | Значение | ДЕ | Рузвельт |
chr4:17595410|17598558 | 8.167934481 | -0.039318634 | 185.5341965 | 3.00Э-42 | 1 | 1.08Э-37 |
CHR16:18834892|18850467 | -3.955083482 | -4.397235736 | 2.982607619 | 0.08416358 | 0 | 0.282478158 |
CHR14:73198031|73211942 | 2.493964729 | -4.448176684 | 2.736442046 | 0.09808293 | 0 | 0.282478158 |
Таблица 4: Часть окончательного выходного (.csv) файла CIRIquant. CIRIquant предоставляет такую информацию, как LogFC, количество журналов на миллион (LogCPM), логистическая регрессия (LR), p-значение, дифференциальное выражение и FDR.
Результаты CIRIquant | |||
Итог | ДЕ | Вверх | Вниз |
35846 | 306 | 306 | 0 |
Таблица 5: Сводная информация о количестве идентифицированных общих и дифференциально экспрессируемых (ДЭ) циркулярных РНК. Всего обнаружено 35 846 цирковых РНК, из которых 306 являются цирковыми РНК DE. Все 306 циркулярных РНК DE повышаются (ни одна из них не подавляется) в обработанных образцах по сравнению с контрольными образцами.
Custom_Name | Annotation_Status |
hsa_DE_22 | Без аннотации |
hsa_DE_2 | Аннотированный |
hsa_DE_58 | Без аннотации |
hsa_DE_3 | Аннотированный |
Таблица 6: Таблица пользовательских названий circRNA со статусом аннотации. Цирковые РНК запрашиваются в базе данных известных депонированных циркРНК (circBase). Если циркулярная РНК присутствует в базе данных, она помечается как аннотированная, в то время как отсутствие циркулярной РНК помечается как неаннотированная.
Тип циркРНК | Частота | Процент |
Антисмысл | 10 | 3.27% |
экзон | 263 | 85.95% |
Межгенный | 16 | 5.23% |
Интрон | 17 | 5.56% |
Таблица 7: Идентифицированные типы циркулярных РНК. Цирковые РНК могут быть дополнительно классифицированы на различные типы цирковых РНК в зависимости от их области последовательности, а именно: экзонные, интронные, антисмысловые и интергенные.
Количество родительских генов | Частота | Процент |
1 | 261 | 90% |
> 1 | 29 | 10% |
Таблица 8: Процент циркулярных РНК с разным количеством охватываемых генов. Цирковые РНК обычно кодируются из экзонов одного гена, но цирковые РНК, охватывающие более одного гена, также могут быть обнаружены CIRIquant.
Дополнительный файл 1: Скрипты, используемые в протоколе. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.
Чтобы проиллюстрировать полезность этого протокола, в качестве примера использовали РНК-секвенирование из инфицированных вирусом гриппа А клеток макрофагов человека. Были исследованы циркРНК, функционирующие как потенциальные губки микроРНК во взаимодействиях хозяин-патоген, и их функциональное обогащение GO и KEGG внутри хозяина. Несмотря на то, что в Интернете доступно множество инструментов circRNA, каждый из них представляет собой отдельный пакет, который не взаимодействует друг с другом. Здесь мы собрали несколько инструментов, необходимых для прогнозирования и количественного определения цирковой РНК, функционального обогащения циркРНК, прогнозирования взаимодействия циркРНК-миРНК и построения сети цеРНК. Этот оптимизированный протокол экономит время и может применяться к клиническим образцам для обнаружения кандидатов на очерк-РНК с диагностическими и прогностическими значениями.
По сути, мы использовали CIRIquant31, инструмент количественного определения цирковой РНК, предварительно упакованный с CIRI2, который может обнаруживать и проводить анализ DE цирковых РНК. Цирковые РНК DE фильтруются на основе порогового значения LogFC > |2| и FDR < 0,05, что помогает исключить потенциальные ложные срабатывания при последующем анализе. Характеристика циркулярных РНК DE с точки зрения статуса аннотации, типов циркулярных РНК и количества охватываемых генов помогает в категоризации и дальнейшей фильтрации кандидатов в циркРНК. Впоследствии Circr37, инструмент прогнозирования очерковой РНК-миРНК, используется для прогнозирования потенциальных кандидатов на спонгирование микроРНК. После предсказания потенциальных микроРНК в качестве мишеней циркРНК рисуется сеть цеРНК. Наконец, основываясь на родительских генах цирковых РНК, пакет39 R clusterProfiler используется для функциональной аннотации с помощью анализа обогащения путей GO и KEGG. Результаты GO и KEGG могут помочь разгадать биологические механизмы, на которые влияют цирковые РНК.
На сегодняшний день разработано несколько различных инструментов прогнозирования циркулярных РНК, включая CIRI2 43, CIRCexplorer2 44, find_circ 45, MapSplice 46 и UROBORUS 47. В исследовании, проведенном Hansen et al., сообщается, что CIRI2 обладает высокой общей эффективностью. Это один из немногих инструментов обнаружения циркулярных РНК, который может хорошо функционировать с точки зрения прогнозирования de novo и снижения ложноположительной идентификации48. Поэтому в этом исследовании использовался CIRIquant, который использует CIRI2 для обнаружения и количественного определения цирковой РНК. CIRIquant использовался для подсчета считываний обратного сплайс-соединения (BSJ), и данные подсчета были нормализованы к чтениям, сопоставленным с родственными линейными РНК, транскрибируемыми из одних и тех же локусов генов. Это позволяет количественно определять циркулярные РНК в образце. Чтобы определить дифференциальную экспрессию циркулярных РНК в экспериментальных условиях, CIRIquant реализовал обобщенную линейную модель в edgeR49 для анализа DE, а тест точного соотношения скорости был использован в качестве статистического теста для определения значимости разницы в соотношении переходов циркулярных РНК. Хотя другие инструменты количественного определения циркулярных РНК, такие как CIRCexplorer3-CLEAR50, можно использовать для количественной оценки уровня экспрессии цирковых РНК, этот инструмент позволяет количественно определять циркулярную РНК только в образце, поскольку он подсчитывает показания BSJ в образце и нормализует данные подсчета по сравнению с родственными линейными подсчетами РНК из того же образца. CIRCexplorer3-CLEAR не может сравнивать экспрессии циркулярных РНК в экспериментальных условиях. Кроме того, в CIRCexplorer3-CLEAR не реализован инструмент статистического анализа для поддержки количественного уровня выражения. Несмотря на то, что инструментом прогнозирования циркулярных РНК по умолчанию, реализованным в CIRIquant, является CIRI2, результаты прогнозирования с помощью других инструментов, таких как find_circ и CIRCexplorer2, также могут быть использованы для количественной оценки и анализаDE 31. В этом протоколе для прогнозирования использовался только один инструмент прогнозирования циркулярной РНК (CIRI2), который все еще может давать ложноположительные кандидаты на циркулярную РНК. Чтобы уменьшить количество ложноположительных результатов, можно комбинировать другие инструменты прогнозирования циркулярных РНК для анализа и выбирать общие циркулярные РНК, обнаруженные среди различных инструментов прогнозирования циркулярных РНК48,51. Для дальнейшего улучшения обнаружения циркулярных РНК идеально использовать наборы данных секвенирования РНК, которые обеднены рРНК и подвергнуты предварительной обработке РНКазой R.
В зависимости от цели исследования, de novo и аннотированные DE circRNA могут быть идентифицированы отдельно на основе базы данных circBase52. Однако цирковые РНК, охватывающие более одного гена, часто требуют ручного исследования в UCSC или любом другом браузере генома для определения подлинности цирковых РНК и устранения ложных срабатываний. Тем не менее, недавно также сообщалось о циркулярных РНК, которые охватывают более одного гена, таких как циркРНК, полученные из генов слияния53,54.
Circr работает, комбинируя три различных алгоритма прогнозирования микроРНК-мРНК, а именно TargetScan55, miRanda 56 и RNAhybrid57 для прогнозирования сайтов связывания окрестных РНК-миРНК. Кроме того, алгоритм также включает информацию о пиках AGO и ранее проверенных взаимодействиях в анализе circRNA-miRNA. Здесь были применены строгие критерии фильтрации, позволяющие получить более надежное предсказание циркулярной РНК-миРНК, что еще больше снизило количество ложноположительных результатов. Однако строгость этого шага фильтрации может быть установлена выше или ниже в зависимости от предпочтений пользователя.
ClusterProfiler — это хорошо документированный пакет R, который может функционально аннотировать наборы генов в различных организмах. Помимо функций в пакете R clusterProfiler, упомянутых в этом протоколе (enrichGO и enrichKEGG), которые используют анализ избыточного представления, можно использовать и другие функции, такие как gseGO и gseKEGG . Если clusterProfiler не является подходящим выбором для рабочего процесса, существуют также другие инструменты и пакеты, такие как «AllEnricher»58 или инструменты на основе веб-сайтов, такие как «Metascape»59 , которые могут функционально аннотировать набор генов. Наконец, хотя приведенный выше конвейер помогает в прогнозировании потенциальных циркулярных РНК и их функциональных аннотаций, для получения убедительных доказательств потребуется проверка в мокрой лаборатории.
Авторам раскрывать нечего.
Автор хотел бы поблагодарить Тан Ке Эн и доктора Кэмерона Брэкена за их критическую рецензию на эту рукопись. Эта работа была поддержана грантами Схемы грантов на фундаментальные исследования (FRGS/1/2020/SKK0/UM/02/15) и Исследовательского гранта Университета Малайи (UM. C/625/1/HIR/MOE/CHAN/02/07).
Name | Company | Catalog Number | Comments |
Bedtools | GitHub | https://github.com/arq5x/bedtools2/ | Referring to section 4.1.2. Needed for Circr. |
BWA | Burrows-Wheeler Aligner | http://bio-bwa.sourceforge.net/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome |
Circr | GitHub | https://github.com/bicciatolab/Circr | Referring to section 4. Use to predict the miRNA binding sites |
CIRIquant | GitHub | https://github.com/bioinfo-biols/CIRIquant | Referring to section 2.1.3. To predict circRNAs |
Clusterprofiler | GitHub | https://github.com/YuLab-SMU/clusterProfiler | Referring to section 7. For GO and KEGG functional enrichment |
CPU | Intel | Intel(R) Xeon(R) CPU E5-2620 V2 @ 2.10 GHz Cores: 6-core CPU Memory: 65 GB Graphics card: NVIDIA GK107GL (QUADRO K2000) | Specifications used to run this entire protocol. |
Cytoscape | Cytoscape | https://cytoscape.org/download.html | Referring to section 5.2. Needed to plot ceRNA network |
FastQC | Babraham Bioinformatics | https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ | Referring to section 1.2.1. Quality checking on Fastq files |
HISAT2 | http://daehwankimlab.github.io/hisat2/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome | |
Linux | Ubuntu 20.04.5 LTS (Focal Fossa) | https://releases.ubuntu.com/focal/ | Needed to run the entire protocol. Other Ubuntu versions may still be valid to carry out the protocol. |
miRanda | http://www.microrna.org/microrna/getDownloads.do | Referring to section 4.1.2. Needed for Circr | |
Pybedtools | pybedtools 0.8.2 | https://pypi.org/project/pybedtools/ | Needed for BED file genomic manipulation |
Python | Python 2.7 and 3.6 or abover | https://www.python.org/downloads/ | To run necessary library modules |
R | The Comprehensive R Archive Network | https://cran.r-project.org/ | To manipulate dataframes |
RNAhybrid | BiBiServ | https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid | Referring to section 4.1.2. Needed for Circr |
RStudio | RStudio | https://www.rstudio.com/ | A workspace to run R |
samtools | SAMtools | http://www.htslib.org/ | Referring to section 2.1.2. Needed to run CIRIquant |
StringTie | Johns Hopkins University: Center for Computational Biology | http://ccb.jhu.edu/software/stringtie/index.shtml | Referring to section 2.1.2. Needed to run CIRIquant |
TargetScan | GitHub | https://github.com/nsoranzo/targetscan | Referring to section 4.1.2. Needed for Circr |
Запросить разрешение на использование текста или рисунков этого JoVE статьи
Запросить разрешениеThis article has been published
Video Coming Soon
Авторские права © 2025 MyJoVE Corporation. Все права защищены