Method Article
O protocolo apresentado aqui explica o pipeline in silico completo necessário para prever e caracterizar funcionalmente circRNAs a partir de dados de transcriptoma de sequenciamento de RNA estudando interações patógeno-hospedeiro.
RNAs circulares (circRNAs) são uma classe de RNAs não-codificantes que são formados via back-splicing. Estes circRNAs são predominantemente estudados por seus papéis como reguladores de vários processos biológicos. Notavelmente, evidências emergentes demonstram que circRNAs do hospedeiro podem ser diferencialmente expressos (DE) após a infecção por patógenos (por exemplo, influenza e coronavírus), sugerindo um papel para circRNAs na regulação das respostas imunes inatas do hospedeiro. No entanto, as investigações sobre o papel dos circRNAs durante infecções patogênicas são limitadas pelo conhecimento e habilidades necessárias para realizar a análise bioinformática necessária para identificar circRNAs DE a partir de dados de sequenciamento de RNA (RNA-seq). A predição bioinformática e a identificação de circRNAs são cruciais antes de qualquer verificação, e estudos funcionais usando técnicas de laboratório úmido caras e demoradas. Para resolver essa questão, um protocolo passo-a-passo de predição e caracterização in silico de circRNAs usando dados de RNA-seq é fornecido neste manuscrito. O protocolo pode ser dividido em quatro etapas: 1) Predição e quantificação de circRNAs DE via pipeline CIRIquant; 2) Anotação via circBase e caracterização de circRNAs DE; 3) Predição da interação CircRNA-miRNA através do pipeline Circr; 4) análise de enriquecimento funcional de genes parentais de circRNA usando Ontologia Gênica (GO) e Enciclopédia de Genes e Genomas de Kyoto (KEGG). Este pipeline será útil na condução de futuras pesquisas in vitro e in vivo para desvendar ainda mais o papel dos circRNAs nas interações patógeno-hospedeiro.
As interações patógeno-hospedeiro representam uma complexa interação entre os patógenos e os organismos hospedeiros, que desencadeia as respostas imunes inatas dos hospedeiros que, eventualmente, resultam na remoção de patógenos invasores 1,2. Durante infecções patogênicas, uma infinidade de genes imunes do hospedeiro é regulada para inibir a replicação e liberação de patógenos. Por exemplo, genes comuns estimulados por interferon (ISGs) regulados sobre infecções patogênicas incluem ADAR1, IFIT1, IFIT2, IFIT3, ISG20, RIG-I e OASL 3,4. Além dos genes codificadores de proteínas, estudos também relataram que RNAs não codificantes, como RNAs longos não codificadores (lncRNAs), microRNAs (miRNAs) e circulares (circRNAs), também desempenham um papel e são regulados concomitantemente durante infecções patogênicas 5,6,7. Em contraste com os genes codificadores de proteínas que codificam principalmente proteínas como moléculas funcionais, RNAs não-codificantes (ncRNAs) são conhecidos por funcionar como reguladores de genes em níveis transcricionais e pós-transcricionais. No entanto, estudos envolvendo a participação de RNAs não-codificantes, particularmente circRNAs, na regulação dos genes imunes dos hospedeiros não são bem relatados em comparação com os genes codificadores de proteínas.
Os circRNAs são amplamente caracterizados por sua estrutura de loop contínuo covalentemente fechado, que é gerado através de um processo de splicing não-canônico chamado back-splicing8. O processo de back-splicing, ao contrário do processo de splicing de RNAs lineares cognatos, envolve a ligadura do sítio doador a jusante ao sítio receptor a montante, formando uma estrutura de forma circular. Atualmente, três diferentes mecanismos de back-splicing para a biogênese de circRNAs têm sido propostos. Estas são a circularização mediada por RNA binding protein (RBP) 9,10, a circularização conduzida por intron-pairing 11 e a circularização conduzida por lariat12,13,14. Dado que os circRNAs estão conectados de ponta a ponta em uma estrutura circular, eles tendem a ser naturalmente resistentes às digestãos normais de exonucleases e, portanto, são considerados mais estáveis do que seus equivalentes lineares15. Outra característica comum exibida pelos circRNAs inclui a expressão específica do tipo celular ou tecidual em hospedeiros16.
Como implicado por sua estrutura única e expressão célula ou tecido-específica, circRNAs foram descobertos para desempenhar funções biológicas importantes nas células. Até o momento, uma das funções proeminentes dos circRNAs é seu papel como esponjas de microRNA (miRNA)17,18. Este papel regulatório dos circRNAs ocorre através da ligação complementar dos nucleotídeos do circRNA com a região da semente dos miRNAs. Esta interação circRNA-miRNA inibe as funções regulatórias normais dos miRNAs sobre os RNAm-alvo, regulando assim a expressão de genes 19,20. Além disso, circRNAs também são conhecidos por regular a expressão gênica interagindo com proteínas ligadoras de RNA (RBPs) e formando complexos RNA-proteína21. Embora os circRNAs sejam classificados como RNAs não codificantes, também há evidências de que os circRNAs podem atuar como moldes para a tradução deproteínas22,23,24.
Recentemente, foi demonstrado que os circRNAs desempenham papéis fundamentais na regulação das interações patógeno-hospedeiro, particularmente entre os hospedeiros e os vírus. Geralmente, acredita-se que os circRNAs do hospedeiro auxiliem na regulação das respostas imunes do hospedeiro para eliminar os patógenos invasores. Um exemplo de circRNA que promove respostas imunes do hospedeiro é circRNA_0082633, relatado por Guo et al.25. Esse circRNA aumenta a sinalização do interferon tipo I (IFN) dentro das células A549, o que ajuda a suprimir a replicação do vírus influenza25. Além disso, Qu e col. também relataram um circRNA intrônico humano, denominado circRNA AIVR, que promove imunidade regulando a expressão da proteína ligadora de CREB (CREBBP), um transdutor de sinal de IFN-β26,27. No entanto, circRNAs que são conhecidos por promover a patogênese da doença após a infecção também existem. Por exemplo, Yu e col. relataram recentemente o papel desempenhado por um circRNA emendado do domínio dedo de zinco GATA contendo o gene 2A (circGATAD2A) na promoção da replicação do vírus H1N1 através da inibição da autofagia da célula hospedeira28.
Para estudar efetivamente circRNAs, um algoritmo de predição de circRNA genômico é geralmente implementado, seguido por uma caracterização in silico dos candidatos a circRNA previstos antes que qualquer estudo funcional possa ser realizado. Tal abordagem de bioinformática para prever e caracterizar circRNAs é menos dispendiosa e mais eficiente em termos de tempo. Isso ajuda a refinar o número de candidatos a serem estudados funcionalmente e pode potencialmente levar a novas descobertas. Aqui, nós fornecemos um protocolo detalhado baseado em bioinformática para a identificação, caracterização e anotação funcional in silico de circRNAs durante as interações patógeno-hospedeiro. O protocolo inclui a identificação e quantificação de circRNAs a partir de conjuntos de dados de sequenciamento de RNA, anotação via circBase e a caracterização dos candidatos de circRNA em termos de tipos de circRNA, número de genes sobrepostos e interações circRNA-miRNA previstas. Este estudo também fornece a anotação funcional dos genes parentais do circRNA através da análise de enriquecimento da Gene Ontology (GO) e da Enciclopédia de Genes e Genomas de Kyoto (KEGG).
Neste protocolo, conjuntos de dados da biblioteca RNA-seq depletada de RNA-rribossomal desidentificados preparados a partir de células de macrófagos humanos infectadas pelo vírus influenza A foram baixados e usados do banco de dados Gene Expression Omnibus (GEO). Todo o pipeline de bioinformática, desde a predição até a caracterização funcional dos circRNAs, está resumido na Figura 1. Cada parte do gasoduto é explicada mais detalhadamente nas seções abaixo.
1. Preparação, download e configuração antes da análise dos dados
NOTA: Todos os pacotes de software utilizados neste estudo são gratuitos e de código aberto.
2. Predição e análise de expressão diferencial de circRNAs utilizando CIRIquant
NOTA: Um manual mais detalhado sobre como instalar e executar a análise de expressão diferencial pode ser encontrado na seção de disponibilidade de código do documento CIRIquant31. Os dados complementares também incluem alguns dos comandos básicos usados neste protocolo.
3. Caracterização e anotação de circRNAs DE previstos
4. Predição da interação circRNA-miRNA usando Circr
NOTA: Um manual mais detalhado sobre como instalar e usar o Circr para a análise da interação circRNA-miRNA pode ser encontrado em: https://github.com/bicciatolab/Circr37.
5. Construção da rede de ceRNA
NOTA: Um manual detalhado sobre como usar o Cytoscape pode ser encontrado em: http://manual.cytoscape.org/en/stable/ e https://github.com/cytoscape/cytoscape-tutorials/wiki#introduction
6. Análise do enriquecimento funcional
O protocolo alistado na seção anterior foi modificado e configurado para se adequar ao sistema operacional Linux. A principal razão é que a maioria das bibliotecas de módulos e pacotes envolvidos na análise de circRNAs só podem funcionar na plataforma Linux. Nesta análise, conjuntos de dados da biblioteca RNA-seq depletada de RNA-seq de RNA ribossomal não identificados, preparados a partir de células de macrófagos humanos infectadas pelo vírus Influenza A, foram baixados do banco de dados GEO42 e usados para gerar os resultados representativos.
Predição e quantificação de circRNA
Nesta análise, conjuntos de dados da biblioteca RNA-seq depletada de RNA-rRNA ribossomal preparados a partir de células de macrófagos humanos infectadas pelo vírus Influenza A foram usados para realizar a detecção de circRNA e análise funcional. Conforme especificado na seção de protocolo, CIRIquant foi usado para identificar e realizar a análise de DE de circRNAs identificados usando os conjuntos de dados da biblioteca RNA-seq como entrada. Os arquivos de referência usados são baseados na versão mais recente do genoma humano (hg38). A Tabela 4 mostra um exemplo do resultado final da análise CIRIquant. A identificação e filtragem dos circRNAs DE da saída do CIRIquant foram executadas através de scripts RStudio simples (Arquivo Suplementar 1). Os circRNAs só são classificados como DE quando o valor da taxa de falsa-descoberta (FDR) é <0,05 e a mudança de dobra logarítmica (LogFC) >|2|. A Tabela 5 mostra o número total de circRNAs e circRNAs DE detectados. Um total de 35.846 circRNAs foram detectados, sendo 306 DE. Os circRNAs DE detectados nesta saída são inteiramente upregulated (LogFC > 2), e nenhum downregulated (LogFC < 2).
Anotação e caracterização de circRNAs DE
Status de anotação de circRNAs DE
Os circRNAs DE identificados foram cruzados com um banco de dados de circRNA estabelecido, circBase. No entanto, como as coordenadas de circRNA depositadas no circBase são baseadas em uma versão anterior do genoma humano (hg19), as coordenadas de circRNA do circBase devem ser convertidas para a versão atual do genoma humano (hg38) para verificação cruzada neste estudo. Além disso, a coordenada inicial deve ser convertida em 0-based a partir da saída baseada em 1 do CIRIquant. As coordenadas circRNA convertidas na versão hg38 do circBase são fornecidas em uma pasta de unidade no Github (https://github.com/bicciatolab/Circr)37. Em seguida, os scripts Rstudio (Arquivo Suplementar 1) foram usados para atribuir o status de anotação de circRNAs em uma nova coluna de quadro de dados. A Tabela 6 mostra um exemplo de circRNAs com o status de anotação.
Caracterização de circRNAs DE
Esta parte foi inteiramente executada através de scripts R no software RStudio. Os scripts R facilitam os processos analíticos, e apenas o conhecimento básico é necessário.
Tipos de circRNA
Nesta etapa, os circRNAs DE foram caracterizados por seus tipos de circRNA (Antisense, Exonic, Intergênico e Intronic) com base em suas posições genômicas. A Tabela 7 abaixo mostra a decomposição percentual dos diferentes tipos de circRNA englobados pelos circRNAs DE identificados. Do total de 306 circRNAs DE, 263 circRNAs (85,95%) foram identificados como circRNAs exônicos, que é o tipo de circRNA mais abundante identificado. Os circRNAs intrônicos aparecem como o segundo tipo de circRNA mais identificado, compreendendo 17 circRNAs DE, perfazendo até 5,56% do total de circRNAs DE. Isto é seguido por circRNAs intergênicos (16 circRNAs DE ~5,23%) e circRNAs antisenso (10 circRNAs DE ~3,27%).
Número de genes por circRNA
Os circRNAs identificados pelo CIRIquant podem sobrepor-se a vários genes. Até o momento, a maioria dos estudos está focada em circRNAs que abrangem um gene. Assim, neste protocolo, os candidatos a circRNA abrangendo mais de um gene são excluídos da análise a jusante. A Tabela 8 abaixo descreve o número e a porcentagem de circRNAs DE abrangendo um e mais de um gene. Nesta tabela, os circRNAs intergênicos (16 circRNAs DE) são excluídos por não se sobreporem a nenhum gene hospedeiro, enquanto os demais tipos de circRNA (290 circRNAs DE) são submetidos a essa análise. Dos 290 circRNAs DE, a maioria dos circRNAs DE (261 circRNAs ~90%) abrangem apenas um gene, enquanto os 29 circRNAs restantes (~10%) abrangem mais de um gene.
Construção da rede de ceRNA
Uma rede de ceRNA é geralmente desenhada para visualizar as interações circRNA-miRNA depois de prevista. Na Figura 3 abaixo, apenas um circRNA DE foi escolhido como resultado representativo, que é o circRNA hsa_DE_58. Com base nas previsões do Circr, hsa_DE_58 pode esponjar até nove miRNAs diferentes. Estes nove miRNAs são identificados após filtragem através de critérios rigorosos.
Análise de enriquecimento funcional
Análise GO e KEGG dos genes parentais do circRNA
A Figura 4 abaixo mostra um gráfico de bolhas do enriquecimento funcional de genes parentais do circRNA DE através da análise GO. Fundamentalmente, a análise de GO visa desvendar os processos biológicos, localizações celulares e funções moleculares que são enriquecidos ou impactados na condição estudada, no caso, a amostra infectada pelo vírus. O enriquecimento é considerado estatisticamente significativo e plotado no gráfico de bolhas somente se o valor de p for < 0,01. Como mostrado na Figura 4, os três principais enriquecimentos para os processos biológicos (PB) incluem a biogênese do complexo ribonucleoproteico, a resposta ao vírus e a regulação da resposta a um estímulo biótico, enquanto para as funções moleculares (MF) apenas a atividade catalítica atuando no RNA e a ligação do RNA de fita simples são estatisticamente enriquecidas. Por outro lado, apenas o complexo retromérico é estatisticamente enriquecido para os componentes celulares (CC).
A Figura 5 mostra a análise de enriquecimento de KEGG dos genes parentais do circRNA DE em um gráfico de bolhas. Semelhante à análise de enriquecimento GO, o enriquecimento de KEGG só é considerado estatisticamente significativo e plotado em um gráfico de bolhas se o valor de p for < 0,01. Apenas dois termos KEGG foram enriquecidos neste caso, que são as vias Influenza A e ciclo de vida viral (HIV-1).
Figura 1: Pipeline para predição e caracterização funcional de circRNAs. O pipeline mostra uma visão geral simples das principais etapas do início ao fim, envolvendo a instalação dos pacotes de software necessários, prevendo e quantificando a expressão de circRNA, a construção da rede de ceRNA e a realização do enriquecimento funcional do gene parental de circRNA. Clique aqui para ver uma versão maior desta figura.
Figura 2: Estrutura da árvore de pastas do Circr. Essa estrutura de árvore de pastas precisa ser estabelecida antes da execução do software Circr para detectar os arquivos necessários para a análise. Clique aqui para ver uma versão maior desta figura.
Figura 3: Rede de ceRNA constituída pela interação circRNA-miRNA. A forma oval azul representa o circRNA, enquanto os triângulos laranjas representam os miRNAs. As linhas sólidas que ligam o circRNA aos miRNAs descrevem a potencial função de esponja de miRNA do circRNA hsa_DE_58. Clique aqui para ver uma versão maior desta figura.
Figura 4: Gráfico de bolhas da análise de enriquecimento de GO de genes parentais de circRNA DE. GeneRatio no eixo x é o número de genes na lista de entrada associada ao termo GO dado dividindo o número total de genes de entrada. O tamanho do ponto no gráfico é representado pelo valor de contagem, que é o número de genes na lista de entrada associados ao termo GO dado. Quanto maior o tamanho dos pontos, maior o número de genes de entrada associados ao termo. Além disso, os pontos no gráfico são codificados por cores com base no valor de p. O valor de p é calculado comparando-se a frequência observada de um termo de anotação com a frequência esperada ao acaso. Os termos individuais são considerados enriquecidos além de um valor de corte (p-valor < 0,01). O gradiente de cores do valor de p variando de azul a vermelho indica enriquecimento crescente dos termos. Clique aqui para ver uma versão maior desta figura.
Figura 5: Análise de enriquecimento de KEGG de genes parentais de circRNA DE. GeneRatio no eixo x é o número de genes na lista de entrada associada ao termo KEGG dado dividindo o número total de genes de entrada. O tamanho do ponto no gráfico é representado pelo valor de contagem, que é o número de genes na lista de entrada associados ao termo KEGG dado. Quanto maior o tamanho dos pontos, maior o número de genes de entrada associados ao termo. Além disso, os pontos no gráfico são codificados por cores com base no valor de p. O valor de p é calculado comparando-se a frequência observada de um termo de anotação com a frequência esperada ao acaso. Os termos individuais são considerados enriquecidos além de um valor de corte (p-valor < 0,01). O gradiente de cores do valor de p variando de azul a vermelho indica enriquecimento crescente dos termos. Clique aqui para ver uma versão maior desta figura.
Nome do exemplo | Caminho para o arquivo GTF de saída CIRIquant | Agrupamento |
Controle 1 | /caminho/para/CIRIquant/ctrl1.gtf | C |
Controle 2 | /caminho/para/CIRIquant/ctrl2.gtf | C |
Infectado 1 | /caminho/para/CIRIquant/infect1.gtf | T |
Infectados 2 | /caminho/para/CIRIquant/infect2.gtf | T |
Tabela 1: A preparação do arquivo .lst do CIRIquant. Os caminhos de destino das amostras de controle e tratadas da saída CIRIquant são gravados em um arquivo de texto para comparar as expressões de circRNA entre os dois tipos de amostras.
Chr | Começar | Fim | Nome | . | Praia |
chr2 | 137428930 | 137433876 | hsa_circ_000076 | . | - |
chr2 | 154705868 | 154706632 | hsa_circ_000105 | . | - |
chr2 | 159104273 | 159106793 | hsa_circ_000118 | . | - |
chr2 | 159215701 | 159226125 | hsa_circ_000119 | . | - |
chr4 | 39980067 | 39980129 | hsa_circ_002584 | . | - |
Tabela 2: Exemplo de arquivo BED para Circr. Seis colunas (Chr, Start, End, Name, Gene e Strand) associadas aos circRNAs são necessárias para gerar o arquivo BED.
circRNA_name | Tipo | miRNA_name | Tipo |
DE_circRNA_1 | circRNA | miR-001 | Mirna |
DE_circRNA_1 | circRNA | miR-002 | Mirna |
DE_circRNA_2 | circRNA | miR-003 | Mirna |
DE_circRNA_2 | circRNA | miR-004 | Mirna |
Tabela 3: Arquivo de entrada do Cytoscape. Quatro colunas (circRNA_name, Tipo, miRNA_name e Tipo) são necessárias para serem gravadas em um arquivo de texto.
CircRNA | logFC | logCPM | LR | Valor de p | DE | FDR |
chr4:17595410|17598558 | 8.167934481 | -0.039318634 | 185.5341965 | 3.00E-42 | 1 | 1,08E-37 |
chr16:18834892|18850467 | -3.955083482 | -4.397235736 | 2.982607619 | 0.08416358 | 0 | 0.282478158 |
chr14:73198031|73211942 | 2.493964729 | -4.448176684 | 2.736442046 | 0.09808293 | 0 | 0.282478158 |
Tabela 4: Parte do arquivo de saída final (.csv) do CIRIquant. O CIRIquant fornece informações como o LogFC, contagens de log por milhão (LogCPM), regressão logística (LR), valor de p, expressão diferencial e FDR.
Resultados do CIRIquant | |||
Total | DE | Em cima | Abaixo |
35846 | 306 | 306 | 0 |
Tabela 5: Resumo do número de circRNAs totais e diferencialmente expressos (DE) identificados. Um total de 35.846 circRNAs são detectados, sendo 306 circRNAs DE. Todos os 306 circRNAs DE são upregulated (sem nenhum ser downregulated) nas amostras tratadas quando comparadas às amostras controle.
Custom_Name | Annotation_Status |
hsa_DE_22 | Não Anotado |
hsa_DE_2 | Anotado |
hsa_DE_58 | Não Anotado |
hsa_DE_3 | Anotado |
Tabela 6: Tabela de nomes de circRNA personalizados com status de anotação. Os circRNAs são consultados em um banco de dados de circRNAs depositados conhecidos (circBase). Se o circRNA está presente no banco de dados, ele é marcado para ser anotado, enquanto a ausência do circRNA é rotulada como não anotada.
Tipo de CircRNA | Freq | Porcentagem |
antisenso | 10 | 3.27% |
exão | 263 | 85.95% |
intergênico | 16 | 5.23% |
íntron | 17 | 5.56% |
Tabela 7: Tipos de circRNAs identificados. Os circRNAs podem ser categorizados em diferentes tipos de circRNAs com base em sua região de sequência, a saber, exônica, intrônica, antisenso e intergênica.
Número de Genes Parentais | Freq | Porcentagem |
1 | 261 | 90% |
> 1 | 29 | 10% |
Tabela 8: Porcentagem de circRNAs com o número diferente de genes abrangidos. CircRNAs são comumente codificados a partir de exons de um gene, mas circRNAs abrangendo mais de um gene também podem ser detectados pelo CIRIquant.
Arquivo Suplementar 1: Scripts usados no protocolo. Clique aqui para baixar este arquivo.
Para ilustrar a utilidade deste protocolo, RNA-seq de células de macrófagos humanos infectadas pelo vírus influenza A foi usado como exemplo. CircRNAs funcionando como potenciais esponjas de miRNA em interações patógeno-hospedeiro e seu enriquecimento funcional GO e KEGG dentro de um hospedeiro foram investigados. Embora haja uma variedade de ferramentas circRNA disponíveis on-line, cada uma delas é um pacote autônomo que não interage entre si. Aqui, reunimos algumas das ferramentas necessárias para predição e quantificação de circRNA, enriquecimento funcional de circRNA, predição da interação circRNA-miRNA e construção de redes de ceRNA. Este protocolo simplificado economiza tempo e pode ser aplicado a amostras clínicas para detectar candidatos a circRNA com valores diagnósticos e prognósticos.
Essencialmente, empregamos o CIRIquant31, uma ferramenta de quantificação de circRNA pré-empacotada com CIRI2, que pode detectar e realizar análises de DE de circRNAs. Os circRNAs DE são filtrados com base em um valor de corte de LogFC > |2| e FDR < 0,05, que ajuda a eliminar potenciais falsos positivos em análises a jusante. A caracterização dos circRNAs DE em termos de status de anotação, tipos de circRNA e número de genes utilizados auxilia na categorização e posterior filtragem de candidatos a circRNA. Posteriormente, o Circr37, uma ferramenta de predição de circRNA-miRNA, é usado para prever potenciais candidatos a esponja de miRNA. Depois de prever potenciais miRNAs como alvos de circRNAs, uma rede de ceRNA é desenhada. Finalmente, com base nos genes parentais de circRNAs, o pacote R clusterProfiler39 é usado para anotação funcional através da análise de enriquecimento das vias GO e KEGG. Os resultados de GO e KEGG podem ajudar a desvendar os mecanismos biológicos influenciados pelos circRNAs.
Até o momento, várias ferramentas diferentes de predição de circRNA foram desenvolvidas, incluindo CIRI2 43, CIRCexplorer2 44, find_circ 45, MapSplice 46 e UROBORUS 47. Em um estudo conduzido por Hansen et al., CIRI2 é relatado para ter um alto desempenho global. Está entre as poucas ferramentas de detecção de circRNA que podem funcionar bem em termos de predição de novo e redução da identificação de falsos positivos48. O CIRIquant, que utiliza o CIRI2 para detecção e quantificação de circRNA, foi utilizado neste estudo. O CIRIquant foi utilizado para contar as leituras da junção de emenda posterior (BSJ), e os dados de contagem foram normalizados para as leituras mapeadas para cognato de RNAs lineares transcritos dos mesmos loci gênicos. Isso permite a quantificação de circRNAs em uma amostra. Para determinar a expressão diferencial de circRNAs através das condições experimentais, o CIRIquant implementou um modelo linear generalizado na borda49 para análise de DE, e o teste de razão de taxa exata foi usado como um teste estatístico para determinar a significância da diferença na razão de junção do circRNA. Embora outras ferramentas de quantificação de circRNA, como o CIRCexplorer3-CLEAR50, possam ser usadas para quantificar o nível de expressão de circRNAs, essa ferramenta só permite a quantificação de circRNA em uma amostra, pois conta as leituras BSJ em uma amostra e normaliza os dados de contagem contra as contagens de RNA linear cognato da mesma amostra. O CIRCexplorer3-CLEAR não pode comparar as expressões de circRNA em condições experimentais. Além disso, nenhuma ferramenta de análise estatística é implementada no CIRCexplorer3-CLEAR para suportar o nível de expressão quantificada. Embora a ferramenta padrão de predição de circRNA implementada no CIRIquant seja o CIRI2, os resultados de predição de outras ferramentas como find_circ e CIRCexplorer2 também podem ser utilizados para a quantificação e análise de DE31. Neste protocolo, apenas uma ferramenta de predição de circRNA (CIRI2) foi usada para predição, o que ainda pode produzir candidatos de circRNA falso-positivos. Para reduzir os falsos positivos, pode-se combinar outras ferramentas de predição de circRNA para análise e selecionar circRNAs comuns detectados entre as diferentes ferramentas de predição de circRNA48,51. Para melhorar ainda mais a detecção de circRNA, é ideal usar conjuntos de dados de sequenciamento de RNA que são ambos esgotados de rRNA e submetidos ao pré-tratamento de RNase R.
Dependendo do objetivo do estudo, circRNAs de novo e DE anotados podem ser identificados separadamente com base no banco de dados circBase52. No entanto, circRNAs abrangendo mais de um gene geralmente requerem exame manual no UCSC ou em qualquer outro navegador do genoma para determinar a autenticidade dos circRNAs e eliminar falsos positivos. No entanto, circRNAs que abrangem mais de um gene, como circRNAs derivados de genes de fusão, também foram relatadosrecentemente53,54.
Circr funciona combinando três algoritmos diferentes de previsão de miRNA-mRNA, a saber, TargetScan55, miRanda 56 e RNAhybrid57 para prever os sítios de ligação circRNA-miRNA. Além disso, o algoritmo também incorpora informações de picos de AGO e interações previamente validadas na análise circRNA-miRNA. Aqui, critérios rigorosos de filtragem foram aplicados para permitir uma predição mais confiável de circRNA-miRNA, reduzindo ainda mais os falsos positivos. No entanto, o rigor dessa etapa de filtragem pode ser definido para mais ou para menos, dependendo da preferência do usuário.
ClusterProfiler é um pacote R bem documentado que pode anotar funcionalmente conjuntos de genes em diversos organismos. Além das funções dentro do pacote R clusterProfiler mencionadas neste protocolo (enrichGO e enrichKEGG), que utilizam análise de sobre-representação, existem também outras funções como gseGO e gseKEGG que podem ser usadas. Se clusterProfiler não é uma escolha adequada para o fluxo de trabalho, existem também outras ferramentas e pacotes, como o "AllEnricher"58 ou as ferramentas baseadas em sites, como o "Metascape"59, que podem anotar funcionalmente um conjunto de genes. Por fim, embora o pipeline fornecido acima ajude a prever potenciais circRNAs e suas anotações funcionais, a verificação em laboratório úmido será necessária para fornecer evidências sólidas.
Os autores não têm nada a revelar.
O autor gostaria de agradecer a Tan Ke En e ao Dr. Cameron Bracken pela revisão crítica deste manuscrito. Este trabalho foi apoiado por bolsas do Fundamental Research Grant Scheme (FRGS/1/2020/SKK0/UM/02/15) e University of Malaya High Impact Research Grant (UM. C/625/1/HIR/MOE/CHAN/02/07).
Name | Company | Catalog Number | Comments |
Bedtools | GitHub | https://github.com/arq5x/bedtools2/ | Referring to section 4.1.2. Needed for Circr. |
BWA | Burrows-Wheeler Aligner | http://bio-bwa.sourceforge.net/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome |
Circr | GitHub | https://github.com/bicciatolab/Circr | Referring to section 4. Use to predict the miRNA binding sites |
CIRIquant | GitHub | https://github.com/bioinfo-biols/CIRIquant | Referring to section 2.1.3. To predict circRNAs |
Clusterprofiler | GitHub | https://github.com/YuLab-SMU/clusterProfiler | Referring to section 7. For GO and KEGG functional enrichment |
CPU | Intel | Intel(R) Xeon(R) CPU E5-2620 V2 @ 2.10 GHz Cores: 6-core CPU Memory: 65 GB Graphics card: NVIDIA GK107GL (QUADRO K2000) | Specifications used to run this entire protocol. |
Cytoscape | Cytoscape | https://cytoscape.org/download.html | Referring to section 5.2. Needed to plot ceRNA network |
FastQC | Babraham Bioinformatics | https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ | Referring to section 1.2.1. Quality checking on Fastq files |
HISAT2 | http://daehwankimlab.github.io/hisat2/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome | |
Linux | Ubuntu 20.04.5 LTS (Focal Fossa) | https://releases.ubuntu.com/focal/ | Needed to run the entire protocol. Other Ubuntu versions may still be valid to carry out the protocol. |
miRanda | http://www.microrna.org/microrna/getDownloads.do | Referring to section 4.1.2. Needed for Circr | |
Pybedtools | pybedtools 0.8.2 | https://pypi.org/project/pybedtools/ | Needed for BED file genomic manipulation |
Python | Python 2.7 and 3.6 or abover | https://www.python.org/downloads/ | To run necessary library modules |
R | The Comprehensive R Archive Network | https://cran.r-project.org/ | To manipulate dataframes |
RNAhybrid | BiBiServ | https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid | Referring to section 4.1.2. Needed for Circr |
RStudio | RStudio | https://www.rstudio.com/ | A workspace to run R |
samtools | SAMtools | http://www.htslib.org/ | Referring to section 2.1.2. Needed to run CIRIquant |
StringTie | Johns Hopkins University: Center for Computational Biology | http://ccb.jhu.edu/software/stringtie/index.shtml | Referring to section 2.1.2. Needed to run CIRIquant |
TargetScan | GitHub | https://github.com/nsoranzo/targetscan | Referring to section 4.1.2. Needed for Circr |
Solicitar permissão para reutilizar o texto ou figuras deste artigo JoVE
Solicitar PermissãoThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Todos os direitos reservados