Method Article
Le protocole soumis ici explique le pipeline in silico complet nécessaire pour prédire et caractériser fonctionnellement les circRNA à partir de données de transcriptome de séquençage de l’ARN étudiant les interactions hôte-pathogène.
Les ARN circulaires (circRNA) sont une classe d’ARN non codants qui sont formés par épissage arrière. Ces circRNA sont principalement étudiés pour leurs rôles de régulateurs de divers processus biologiques. Notamment, de nouvelles preuves démontrent que les circRNA de l’hôte peuvent être exprimés de manière différentielle (DE) lors de l’infection par des agents pathogènes (p. ex. grippe et coronavirus), ce qui suggère un rôle pour les ARNcirc dans la régulation des réponses immunitaires innées de l’hôte. Cependant, les recherches sur le rôle des circRNA lors d’infections pathogènes sont limitées par les connaissances et les compétences requises pour effectuer l’analyse bioinformatique nécessaire pour identifier les circRNA DE à partir des données de séquençage de l’ARN (RNA-seq). La prédiction bioinformatique et l’identification des circRNA sont cruciales avant toute vérification et études fonctionnelles utilisant des techniques de laboratoire humide coûteuses et longues. Pour résoudre ce problème, un protocole étape par étape de prédiction et de caractérisation in silico des circRNA à l’aide de données RNA-seq est fourni dans ce manuscrit. Le protocole peut être divisé en quatre étapes : 1) Prédiction et quantification des circRNA DE via le pipeline CIRIquant ; 2) Annotation via circBase et caractérisation des circRNAs DE; 3) Prédiction de l’interaction CircRNA-miARN par pipeline Circr; 4) analyse de l’enrichissement fonctionnel des gènes parentaux circRNA à l’aide de l’ontologie génique (GO) et de l’Encyclopédie des gènes et des génomes de Kyoto (KEGG). Ce pipeline sera utile pour mener de futures recherches in vitro et in vivo afin de mieux comprendre le rôle des circRNA dans les interactions hôte-pathogène.
Les interactions hôte-pathogène représentent une interaction complexe entre les agents pathogènes et les organismes hôtes, qui déclenche les réponses immunitaires innées des hôtes qui finissent par entraîner l’élimination des agents pathogènes envahisseurs 1,2. Au cours des infections pathogènes, une multitude de gènes immunitaires de l’hôte sont régulés pour inhiber la réplication et la libération d’agents pathogènes. Par exemple, les gènes communs stimulés par l’interféron (ISG) régulés sur les infections pathogènes comprennent ADAR1, IFIT1, IFIT2, IFIT3, ISG20, RIG-I et OASL 3,4. Outre les gènes codant pour les protéines, des études ont également rapporté que les ARN non codants tels que les longs ARN non codants (ARNnc), les microARN (miARN) et les ARN circulaires (ARNcirc) jouent également un rôle et sont régulés simultanément lors d’infections pathogènes 5,6,7. Contrairement aux gènes codant pour des protéines qui codent principalement des protéines en tant que molécules fonctionnelles, les ARN non codants (ARNnc) sont connus pour fonctionner comme régulateurs des gènes aux niveaux transcriptionnel et post-transcriptionnel. Cependant, les études impliquant la participation d’ARN non codants, en particulier les circRNA, dans la régulation des gènes immunitaires des hôtes ne sont pas bien rapportées par rapport aux gènes codant pour les protéines.
Les circRNA sont largement caractérisés par leur structure de boucle continue fermée par covalence, qui est générée par un processus d’épissage non canonique appelé back-sprisage8. Le processus d’épissage arrière, contrairement au processus d’épissage des ARN linéaires apparentés, implique la ligature du site donneur en aval vers le site accepteur en amont, formant une structure de forme circulaire. Actuellement, trois mécanismes différents d’épissage inverse pour la biogenèse des circRNAs ont été proposés. Il s’agit de la circularisation médiée par la protéine de liaison à l’ARN(RBP) 9,10, de la circularisation induite par l’appariement d’introns 11 et de la circularisation induite par le lariat12,13,14. Étant donné que les circRNA sont connectés bout à bout dans une structure circulaire, ils ont tendance à être naturellement résistants aux digestions normales des exonucléases et, par conséquent, sont considérés comme plus stables que leurs homologues linéaires15. Une autre caractéristique commune présentée par les circRNA comprend l’expression spécifique au type de cellule ou de tissu chez les hôtes16.
Comme l’impliquent leur structure unique et leur expression spécifique à la cellule ou au tissu, on a découvert que les circRNA jouent des fonctions biologiques importantes dans les cellules. À ce jour, l’une des fonctions importantes des circRNA est leur rôle en tant qu’éponges de microARN (miARN)17,18. Ce rôle régulateur des circRNA se produit par la liaison complémentaire des nucléotides circRNA avec la région semencière des miARN. Une telle interaction circRNA-miARN inhibe les fonctions régulatrices normales des miARN sur les ARNm cibles, régulant ainsi l’expression des gènes19,20. De plus, les circRNA sont également connus pour réguler l’expression des gènes en interagissant avec les protéines de liaison à l’ARN (RBP) et en formant des complexes ARN-protéine21. Bien que les circRNA soient classés comme ARN non codants, il existe également des preuves que les circRNA peuvent servir de modèles pour la traduction des protéines22,23,24.
Récemment, il a été démontré que les circRNA jouent un rôle central dans la régulation des interactions hôte-pathogène, en particulier entre les hôtes et les virus. En général, les circRNA de l’hôte sont supposés aider à réguler les réponses immunitaires de l’hôte pour éliminer les agents pathogènes envahisseurs. Un exemple de circRNA qui favorise les réponses immunitaires de l’hôte est circRNA_0082633, rapporté par Guo et al.25. Ce circRNA améliore la signalisation de l’interféron de type I (IFN) dans les cellules A549, ce qui aide à supprimer la réplication du virus de la grippe25. De plus, Qu et al. ont également signalé un circRNA intronique humain, appelé circRNA AIVR, qui favorise l’immunité en régulant l’expression de la protéine de liaison CREB (CREBBP), un transducteur de signal de l’IFN-β26,27. Cependant, il existe également des circRNA connus pour favoriser la pathogenèse de la maladie lors de l’infection. Par exemple, Yu et al. ont récemment rapporté le rôle joué par un circRNA épissé à partir du domaine du doigt de zinc GATA contenant le gène 2A (circGATAD2A) dans la promotion de la réplication du virus H1N1 par l’inhibition de l’autophagie de la cellule hôte28.
Pour étudier efficacement les circRNA, un algorithme de prédiction circRNA à l’échelle du génome est généralement mis en œuvre, suivi d’une caractérisation in silico des candidats circRNA prédits avant que toute étude fonctionnelle puisse être réalisée. Une telle approche bioinformatique pour prédire et caractériser les circRNA est moins coûteuse et plus rapide. Il aide à affiner le nombre de candidats à étudier fonctionnellement et pourrait potentiellement conduire à de nouvelles découvertes. Ici, nous fournissons un protocole bioinformatique détaillé pour l’identification in silico , la caractérisation et l’annotation fonctionnelle des circRNA au cours des interactions hôte-pathogène. Le protocole comprend l’identification et la quantification des circRNA à partir d’ensembles de données de séquençage d’ARN, l’annotation via circBase et la caractérisation des candidats circRNA en termes de types circRNA, de nombre de gènes qui se chevauchent et d’interactions circRNA-miARN prévues. Cette étude fournit également l’annotation fonctionnelle des gènes parentaux circRNA par le biais de l’ontologie génique (GO) et de l’analyse d’enrichissement de l’Encyclopédie des gènes et des génomes de Kyoto (KEGG).
Dans ce protocole, des ensembles de données de bibliothèque de séquençage d’ARN ribosomique (ARNr) appauvris en ARN dépersonnalisés, préparés à partir de cellules de macrophages humains infectées par le virus de la grippe A, ont été téléchargés et utilisés à partir de la base de données GEO (Gene Expression Omnibus). L’ensemble du pipeline bioinformatique, de la prédiction à la caractérisation fonctionnelle des circRNA, est résumé à la figure 1. Chaque partie du pipeline est expliquée plus en détail dans les sections ci-dessous.
1. Préparation, téléchargement et configuration avant l’analyse des données
NOTE: Tous les progiciels utilisés dans cette étude sont gratuits et open-source.
2. Prédiction et analyse d’expression différentielle des circRNA à l’aide de CIRIquant
REMARQUE : Un manuel plus détaillé sur l’installation et l’exécution de l’analyse d’expression différentielle se trouve dans la section disponibilité du code du document CIRIquant31. Les données supplémentaires incluent également certaines des commandes de base utilisées dans ce protocole.
3. Caractérisation et annotation des circRNAs DE prédits
4. Prédire l’interaction circRNA-miARN à l’aide de Circr
REMARQUE: Un manuel plus détaillé sur la façon d’installer et d’utiliser Circr pour l’analyse de l’interaction circRNA-miARN peut être trouvé à: https://github.com/bicciatolab/Circr37.
5. Construction du réseau ceRNA
REMARQUE: Un manuel détaillé sur la façon d’utiliser Cytoscape peut être trouvé à: http://manual.cytoscape.org/en/stable/ et https://github.com/cytoscape/cytoscape-tutorials/wiki#introduction
6. Analyse de l’enrichissement fonctionnel
Le protocole enrôlé dans la section précédente a été modifié et configuré pour s’adapter au système d’exploitation Linux. La raison principale est que la plupart des bibliothèques de modules et des paquets impliqués dans l’analyse des circRNA ne peuvent fonctionner que sur la plate-forme Linux. Dans cette analyse, des ensembles de données de bibliothèques de séquences d’ARN ribosomique (ARNr) appauvries en ARN dépersonnalisées préparées à partir des cellules de macrophages humains infectées par le virus de la grippe A ont été téléchargés à partir de la base de données GEO42 et utilisés pour générer les résultats représentatifs.
Prédiction et quantification de l’ARNcir
Dans cette analyse, des ensembles de données de bibliothèques de séquences d’ARN appauvri en ARN ribosomique (ARNr) préparés à partir de cellules de macrophages humains infectées par le virus de la grippe A ont été utilisés pour effectuer la détection et l’analyse fonctionnelle de l’ARNc. Comme spécifié dans la section protocole, CIRIquant a été utilisé pour identifier et effectuer l’analyse DE des circRNA identifiés en utilisant les ensembles de données de la bibliothèque RNA-seq comme entrée. Les fichiers de référence utilisés sont basés sur la dernière version du génome humain (hg38). Le tableau 4 présente un exemple de résultat final de l’analyse CIRIquant. L’identification et le filtrage des circRNA DE à partir de la sortie CIRIquant ont été exécutés à l’aide de scripts RStudio simples (fichier supplémentaire 1). Les CircRNA ne sont classés comme DE que lorsque la valeur du taux de fausse découverte (FDR) est de <0,05 et que le changement de pli logarithmique (LogFC) >|2|. Le tableau 5 montre le nombre total de circRNAs et de circRNAs DE détectés. Au total, 35 846 circRNA ont été détectés, dont 306 DE. Les circRNAs DE détectés dans cette sortie sont entièrement régulés à la hausse (LogFC > 2), aucun n’étant régulé à la baisse (LogFC < 2).
Annotation et caractérisation des circRNAs DE
Statut d’annotation des circRNAs DE
Les circRNAs DE identifiés ont été recoupés avec une base de données circRNA établie, circBase. Cependant, étant donné que les coordonnées circRNA déposées dans circBase sont basées sur une version antérieure du génome humain (hg19), les coordonnées circRNA de circBase doivent être converties en version actuelle du génome humain (hg38) pour recoupement dans cette étude. En outre, la coordonnée de départ doit être convertie en base 0 à partir de la sortie de base 1 de CIRIquant. Les coordonnées circRNA de circBase converties en version hg38 sont fournies dans un dossier de lecteur dans Github (https://github.com/bicciatolab/Circr)37. Ensuite, les scripts Rstudio (fichier supplémentaire 1) ont été utilisés pour attribuer le statut d’annotation des circRNA dans une nouvelle colonne de trame de données. Le tableau 6 montre un exemple de circRNA avec le statut d’annotation.
Caractérisation des circRNAs DE
Cette partie a été entièrement exécutée via des scripts R dans le logiciel RStudio. Les scripts R facilitent les processus analytiques et seules des connaissances de base sont requises.
Types de CircRNA
Dans cette étape, les circRNA DE ont été caractérisés par leurs types circRNA (Antisense, Exonic, Intergenic, et Intronic) en fonction de leurs positions génomiques. Le tableau 7 ci-dessous montre la répartition en pourcentage des différents types de circRNA englobés par les circRNA DE identifiés. Sur un total de 306 circRNA DE, 263 circRNA (85,95%) ont été identifiés comme étant des circRNA exoniques, qui est le type circRNA le plus abondant identifié. Les circRNA introniques sont le deuxième type de circRNA le plus identifié comprenant 17 circRNA DE, représentant jusqu’à 5,56% du total des circRNA DE. Viennent ensuite les circRNAs intergéniques (16 circRNAs DE ~5,23%) et les circRNAs antisens (10 circRNAs DE ~3,27%).
Nombre de gènes couverts par circRNA
Les ARNcirc identifiés par CIRIquant peuvent se chevaucher sur un certain nombre de gènes. À ce jour, la plupart des études sont axées sur les circRNA qui couvrent un gène. Par conséquent, dans ce protocole, les candidats circRNA couvrant plus d’un gène sont exclus de l’analyse en aval. Le tableau 8 ci-dessous décrit le nombre et le pourcentage de circRNA DE couvrant un et plusieurs gènes. Dans ce tableau, les circRNA intergéniques (16 circRNAs DE) sont exclus car ils ne chevauchent aucun gène hôte, tandis que les autres types de circRNA (290 circRNAs DE) sont soumis à cette analyse. Sur les 290 circRNA DE, la majorité des circRNA DE (261 circRNAs ~90%) ne couvrent qu’un seul gène, tandis que les 29 circRNAs restants (~10%) couvrent plus d’un gène.
Construction du réseau ceRNA
Un réseau de céRNA est généralement dessiné pour visualiser les interactions circRNA-miARN après qu’il a été prédit. Dans la figure 3 ci-dessous, un seul circRNA DE a été choisi comme résultat représentatif, qui est le circRNA hsa_DE_58. Sur la base des prédictions Circr, hsa_DE_58 peut éponger jusqu’à neuf miARN différents. Ces neuf miARN sont identifiés après filtrage à travers des critères stricts.
Analyse de l’enrichissement fonctionnel
Analyse GO et KEGG des gènes parentaux circRNA
La figure 4 ci-dessous représente un diagramme à bulles de l’enrichissement fonctionnel des gènes parentaux DE circRNA par l’analyse GO. Fondamentalement, l’analyse GO vise à démêler les processus biologiques, les emplacements cellulaires et les fonctions moléculaires qui sont enrichis ou affectés dans la condition étudiée, dans ce cas, l’échantillon infecté par le virus. L’enrichissement est considéré comme statistiquement significatif et représenté sur le graphique à bulles uniquement si la valeur de p est < 0,01. Comme le montre la figure 4, les trois principaux enrichissements pour les processus biologiques (BP) comprennent la biogenèse du complexe ribonucléoprotéique, la réponse au virus et la régulation de la réponse à un stimulus biotique, tandis que pour les fonctions moléculaires (MF), seule l’activité catalytique agissant sur l’ARN et la liaison à l’ARN simple brin sont statistiquement enrichies. En revanche, seul le complexe rétromère est statistiquement enrichi pour les composants cellulaires (CC).
La figure 5 montre l’analyse d’enrichissement KEGG des gènes parentaux DE circRNA dans un diagramme à bulles. À l’instar de l’analyse de l’enrichissement GO, l’enrichissement de KEGG n’est considéré comme statistiquement significatif et tracé sur un graphique à bulles que si la valeur de p est < 0,01. Seuls deux termes KEGG ont été enrichis dans ce cas, qui sont les voies de la grippe A et du cycle de vie viral (VIH-1).
Figure 1 : Le pipeline pour la prédiction et la caractérisation fonctionnelle des circRNA. Le pipeline montre un aperçu simple des étapes clés du début à la fin impliquant l’installation des progiciels nécessaires, la prédiction et la quantification de l’expression de circRNA, la construction du réseau ceRNA et l’exécution de l’enrichissement fonctionnel du gène parental circRNA. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 2 : Structure de l’arborescence des dossiers pour Circr. Cette arborescence de dossiers doit être établie avant d’exécuter le logiciel Circr afin de détecter les fichiers requis pour l’analyse. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 3 : réseau ceRNA constitué de l’interaction circRNA-miRNA. La forme ovale bleue représente le circRNA, tandis que les triangles orange représentent les miARN. Les lignes continues reliant le circRNA aux miARN décrivent la fonction potentielle d’éponge des miARN du circRNA hsa_DE_58. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 4 : Graphique à bulles de l’analyse de l’enrichissement GO des gènes parentaux de l’ARNc DE. GeneRatio sur l’axe des x est le nombre de gènes dans la liste d’entrée associée au terme GO donné divisant le nombre total de gènes d’entrée. La taille des points dans le graphique est représentée par la valeur de comptage, qui est le nombre de gènes dans la liste d’entrée associée au terme GO donné. Plus la taille des points est grande, plus le nombre de gènes d’entrée associés au terme est important. En outre, les points du tracé sont codés par couleur en fonction de la valeur p. La valeur de p est calculée en comparant la fréquence observée d’un terme d’annotation avec la fréquence attendue par hasard. Les termes individuels sont considérés comme enrichis au-delà d’une valeur seuil (valeur de p < 0,01). Le dégradé de couleur de la valeur p allant du bleu au rouge indique un enrichissement croissant des termes. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Figure 5 : Analyse d’enrichissement KEGG des gènes parentaux circRNA DE. GeneRatio sur l’axe des x est le nombre de gènes dans la liste d’entrée associée au terme KEGG donné divisant le nombre total de gènes d’entrée. La taille des points dans le graphique est représentée par la valeur de comptage, qui est le nombre de gènes dans la liste d’entrée associée au terme KEGG donné. Plus la taille des points est grande, plus le nombre de gènes d’entrée associés au terme est important. En outre, les points du tracé sont codés par couleur en fonction de la valeur p. La valeur de p est calculée en comparant la fréquence observée d’un terme d’annotation avec la fréquence attendue par hasard. Les termes individuels sont considérés comme enrichis au-delà d’une valeur seuil (p-value < 0,01). Le dégradé de couleur de la valeur p allant du bleu au rouge indique un enrichissement croissant des termes. Veuillez cliquer ici pour voir une version agrandie de cette figure.
Nom de l’échantillon | Chemin d’accès au fichier GTF de sortie CIRIquant | Groupement |
Contrôle 1 | /chemin/vers/CIRIquant/ctrl1.gtf | C |
Contrôle 2 | /chemin/vers/CIRIquant/ctrl2.gtf | C |
Infecté 1 | /chemin/vers/CIRIquant/infect1.gtf | T |
Infecté 2 | /chemin/vers/CIRIquant/infect2.gtf | T |
Tableau 1 : Préparation du fichier .lst de CIRIquant. Les chemins de destination des échantillons témoins et traités de la sortie CIRIquant sont écrits dans un fichier texte pour comparer les expressions de circRNA entre les deux types d’échantillons.
Chr | Commencer | Fin | Nom | . | Brin |
chr2 | 137428930 | 137433876 | hsa_circ_000076 | . | - |
chr2 | 154705868 | 154706632 | hsa_circ_000105 | . | - |
chr2 | 159104273 | 159106793 | hsa_circ_000118 | . | - |
chr2 | 159215701 | 159226125 | hsa_circ_000119 | . | - |
CHR4 | 39980067 | 39980129 | hsa_circ_002584 | . | - |
Tableau 2 : Exemple de fichier BED pour Circr. Six colonnes (Chr, Start, End, Name, Gene et Strand) associées aux circRNAs sont nécessaires pour générer le fichier BED.
circRNA_name | Type | miRNA_name | Type |
DE_circRNA_1 | circRNA | miR-001 | Mirna |
DE_circRNA_1 | circRNA | miR-002 | Mirna |
DE_circRNA_2 | circRNA | miR-003 | Mirna |
DE_circRNA_2 | circRNA | miR-004 | Mirna |
Tableau 3 : Fichier d’entrée Cytoscape. Quatre colonnes (circRNA_name, Type, miRNA_name et Type) doivent être écrites dans un fichier texte.
ARNcirc | logFC | logCPM | LR | Valeur | DE | FDR |
chr4:17595410|17598558 | 8.167934481 | -0.039318634 | 185.5341965 | 3.00E-42 | 1 | 1.08E-37 |
chr16:18834892|18850467 | -3.955083482 | -4.397235736 | 2.982607619 | 0.08416358 | 0 | 0.282478158 |
chr14:73198031|73211942 | 2.493964729 | -4.448176684 | 2.736442046 | 0.09808293 | 0 | 0.282478158 |
Tableau 4 : Partie du fichier de sortie finale (.csv) de CIRIquant. CIRIquant fournit des informations telles que le LogFC, le nombre de logs par million (LogCPM), la régression logistique (LR), la valeur p, l’expression différentielle et le FDR.
Résultats CIRIquant | |||
Total | DE | En haut | En bas |
35846 | 306 | 306 | 0 |
Tableau 5 : Un résumé du nombre de circRNA totaux et exprimés différentiellement (DE) identifiés. Au total, 35 846 circRNA sont détectés, dont 306 sont des circRNA DE. Tous les 306 circRNA DE sont régulés à la hausse (aucun n’étant régulé à la baisse) dans les échantillons traités par rapport aux échantillons témoins.
Custom_Name | Annotation_Status |
hsa_DE_22 | Non annoté |
hsa_DE_2 | Annotée |
hsa_DE_58 | Non annoté |
hsa_DE_3 | Annotée |
Tableau 6 : Tableau des noms de circRNA personnalisés avec statut d’annotation. Les circRNAs sont interrogés dans une base de données de circRNAs déposés connus (circBase). Si le circRNA est présent dans la base de données, il est étiqueté pour être annoté, tandis que l’absence du circRNA est étiqueté comme non annoté.
CircRNA Type | Freq | Pourcentage |
antisens | 10 | 3.27% |
exon | 263 | 85.95% |
intergénique | 16 | 5.23% |
intron | 17 | 5.56% |
Tableau 7 : Types de circRNAs identifiés. Les circRNA peuvent être classés en différents types de circRNAs en fonction de leur région de séquence, à savoir, exonique, intronique, antisens et intergénique.
Nombre de gènes parentaux | Freq | Pourcentage |
1 | 261 | 90% |
> 1 | 29 | 10% |
Tableau 8 : Pourcentage de circRNA avec le nombre différent de gènes couverts. Les circRNA sont généralement codés à partir d’exons d’un gène, mais les circRNAs couvrant plus d’un gène peuvent également être détectés par CIRIquant.
Fichier supplémentaire 1 : Scripts utilisés dans le protocole. Veuillez cliquer ici pour télécharger ce fichier.
Pour illustrer l’utilité de ce protocole, le séquençage de l’ARN provenant de cellules de macrophages humains infectées par le virus de la grippe A a été utilisé comme exemple. Les circRNA fonctionnant comme des éponges miARN potentielles dans les interactions hôte-pathogène et leur enrichissement fonctionnel GO et KEGG au sein d’un hôte ont été étudiés. Bien qu’il existe une variété d’outils circRNA disponibles en ligne, chacun d’eux est un package autonome qui n’interagit pas les uns avec les autres. Ici, nous rassemblons quelques-uns des outils nécessaires à la prédiction et à la quantification des circRNA, à l’enrichissement fonctionnel des circRNA, à la prédiction de l’interaction circRNA-miARN et à la construction du réseau ceRNA. Ce protocole simplifié permet de gagner du temps et peut être appliqué à des échantillons cliniques pour détecter les candidats circRNA avec des valeurs diagnostiques et pronostiques.
Essentiellement, nous avons utilisé CIRIquant31, un outil de quantification circRNA pré-emballé avec CIRI2, qui peut détecter et effectuer une analyse DE des circRNA. Les circRNAs DE sont filtrés en fonction d’une valeur seuil de LogFC > |2| et le FDR < 0,05, ce qui aide à éliminer les faux positifs potentiels dans les analyses en aval. La caractérisation des circRNA DE en termes de statut d’annotation, de types de circRNA et de nombre de gènes couverts aide à catégoriser et à filtrer davantage les candidats circRNA. Par la suite, Circr37, un outil de prédiction circRNA-miRNA, est utilisé pour prédire les candidats potentiels à l’éponge miARN. Après avoir prédit les miARN potentiels en tant que cibles des circRNA, un réseau de ceRNA est dessiné. Enfin, sur la base des gènes parentaux des circRNA, le package R clusterProfiler39 est utilisé pour l’annotation fonctionnelle via l’analyse d’enrichissement des voies GO et KEGG. Les résultats de GO et KEGG peuvent aider à démêler les mécanismes biologiques influencés par les circRNA.
À ce jour, plusieurs outils de prédiction de circRNA ont été développés, notamment CIRI2 43, CIRCexplorer2 44, find_circ 45, MapSplice46 et UROBORUS 47. Dans une étude menée par Hansen et al., CIRI2 aurait une performance globale élevée. C’est l’un des rares outils de détection de circRNA qui peut bien fonctionner en termes de prédiction de novo et de réduction de l’identification faussement positive48. CIRIquant, qui utilise CIRI2 pour la détection et la quantification de circRNA, a donc été utilisé dans cette étude. CIRIquant a été utilisé pour compter les lectures de jonction d’épissure arrière (BSJ), et les données de comptage ont été normalisées aux lectures mappées pour cogner des ARN linéaires transcrits à partir des mêmes loci de gènes. Cela permet de quantifier les circRNA dans un échantillon. Pour déterminer l’expression différentielle des circRNA dans des conditions expérimentales, CIRIquant a implémenté un modèle linéaire généralisé dans edgeR49 pour l’analyse DE, et le test exact-rapport de vitesse a été utilisé comme test statistique pour déterminer la signification de la différence dans le rapport de jonction circRNA. Bien que d’autres outils de quantification de circRNA tels que CIRCexplorer3-CLEAR50 puissent être utilisés pour quantifier le niveau d’expression des circRNA, cet outil ne permet que la quantification circRNA dans un échantillon car il compte les lectures BSJ dans un échantillon et normalise les données de comptage par rapport aux comptes d’ARN linéaires apparentés du même échantillon. CIRCexplorer3-CLEAR ne peut pas comparer les expressions de circRNA dans des conditions expérimentales. De plus, aucun outil d’analyse statistique n’est implémenté dans CIRCexplorer3-CLEAR pour soutenir le niveau d’expression quantifié. Bien que l’outil de prédiction circRNA par défaut implémenté dans CIRIquant soit CIRI2, les résultats de prédiction d’autres outils tels que find_circ et CIRCexplorer2 peuvent également être utilisés pour la quantification et l’analyse DE31. Dans ce protocole, un seul outil de prédiction circRNA (CIRI2) a été utilisé pour la prédiction, ce qui pourrait encore produire des candidats circRNA faussement positifs. Pour réduire les faux positifs, on peut combiner d’autres outils de prédiction de circRNA pour l’analyse et sélectionner les circRNAs communs détectés parmi les différents outils de prédiction circRNA48,51. Pour améliorer encore la détection des circRNA, il est idéal d’utiliser des ensembles de données de séquençage de l’ARN qui sont à la fois appauvris en ARNr et soumis à un prétraitement de la RNase R.
Selon l’objectif de l’étude, les circRNA DE de novo et annotés peuvent être identifiés séparément sur la base de la base de données circBase52. Cependant, les circRNA couvrant plus d’un gène nécessitent souvent un examen manuel sur UCSC ou tout autre navigateur génomique pour déterminer l’authenticité des circRNA et éliminer les faux positifs. Néanmoins, des circRNAs qui couvrent plus d’un gène, tels que les circRNAs dérivés de gènes de fusion, ont également été signalés récemment53,54.
Circr fonctionne en combinant trois algorithmes de prédiction miARN-ARNm différents, à savoir TargetScan55, miRanda 56 et RNAhybrid57 pour prédire les sites de liaison circRNA-miARN. En plus de cela, l’algorithme intègre également des informations sur les pics d’AGO et les interactions précédemment validées dans l’analyse circRNA-miARN. Ici, des critères de filtrage stricts ont été appliqués pour permettre une prédiction circRNA-miARN plus fiable, réduisant ainsi davantage les faux positifs. Cependant, la rigueur de cette étape de filtrage peut être définie à la hausse ou à la baisse en fonction des préférences de l’utilisateur.
ClusterProfiler est un package R bien documenté qui peut annoter fonctionnellement des ensembles de gènes dans divers organismes. Outre les fonctions du paquet R clusterProfiler mentionnées dans ce protocole (enrichGO et enrichKEGG), qui utilisent l’analyse de surreprésentation, il existe également d’autres fonctions telles que gseGO et gseKEGG qui peuvent être utilisées. Si clusterProfiler n’est pas un choix approprié pour le flux de travail, il existe également d’autres outils et packages tels que « AllEnricher"58 ou les outils basés sur des sites Web tels que « Metascape"59 qui peuvent annoter fonctionnellement un ensemble de gènes. Enfin, bien que le pipeline fourni ci-dessus aide à prédire les circRNA potentiels et leurs annotations fonctionnelles, une vérification en laboratoire humide sera nécessaire pour fournir des preuves solides.
Les auteurs n’ont rien à divulguer.
L’auteur tient à remercier Tan Ke En et le Dr Cameron Bracken pour leur examen critique de ce manuscrit. Ce travail a été soutenu par des subventions du programme de subventions de recherche fondamentale (FRGS / 1 / 2020 / SKK0 / UM / 02/15) et de la subvention de recherche à fort impact de l’Université de Malaisie (UM. C/625/1/HIR/MOE/CHAN/02/07).
Name | Company | Catalog Number | Comments |
Bedtools | GitHub | https://github.com/arq5x/bedtools2/ | Referring to section 4.1.2. Needed for Circr. |
BWA | Burrows-Wheeler Aligner | http://bio-bwa.sourceforge.net/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome |
Circr | GitHub | https://github.com/bicciatolab/Circr | Referring to section 4. Use to predict the miRNA binding sites |
CIRIquant | GitHub | https://github.com/bioinfo-biols/CIRIquant | Referring to section 2.1.3. To predict circRNAs |
Clusterprofiler | GitHub | https://github.com/YuLab-SMU/clusterProfiler | Referring to section 7. For GO and KEGG functional enrichment |
CPU | Intel | Intel(R) Xeon(R) CPU E5-2620 V2 @ 2.10 GHz Cores: 6-core CPU Memory: 65 GB Graphics card: NVIDIA GK107GL (QUADRO K2000) | Specifications used to run this entire protocol. |
Cytoscape | Cytoscape | https://cytoscape.org/download.html | Referring to section 5.2. Needed to plot ceRNA network |
FastQC | Babraham Bioinformatics | https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ | Referring to section 1.2.1. Quality checking on Fastq files |
HISAT2 | http://daehwankimlab.github.io/hisat2/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome | |
Linux | Ubuntu 20.04.5 LTS (Focal Fossa) | https://releases.ubuntu.com/focal/ | Needed to run the entire protocol. Other Ubuntu versions may still be valid to carry out the protocol. |
miRanda | http://www.microrna.org/microrna/getDownloads.do | Referring to section 4.1.2. Needed for Circr | |
Pybedtools | pybedtools 0.8.2 | https://pypi.org/project/pybedtools/ | Needed for BED file genomic manipulation |
Python | Python 2.7 and 3.6 or abover | https://www.python.org/downloads/ | To run necessary library modules |
R | The Comprehensive R Archive Network | https://cran.r-project.org/ | To manipulate dataframes |
RNAhybrid | BiBiServ | https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid | Referring to section 4.1.2. Needed for Circr |
RStudio | RStudio | https://www.rstudio.com/ | A workspace to run R |
samtools | SAMtools | http://www.htslib.org/ | Referring to section 2.1.2. Needed to run CIRIquant |
StringTie | Johns Hopkins University: Center for Computational Biology | http://ccb.jhu.edu/software/stringtie/index.shtml | Referring to section 2.1.2. Needed to run CIRIquant |
TargetScan | GitHub | https://github.com/nsoranzo/targetscan | Referring to section 4.1.2. Needed for Circr |
Demande d’autorisation pour utiliser le texte ou les figures de cet article JoVE
Demande d’autorisationThis article has been published
Video Coming Soon