Method Article
Il protocollo qui presentato spiega la pipeline completa in silico necessaria per prevedere e caratterizzare funzionalmente i circRNA dai dati del trascrittoma di sequenziamento dell'RNA che studiano le interazioni ospite-patogeno.
Gli RNA circolari (circRNA) sono una classe di RNA non codificanti che si formano tramite back-splicing. Questi circRNA sono prevalentemente studiati per il loro ruolo di regolatori di vari processi biologici. In particolare, prove emergenti dimostrano che i circRNA dell'ospite possono essere espressi in modo differenziale (DE) dopo l'infezione da agenti patogeni (ad esempio, influenza e coronavirus), suggerendo un ruolo per i circRNA nella regolazione delle risposte immunitarie innate dell'ospite. Tuttavia, le indagini sul ruolo dei circRNA durante le infezioni patogene sono limitate dalle conoscenze e dalle competenze necessarie per effettuare le analisi bioinformatiche necessarie per identificare i circRNA DE dai dati di sequenziamento dell'RNA (RNA-seq). La previsione bioinformatica e l'identificazione dei circRNA è fondamentale prima di qualsiasi verifica e gli studi funzionali utilizzano tecniche di laboratorio umido costose e dispendiose in termini di tempo. Per risolvere questo problema, in questo manoscritto viene fornito un protocollo passo-passo di previsione in silico e caratterizzazione dei circRNA utilizzando i dati RNA-seq. Il protocollo può essere suddiviso in quattro fasi: 1) Predizione e quantificazione dei circRNA DE tramite la pipeline CIRIquant; 2) Annotazione tramite circBase e caratterizzazione di circRNA DE; 3) Predizione dell'interazione CircRNA-miRNA attraverso pipeline Circr; 4) analisi dell'arricchimento funzionale di geni parentali circRNA utilizzando Gene Ontology (GO) e Kyoto Encyclopedia of Genes and Genomes (KEGG). Questa pipeline sarà utile per guidare la futura ricerca in vitro e in vivo per svelare ulteriormente il ruolo dei circRNA nelle interazioni ospite-patogeno.
Le interazioni ospite-patogeno rappresentano una complessa interazione tra i patogeni e gli organismi ospiti, che innesca le risposte immunitarie innate degli ospiti che alla fine si traducono nella rimozione dei patogeni invasori 1,2. Durante le infezioni patogene, una moltitudine di geni immunitari dell'ospite è regolata per inibire la replicazione e il rilascio di agenti patogeni. Ad esempio, i geni comuni stimolati dall'interferone (ISG) regolati sulle infezioni patogene includono ADAR1, IFIT1, IFIT2, IFIT3, ISG20, RIG-I e OASL 3,4. Oltre ai geni codificanti proteine, gli studi hanno anche riportato che anche gli RNA non codificanti come gli RNA lunghi non codificanti (lncRNA), i microRNA (miRNA) e gli RNA circolari (circRNA) svolgono un ruolo e sono regolati contemporaneamente durante le infezioni patogene 5,6,7. A differenza dei geni codificanti proteine che codificano principalmente le proteine come molecole funzionali, gli RNA non codificanti (ncRNA) sono noti per funzionare come regolatori dei geni a livello trascrizionale e post-trascrizionale. Tuttavia, gli studi che coinvolgono la partecipazione di RNA non codificanti, in particolare circRNA, nella regolazione dei geni immunitari degli ospiti non sono ben riportati rispetto ai geni codificanti proteine.
I circRNA sono ampiamente caratterizzati dalla loro struttura ad anello continuo covalentemente chiusa, che viene generata attraverso un processo di splicing non canonico chiamato back-splicing8. Il processo di back-splicing, a differenza del processo di splicing di RNA lineari affini, comporta la legatura del sito donatore a valle al sito accettore a monte, formando una struttura di forma circolare. Attualmente sono stati proposti tre diversi meccanismi di back-splicing per la biogenesi dei circRNA. Si tratta della circolarizzazione mediata dalla proteina legante l'RNA (RBP) 9,10, della circolarizzazione guidata dall'intron-pairing 11 e della circolarizzazione guidata da lariat12,13,14. Dato che i circRNA sono collegati end-to-end in una struttura circolare, tendono ad essere naturalmente resistenti alle normali digestioni esonucleasi e, quindi, sono considerati più stabili delle loro controparti lineari15. Un'altra caratteristica comune esibita dai circRNA include l'espressione specifica del tipo di cellula o tessuto negli ospiti16.
Come implicato dalla loro struttura unica e dall'espressione specifica della cellula o del tessuto, è stato scoperto che i circRNA svolgono importanti funzioni biologiche nelle cellule. Ad oggi, una delle funzioni di spicco dei circRNA è il loro ruolo di spugne microRNA (miRNA)17,18. Questo ruolo regolatore dei circRNA avviene attraverso il legame complementare dei nucleotidi circRNA con la regione seme dei miRNA. Tale interazione circRNA-miRNA inibisce le normali funzioni regolatrici dei miRNA sugli mRNA bersaglio, regolando così l'espressione dei geni19,20. Inoltre, i circRNA sono anche noti per regolare l'espressione genica interagendo con le proteine leganti l'RNA (RBP) e formando complessi RNA-proteina21. Sebbene i circRNA siano classificati come RNA non codificanti, ci sono anche prove che i circRNA possono fungere da modelli per la traduzione proteica22,23,24.
Recentemente, è stato dimostrato che i circRNA svolgono un ruolo fondamentale nella regolazione delle interazioni ospite-patogeno, in particolare tra gli ospiti e i virus. Generalmente, si presume che i circRNA dell'ospite aiutino a regolare le risposte immunitarie dell'ospite per eliminare i patogeni invasori. Un esempio di circRNA che promuove le risposte immunitarie dell'ospite è circRNA_0082633, riportato da Guo et al.25. Questo circRNA migliora la segnalazione dell'interferone di tipo I (IFN) all'interno delle cellule A549, che aiuta a sopprimere la replicazione del virus dell'influenza25. Inoltre, Qu et al. hanno anche riportato un circRNA intronico umano, chiamato circRNA AIVR, che promuove l'immunità regolando l'espressione della proteina legante CREB (CREBBP), un trasduttore di segnale di IFN-β26,27. Tuttavia, esistono anche circRNA che sono noti per promuovere la patogenesi della malattia dopo l'infezione. Ad esempio, Yu et al. hanno recentemente riportato il ruolo svolto da un circRNA spliced dal dominio delle dita di zinco GATA contenente il gene 2A (circGATAD2A) nel promuovere la replicazione del virus H1N1 attraverso l'inibizione dell'autofagia28 della cellula ospite.
Per studiare efficacemente i circRNA, viene solitamente implementato un algoritmo di predizione del circRNA a livello di genoma, seguito da una caratterizzazione in silico dei candidati circRNA previsti prima che possano essere condotti studi funzionali. Tale approccio bioinformatico per prevedere e caratterizzare i circRNA è meno costoso e più efficiente in termini di tempo. Aiuta a perfezionare il numero di candidati da studiare funzionalmente e potrebbe potenzialmente portare a nuove scoperte. Qui, forniamo un protocollo dettagliato basato sulla bioinformatica per l'identificazione in silico , la caratterizzazione e l'annotazione funzionale dei circRNA durante le interazioni ospite-patogeno. Il protocollo include l'identificazione e la quantificazione di circRNA da set di dati di sequenziamento dell'RNA, l'annotazione tramite circBase e la caratterizzazione dei candidati circRNA in termini di tipi di circRNA, numero di geni sovrapposti e interazioni circRNA-miRNA previste. Questo studio fornisce anche l'annotazione funzionale dei geni parentali circRNA attraverso l'analisi dell'arricchimento di Gene Ontology (GO) e della Kyoto Encyclopedia of Genes and Genomes (KEGG).
In questo protocollo, i set di dati della libreria RNA-seq impoveriti di RNA ribosomiale (rRNA) de-identificati preparati dalle cellule macrofagiche umane infette da virus dell'influenza A sono stati scaricati e utilizzati dal database Gene Expression Omnibus (GEO). L'intera pipeline bioinformatica dalla predizione alla caratterizzazione funzionale dei circRNA è riassunta nella Figura 1. Ogni parte della pipeline è ulteriormente spiegata nelle sezioni seguenti.
1. Preparazione, download e configurazione prima dell'analisi dei dati
NOTA: tutti i pacchetti software utilizzati in questo studio sono gratuiti e open source.
2. Predizione e analisi dell'espressione differenziale di circRNA utilizzando CIRIquant
NOTA: Un manuale più dettagliato sull'installazione e l'esecuzione dell'analisi delle espressioni differenziali è disponibile nella sezione relativa alla disponibilità del codice del documento CIRIquant31. I dati supplementari includono anche alcuni dei comandi di base utilizzati in questo protocollo.
3. Caratterizzazione e annotazione dei circRNA DE previsti
4. Prevedere l'interazione circRNA-miRNA usando Circr
NOTA: Un manuale più dettagliato su come installare e utilizzare Circr per l'analisi dell'interazione circRNA-miRNA può essere trovato all'indirizzo: https://github.com/bicciatolab/Circr37.
5. Costruzione della rete di ceRNA
NOTA: Un manuale dettagliato su come usare Cytoscape è disponibile all'indirizzo: http://manual.cytoscape.org/en/stable/ e https://github.com/cytoscape/cytoscape-tutorials/wiki#introduction
6. Analisi dell'arricchimento funzionale
Il protocollo arruolato nella sezione precedente è stato modificato e configurato per adattarsi al sistema operativo Linux. Il motivo principale è che la maggior parte delle librerie di moduli e dei pacchetti coinvolti nell'analisi dei circRNA possono funzionare solo sulla piattaforma Linux. In questa analisi, i set di dati della libreria RNA-seq impoveriti di RNA ribosomiale (rRNA) de-identificati preparati dalle cellule macrofagiche umane infette da virus dell'influenza A sono stati scaricati dal database GEO42 e utilizzati per generare i risultati rappresentativi.
Predizione e quantificazione del CircRNA
In questa analisi, sono stati utilizzati set di dati della libreria RNA-seq impoveriti di RNA ribosomiale (rRNA) preparati dalle cellule macrofagiche umane infette dal virus dell'influenza A per effettuare il rilevamento del circRNA e l'analisi funzionale. Come specificato nella sezione protocollo, CIRIquant è stato utilizzato per identificare ed eseguire l'analisi DE dei circRNA identificati utilizzando i set di dati della libreria RNA-seq come input. I file di riferimento utilizzati si basano sull'ultima versione del genoma umano (hg38). La tabella 4 mostra un esempio dell'output finale dell'analisi CIRIquant. L'identificazione e il filtraggio dei circRNA DE dall'output di CIRIquant sono stati eseguiti attraverso semplici script RStudio (Supplementary File 1). I CircRNA sono classificati come DE solo quando il valore del tasso di falsa scoperta (FDR) è <0,05 e il cambiamento di piega logaritmico (LogFC) >|2|. La Tabella 5 mostra il numero totale di circRNA e circRNA DE rilevati. Sono stati rilevati un totale di 35.846 circRNA, di cui 306 DE. I circRNA DE rilevati in questo output sono interamente sovraregolati (LogFC > 2), con nessuno sottoregolato (LogFC < 2).
Annotazione e caratterizzazione dei circRNA DE
Stato di annotazione dei circRNA DE
I circRNA DE identificati sono stati sottoposti a controlli incrociati con un database di circRNA consolidato, circBase. Tuttavia, poiché le coordinate circRNA depositate in circBase sono basate su una precedente versione del genoma umano (hg19), le coordinate circRNA di circBase devono essere convertite nella versione corrente del genoma umano (hg38) per il controllo incrociato in questo studio. Inoltre, la coordinata iniziale deve essere convertita in base a 0 dall'output basato su 1 di CIRIquant. Le coordinate circRNA convertite in versione hg38 di circBase sono fornite in una cartella di unità in Github (https://github.com/bicciatolab/Circr)37. Quindi, gli script Rstudio (Supplementary File 1) sono stati utilizzati per assegnare lo stato di annotazione dei circRNA in una nuova colonna di frame di dati. La Tabella 6 mostra un esempio di circRNA con lo stato dell'annotazione.
Caratterizzazione dei circRNA DE
Questa parte è stata interamente eseguita tramite script R nel software RStudio. Gli script R facilitano i processi analitici e sono richieste solo conoscenze di base.
Tipi di circRNA
In questa fase, i circRNA DE sono stati caratterizzati dai loro tipi di circRNA (Antisenso, Esonico, Intergenico e Intronico) in base alle loro posizioni genomiche. La tabella 7 sottostante mostra la ripartizione percentuale dei diversi tipi di circRNA compresi nei circRNA DE identificati. Dei 306 circRNA DE totali, 263 circRNA (85,95%) sono stati identificati come circRNA esonici, che è il tipo di circRNA più abbondante identificato. I circRNA intronici sono il secondo tipo di circRNA più identificato che comprende 17 circRNA DE, costituendo fino al 5,56% del totale dei circRNA DE. Questo è seguito da circRNA intergenici (16 DE circRNA ~ 5,23%) e circRNA antisenso (10 DE circRNA ~ 3,27%).
Numero di geni distribuiti per circRNA
I circRNA identificati da CIRIquant possono sovrapporsi tra un certo numero di geni. Ad oggi, la maggior parte degli studi si concentra su circRNA che abbracciano un gene. Quindi, in questo protocollo, i candidati circRNA che coprono più di un gene sono esclusi dall'analisi a valle. La seguente tabella 8 descrive il numero e la percentuale di circRNA DE che coprono uno e più di un gene. In questa tabella, i circRNA intergenici (16 circRNA DE) sono esclusi poiché non si sovrappongono a nessun gene ospite, mentre il resto dei tipi di circRNA (290 circRNA DE) sono sottoposti a questa analisi. Dei 290 circRNA DE, la maggior parte dei circRNA DE (261 circRNA ~90%) abbracciano un solo gene, mentre i restanti 29 circRNA (~10%) coprono più di un gene.
Costruzione della rete di ceRNA
Una rete di ceRNA viene solitamente disegnata per visualizzare le interazioni circRNA-miRNA dopo che è stata prevista. Nella Figura 3 qui sotto, solo un circRNA DE è stato scelto come risultato rappresentativo, che è il hsa_DE_58 circRNA. Sulla base delle previsioni di Circr, hsa_DE_58 può spugnare fino a nove diversi miRNA. Questi nove miRNA vengono identificati dopo essere filtrati attraverso criteri rigorosi.
Analisi dell'arricchimento funzionale
Analisi GO e KEGG dei geni parentali circRNA
La Figura 4 qui sotto mostra un grafico a bolle dell'arricchimento funzionale dei geni parentali del circRNA DE attraverso l'analisi GO. Fondamentalmente, l'analisi GO mira a svelare i processi biologici, le posizioni cellulari e le funzioni molecolari che sono arricchite o influenzate nella condizione studiata, in questo caso, il campione infetto da virus. L'arricchimento è considerato statisticamente significativo e tracciato sul grafico a bolle solo se il valore p è < 0,01. Come mostrato in Figura 4, i primi tre arricchimenti per i processi biologici (BP) includono la biogenesi del complesso ribonucleoproteico, la risposta al virus e la regolazione della risposta a uno stimolo biotico, mentre per le funzioni molecolari (MF) solo l'attività catalitica che agisce sull'RNA e il legame dell'RNA a singolo filamento sono statisticamente arricchiti. D'altra parte, solo il complesso del retromero è statisticamente arricchito per i componenti cellulari (CC).
La Figura 5 mostra l'analisi di arricchimento KEGG dei geni parentali del circRNA DE in un grafico a bolle. Analogamente all'analisi dell'arricchimento GO, l'arricchimento KEGG è considerato statisticamente significativo e tracciato su un grafico a bolle solo se il valore p è < 0,01. Solo due termini KEGG sono stati arricchiti in questo caso, che sono i percorsi dell'influenza A e del ciclo di vita virale (HIV-1).
Figura 1: La pipeline per la predizione e la caratterizzazione funzionale dei circRNA. La pipeline mostra una semplice panoramica dei passaggi chiave dall'inizio alla fine che coinvolgono l'installazione dei pacchetti software necessari, la previsione e la quantificazione dell'espressione del circRNA, la costruzione della rete di ceRNA e l'esecuzione dell'arricchimento funzionale del gene parentale circRNA. Fare clic qui per visualizzare una versione ingrandita di questa figura.
Figura 2: Struttura ad albero delle cartelle per Circr. Questa struttura ad albero delle cartelle deve essere stabilita prima di eseguire il software Circr al fine di rilevare i file richiesti per l'analisi. Fare clic qui per visualizzare una versione ingrandita di questa figura.
Figura 3: Rete di ceRNA costituita dall'interazione circRNA-miRNA. La forma ovale blu rappresenta il circRNA, mentre i triangoli arancioni rappresentano i miRNA. Le linee solide che collegano il circRNA ai miRNA descrivono la potenziale funzione di spugnatura dei miRNA del hsa_DE_58 circRNA. Fare clic qui per visualizzare una versione ingrandita di questa figura.
Figura 4: Grafico a bolle dell'analisi dell'arricchimento GO dei geni parentali del circRNA DE. GeneRatio sull'asse x è il numero di geni nella lista di input associati al termine GO dato che divide il numero totale di geni di input. La dimensione del punto nel grafico è rappresentata dal valore di conteggio, che è il numero di geni nella lista di input associati al termine GO dato. Maggiore è la dimensione dei punti, maggiore è il numero di geni di input associati al termine. Inoltre, i punti nella trama sono codificati a colori in base al valore p. Il valore P viene calcolato confrontando la frequenza osservata di un termine di annotazione con la frequenza prevista per caso. I singoli termini sono considerati arricchiti oltre un valore limite (valore p < 0,01). Il gradiente di colore del valore p che va dal blu al rosso indica un crescente arricchimento dei termini. Fare clic qui per visualizzare una versione ingrandita di questa figura.
Figura 5: Analisi dell'arricchimento KEGG dei geni parentali del circRNA DE. GeneRatio sull'asse x è il numero di geni nella lista di input associati al termine KEGG dato che divide il numero totale di geni di input. La dimensione del punto nel grafico è rappresentata dal valore di conteggio, che è il numero di geni nella lista di input associati al termine KEGG dato. Maggiore è la dimensione dei punti, maggiore è il numero di geni di input associati al termine. Inoltre, i punti nella trama sono codificati a colori in base al valore p. Il valore P viene calcolato confrontando la frequenza osservata di un termine di annotazione con la frequenza prevista per caso. I singoli termini sono considerati arricchiti oltre un valore limite (valore p < 0,01). Il gradiente di colore del valore p che va dal blu al rosso indica un crescente arricchimento dei termini. Fare clic qui per visualizzare una versione ingrandita di questa figura.
Nome del campione | Percorso del file GTF di output CIRIquant | Raggruppamento |
Controllo 1 | /percorso/a/CIRIquant/ctrl1.gtf | C |
Controllo 2 | /percorso/a/CIRIquant/ctrl2.gtf | C |
Infetti 1 | /percorso/a/CIRIquant/infect1.gtf | T |
Infetti 2 | /percorso/a/CIRIquant/infect2.gtf | T |
Tabella 1: La preparazione del file .lst di CIRIquant. I percorsi di destinazione dei campioni di controllo e trattati dall'output CIRIquant sono scritti in un file di testo per confrontare le espressioni di circRNA tra i due tipi di campioni.
Chr | Inizio | Fine | Nome | . | Trefolo |
CHR2 | 137428930 | 137433876 | hsa_circ_000076 | . | - |
CHR2 | 154705868 | 154706632 | hsa_circ_000105 | . | - |
CHR2 | 159104273 | 159106793 | hsa_circ_000118 | . | - |
CHR2 | 159215701 | 159226125 | hsa_circ_000119 | . | - |
CHR4 | 39980067 | 39980129 | hsa_circ_002584 | . | - |
Tabella 2: Esempio di file BED per Circr. Sei colonne (Chr, Start, End, Name, Gene e Strand) associate ai circRNA sono necessarie per generare il file BED.
circRNA_name | Digitare | miRNA_name | Digitare |
DE_circRNA_1 | circRNA | miR-001 | Mirna |
DE_circRNA_1 | circRNA | miR-002 | Mirna |
DE_circRNA_2 | circRNA | miR-003 | Mirna |
DE_circRNA_2 | circRNA | miR-004 | Mirna |
Tabella 3: File di input di Cytoscape. Quattro colonne (circRNA_name, Type, miRNA_name e Type) devono essere scritte in un file di testo.
CircRNA | logFC | logCPM | LR | Valore Pvalue | DE | FDR |
chr4:17595410|17598558 | 8.167934481 | -0.039318634 | 185.5341965 | 3,00E-42 | 1 | 1,08E-37 |
Chr16:18834892|18850467 | -3.955083482 | -4.397235736 | 2.982607619 | 0.08416358 | 0 | 0.282478158 |
Chr14:73198031|73211942 | 2.493964729 | -4.448176684 | 2.736442046 | 0.09808293 | 0 | 0.282478158 |
Tabella 4: Parte del file di output finale (.csv) di CIRIquant. CIRIquant fornisce informazioni quali LogFC, conteggi di log per milione (LogCPM), regressione logistica (LR), valore p, espressione differenziale e FDR.
Risultati CIRIquant | |||
Totale | DE | Su | Giù |
35846 | 306 | 306 | 0 |
Tabella 5: Una sintesi del numero di circRNA totali e differenzialmente espressi (DE) identificati. Sono stati rilevati un totale di 35.846 circRNA, di cui 306 circRNA DE. Tutti i 306 circRNA DE sono sovraregolati (nessuno è sottoregolato) nei campioni trattati rispetto ai campioni di controllo.
Custom_Name | Annotation_Status |
hsa_DE_22 | Non annotato |
hsa_DE_2 | Annotato |
hsa_DE_58 | Non annotato |
hsa_DE_3 | Annotato |
Tabella 6: Tabella dei nomi di circRNA personalizzati con stato di annotazione. I CircRNA vengono interrogati in un database di circRNA depositati noti (circBase). Se il circRNA è presente all'interno del database, è etichettato per essere annotato, mentre l'assenza del circRNA è etichettato come non annotato.
Tipo di circRNA | Freq | Percentuale |
antisenso | 10 | 3.27% |
esone | 263 | 85.95% |
intergenico | 16 | 5.23% |
introne | 17 | 5.56% |
Tabella 7: Tipi di circRNA identificati. I circRNA possono essere ulteriormente classificati in diversi tipi di circRNA in base alla loro regione di sequenza, vale a dire, esonici, introtronici, antisenso e intergenici.
Numero di geni parentali | Freq | Percentuale |
1 | 261 | 90% |
> 1 | 29 | 10% |
Tabella 8: Percentuale di circRNA con il diverso numero di geni abbracciati. I circRNA sono comunemente codificati da esoni di un gene, ma i circRNA che coprono più di un gene possono anche essere rilevati da CIRIquant.
File supplementare 1: script utilizzati nel protocollo. Clicca qui per scaricare questo file.
Per illustrare l'utilità di questo protocollo, è stato utilizzato come esempio RNA-seq da cellule macrofagiche umane infette da virus dell'influenza A. Sono stati studiati i circRNA che funzionano come potenziali spugne miRNA nelle interazioni ospite-patogeno e il loro arricchimento funzionale GO e KEGG all'interno di un ospite. Sebbene ci sia una varietà di strumenti circRNA disponibili online, ognuno di essi è un pacchetto autonomo che non interagisce tra loro. Qui, abbiamo messo insieme alcuni degli strumenti necessari per la previsione e la quantificazione del circRNA, l'arricchimento funzionale del circRNA, la previsione dell'interazione circRNA-miRNA e la costruzione della rete di ceRNA. Questo protocollo semplificato consente di risparmiare tempo e può essere applicato a campioni clinici per rilevare candidati circRNA con valori diagnostici e prognostici.
Essenzialmente, abbiamo impiegato CIRIquant31, uno strumento di quantificazione del circRNA preconfezionato con CIRI2, in grado di rilevare ed eseguire l'analisi DE dei circRNA. I circRNA DE sono filtrati in base a un valore di cut-off di LogFC > |2| e FDR < 0,05, che aiuta a eliminare potenziali falsi positivi nelle analisi a valle. La caratterizzazione dei circRNA DE in termini di stato di annotazione, tipi di circRNA e numero di geni abbracciati aiuta a categorizzare e filtrare ulteriormente i candidati circRNA. Successivamente, Circr37, uno strumento di previsione circRNA-miRNA, viene utilizzato per prevedere potenziali candidati di spugnaggio di miRNA. Dopo aver predetto i potenziali miRNA come bersagli dei circRNA, viene disegnata una rete di ceRNA. Infine, sulla base dei geni parentali dei circRNA, il pacchetto R clusterProfiler39 viene utilizzato per l'annotazione funzionale tramite l'analisi di arricchimento del pathway GO e KEGG. I risultati di GO e KEGG possono aiutare a svelare i meccanismi biologici influenzati dai circRNA.
Ad oggi, sono stati sviluppati diversi strumenti di previsione del circRNA, tra cui CIRI2 43, CIRCexplorer2 44, find_circ 45, MapSplice 46 e UROBORUS 47. In uno studio condotto da Hansen et al., CIRI2 è segnalato per avere un'elevata performance complessiva. È tra i pochi strumenti di rilevamento del circRNA che possono funzionare bene in termini di predizione de novo e riduzione dell'identificazione dei falsi positivi48. CIRIquant, che utilizza CIRI2 per il rilevamento e la quantificazione del circRNA, è stato quindi utilizzato in questo studio. CIRIquant è stato utilizzato per contare le letture della giunzione posteriore (BSJ) e i dati di conteggio sono stati normalizzati alle letture mappate su RNA lineari affini trascritti dallo stesso loci genetico. Ciò consente la quantificazione dei circRNA in un campione. Per determinare l'espressione differenziale dei circRNA in condizioni sperimentali, CIRIquant ha implementato un modello lineare generalizzato in edgeR49 per l'analisi DE e l'esatto test del rapporto di velocità è stato utilizzato come test statistico per determinare il significato della differenza nel rapporto di giunzione del circRNA. Sebbene altri strumenti di quantificazione del circRNA come CIRCexplorer3-CLEAR50 possano essere utilizzati per quantificare il livello di espressione dei circRNA, questo strumento consente solo la quantificazione del circRNA in un campione mentre conta le letture BSJ in un campione e normalizza i dati di conteggio rispetto ai conteggi di RNA lineare affini dallo stesso campione. CIRCexplorer3-CLEAR non è in grado di confrontare le espressioni di circRNA in condizioni sperimentali. Inoltre, nessuno strumento di analisi statistica è implementato in CIRCexplorer3-CLEAR per supportare il livello di espressione quantificato. Sebbene lo strumento di previsione circRNA predefinito implementato all'interno di CIRIquant sia CIRI2, i risultati della previsione da altri strumenti come find_circ e CIRCexplorer2 possono essere utilizzati anche per la quantificazione e l'analisi DE31. In questo protocollo, solo uno strumento di previsione del circRNA (CIRI2) è stato utilizzato per la previsione, che potrebbe ancora produrre candidati circRNA falsi positivi. Per ridurre i falsi positivi, è possibile combinare altri strumenti di predizione del circRNA per l'analisi e selezionare circRNA comuni rilevati tra i diversi strumenti di previsione del circRNA48,51. Per migliorare ulteriormente il rilevamento del circRNA, è ideale utilizzare set di dati di sequenziamento dell'RNA che sono sia impoveriti di rRNA che sottoposti a pre-trattamento RNasi R.
A seconda dell'obiettivo dello studio, i circRNA DE de novo e annotati possono essere identificati separatamente sulla base del database circBase52. Tuttavia, i circRNA che coprono più di un gene spesso richiedono un esame manuale su UCSC o qualsiasi altro browser del genoma per determinare l'autenticità dei circRNA ed eliminare i falsi positivi. Tuttavia, i circRNA che abbracciano più di un gene, come i circRNA derivati da geni di fusione, sono stati recentemente riportati anche53,54.
Circr funziona combinando tre diversi algoritmi di previsione miRNA-mRNA, vale a dire, TargetScan55, miRanda 56 e RNAhybrid57 per prevedere i siti di legame circRNA-miRNA. Inoltre, l'algoritmo incorpora anche informazioni sui picchi di AGO e interazioni precedentemente convalidate nell'analisi circRNA-miRNA. Qui, sono stati applicati rigorosi criteri di filtraggio per consentire di ottenere una previsione circRNA-miRNA più affidabile, riducendo così ulteriormente i falsi positivi. Tuttavia, la rigidità di questo passaggio di filtro potrebbe essere impostata su un livello superiore o inferiore a seconda delle preferenze dell'utente.
ClusterProfiler è un pacchetto R ben documentato che può annotare funzionalmente set di geni in diversi organismi. Oltre alle funzioni all'interno del pacchetto R clusterProfiler menzionate in questo protocollo (enrichGO e enrichKEGG), che utilizzano l'analisi di sovrarappresentazione, ci sono anche altre funzioni come gseGO e gseKEGG che possono essere utilizzate. Se clusterProfiler non è una scelta adatta per il flusso di lavoro, ci sono anche altri strumenti e pacchetti come "AllEnricher"58 o strumenti basati su siti Web come "Metascape"59 che possono annotare funzionalmente un insieme di geni. Infine, sebbene la pipeline fornita sopra aiuti a prevedere potenziali circRNA e le loro annotazioni funzionali, sarà necessaria una verifica di laboratorio umido per fornire prove solide.
Gli autori non hanno nulla da rivelare.
L'autore desidera ringraziare Tan Ke En e il Dr. Cameron Bracken per la loro recensione critica di questo manoscritto. Questo lavoro è stato sostenuto da sovvenzioni del Fundamental Research Grant Scheme (FRGS/1/2020/SKK0/UM/02/15) e dell'University of Malaya High Impact Research Grant (UM. C/625/1/HIR/MOE/CHAN/02/07).
Name | Company | Catalog Number | Comments |
Bedtools | GitHub | https://github.com/arq5x/bedtools2/ | Referring to section 4.1.2. Needed for Circr. |
BWA | Burrows-Wheeler Aligner | http://bio-bwa.sourceforge.net/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome |
Circr | GitHub | https://github.com/bicciatolab/Circr | Referring to section 4. Use to predict the miRNA binding sites |
CIRIquant | GitHub | https://github.com/bioinfo-biols/CIRIquant | Referring to section 2.1.3. To predict circRNAs |
Clusterprofiler | GitHub | https://github.com/YuLab-SMU/clusterProfiler | Referring to section 7. For GO and KEGG functional enrichment |
CPU | Intel | Intel(R) Xeon(R) CPU E5-2620 V2 @ 2.10 GHz Cores: 6-core CPU Memory: 65 GB Graphics card: NVIDIA GK107GL (QUADRO K2000) | Specifications used to run this entire protocol. |
Cytoscape | Cytoscape | https://cytoscape.org/download.html | Referring to section 5.2. Needed to plot ceRNA network |
FastQC | Babraham Bioinformatics | https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ | Referring to section 1.2.1. Quality checking on Fastq files |
HISAT2 | http://daehwankimlab.github.io/hisat2/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome | |
Linux | Ubuntu 20.04.5 LTS (Focal Fossa) | https://releases.ubuntu.com/focal/ | Needed to run the entire protocol. Other Ubuntu versions may still be valid to carry out the protocol. |
miRanda | http://www.microrna.org/microrna/getDownloads.do | Referring to section 4.1.2. Needed for Circr | |
Pybedtools | pybedtools 0.8.2 | https://pypi.org/project/pybedtools/ | Needed for BED file genomic manipulation |
Python | Python 2.7 and 3.6 or abover | https://www.python.org/downloads/ | To run necessary library modules |
R | The Comprehensive R Archive Network | https://cran.r-project.org/ | To manipulate dataframes |
RNAhybrid | BiBiServ | https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid | Referring to section 4.1.2. Needed for Circr |
RStudio | RStudio | https://www.rstudio.com/ | A workspace to run R |
samtools | SAMtools | http://www.htslib.org/ | Referring to section 2.1.2. Needed to run CIRIquant |
StringTie | Johns Hopkins University: Center for Computational Biology | http://ccb.jhu.edu/software/stringtie/index.shtml | Referring to section 2.1.2. Needed to run CIRIquant |
TargetScan | GitHub | https://github.com/nsoranzo/targetscan | Referring to section 4.1.2. Needed for Circr |
Richiedi autorizzazione per utilizzare il testo o le figure di questo articolo JoVE
Richiedi AutorizzazioneThis article has been published
Video Coming Soon