Method Article
여기에 제출된 프로토콜은 숙주-병원체 상호작용을 연구하는 RNA 시퀀싱 전사체 데이터에서 circRNA를 예측하고 기능적으로 특성화하는 데 필요한 완전한 인실리코 파이프라인을 설명합니다.
원형 RNA(circRNA)는 역접합을 통해 형성되는 비암호화 RNA의 한 부류입니다. 이러한 circRNA는 다양한 생물학적 과정의 조절자로서의 역할에 대해 주로 연구됩니다. 특히, 새로운 증거는 숙주 circRNA가 병원체(예: 인플루엔자 및 코로나바이러스)에 감염될 때 차등적으로 발현(DE)될 수 있음을 보여주며, 이는 숙주 선천성 면역 반응을 조절하는 circRNA의 역할을 시사합니다. 그러나 병원성 감염 동안 circRNA의 역할에 대한 조사는 RNA 시퀀싱(RNA-seq) 데이터에서 DE circRNA를 식별하는 데 필요한 생물정보학적 분석을 수행하는 데 필요한 지식과 기술에 의해 제한됩니다. circRNA의 생물정보학 예측 및 식별은 검증에 앞서 중요하며, 비용과 시간이 많이 소요되는 습식 실험실 기술을 사용한 기능 연구도 중요합니다. 이 문제를 해결하기 위해 RNA-seq 데이터를 사용하여 circRNA의 in silico 예측 및 특성화에 대한 단계별 프로토콜이 이 원고에 제공됩니다. 프로토콜은 4 단계로 나눌 수 있습니다 : 1) CIRIquant 파이프 라인을 통한 DE circRNA의 예측 및 정량화; 2) circBase를 통한 주석 및 DE circRNA의 특성화; 3) Circr 파이프라인을 통한 CircRNA-miRNA 상호작용 예측; 4) 유전자 온톨로지(Gene Ontology, GO)와 교토 유전자 및 게놈 백과사전(Kyoto Encyclopedia of Genes and Genomes, KEGG)을 이용한 circRNA 모유전자의 기능적 농축 분석. 이 파이프라인은 숙주-병원체 상호작용에서 circRNA의 역할을 더욱 밝히기 위해 미래의 시험관 내 및 생체 내 연구를 추진하는 데 유용할 것입니다.
숙주-병원체 상호작용은 병원체와 숙주 유기체 사이의 복잡한 상호작용을 나타내며, 이는 숙주의 선천적 면역 반응을 유발하여 결국 침입하는 병원체를 제거한다 1,2. 병원성 감염 동안, 다수의 숙주 면역 유전자는 병원체의 복제 및 방출을 억제하도록 조절된다. 예를 들어, 병원성 감염에 따라 조절되는 일반적인 인터페론 자극 유전자 (ISG)는 ADAR1, IFIT1, IFIT2, IFIT3, ISG20, RIG-I 및 OASL 3,4를 포함한다. 단백질 코딩 유전자 외에도, 연구에서는 긴 비암호화 RNA(lncRNA), 마이크로 RNA(miRNA) 및 원형 RNA(circRNA)와 같은 비암호화 RNA도 병원성 감염동안 역할을 하고 동시에 조절된다고 보고했습니다 5,6,7. 단백질을 기능적 분자로 주로 암호화하는 단백질 코딩 유전자와 달리, 비암호화 RNA(ncRNA)는 전사 및 전사 후 수준에서 유전자의 조절자로서 기능하는 것으로 알려져 있습니다. 그러나 숙주의 면역 유전자를 조절하는 데 비암호화 RNA, 특히 circRNA의 참여와 관련된 연구는 단백질 코딩 유전자에 비해 잘 보고되지 않았습니다.
CircRNA는 백스플라이싱(back-splicing)이라고 하는 비정준 스플라이싱 프로세스를 통해 생성되는 공유 폐쇄 연속 루프 구조를 특징으로 한다8. 동족 선형 RNA의 스플라이싱 과정과 달리 역접합 과정은 다운스트림 기증자 부위를 업스트림 수용체 부위로 결찰하여 원형 구조를 형성하는 과정을 포함합니다. 현재, circRNA의 생물 발생을 위한 세 가지 다른 역접합 메커니즘이 제안되었습니다. 이들은 RNA 결합 단백질(RBP) 매개 순환화(intron-pairing-driven circularization) 9,10, 인트론-페어링-유도 순환화(intron-pairing-driven circularization) 11 및 라리아트-유도 순환화(lariat-driven circularization)12,13,14이다. circRNA가 원형 구조에서 종단 간 연결되어 있다는 점을 감안할 때, 이들은 정상적인 엑소뉴클레아제 소화에 자연적으로 내성을 갖는 경향이 있으며, 따라서 선형 대응물보다 더 안정적인 것으로 간주됩니다15. circRNAs에 의해 나타나는 또 다른 공통적인 특징은 숙주에서의 세포 또는 조직 유형-특이적 발현을 포함한다16.
독특한 구조와 세포 또는 조직 특이적 발현에서 알 수 있듯이 circRNA는 세포에서 중요한 생물학적 기능을 수행하는 것으로 밝혀졌습니다. 현재까지, circRNAs의 두드러진 기능 중 하나는 microRNA (miRNA) 스폰지로서의 역할이다17,18. circRNA의 이러한 조절 역할은 circRNA 뉴클레오티드와 miRNA의 종자 영역의 상보적 결합을 통해 발생합니다. 이러한 circRNA-miRNA 상호작용은 표적 mRNA에 대한 miRNA의 정상적인 조절 기능을 억제하여 유전자19,20의 발현을 조절합니다. 또한, circRNA는 RNA 결합 단백질(RBP)과 상호작용하고 RNA-단백질 복합체를 형성함으로써 유전자 발현을 조절하는 것으로도 알려져 있다21. circRNA는 비암호화 RNA로 분류되지만 circRNA가 단백질 번역을 위한 주형으로 작용할 수 있다는 증거도 있습니다22,23,24.
최근에, circRNA는 숙주-병원체 상호작용, 특히 숙주와 바이러스 사이의 상호작용을 조절하는 데 중추적인 역할을 하는 것으로 입증되었습니다. 일반적으로 숙주 circRNA는 침입하는 병원체를 제거하기 위해 숙주의 면역 반응을 조절하는 데 도움이 되는 것으로 가정합니다. 숙주 면역 반응을 촉진하는 circRNA의 예는 Guo et al.25에 의해 보고된 circRNA_0082633입니다. 이 circRNA는 A549 세포 내에서 I형 인터페론(IFN) 신호 전달을 향상시켜 인플루엔자 바이러스 복제를 억제하는 데 도움이 된다25. 또한, Qu et al. IFN-β26,27의 신호 변환기인 CREB 결합 단백질(CREBBP)의 발현을 조절하여 면역을 촉진하는 circRNA AIVR이라고 하는 인간 인트로닉 circRNA도 보고했습니다. 그러나, 감염 시 질병의 발병기전을 촉진하는 것으로 알려진 circRNA도 존재한다. 예를 들어, Yu 등은 최근 숙주 세포 자가포식의 억제를 통해 H1N1 바이러스 복제를 촉진하는 데 있어 2A 유전자(circGATAD2A)를 포함하는 GATA 징크 핑거 도메인에서 스플라이싱된 circRNA가 수행하는 역할을 보고했습니다(28).
circRNA를 효과적으로 연구하기 위해 일반적으로 게놈 차원의 circRNA 예측 알고리즘이 구현된 후 기능적 연구를 수행하기 전에 예측된 circRNA 후보의 인실리코 특성화가 수행됩니다. circRNA를 예측하고 특성화하기 위한 이러한 생물정보학 접근 방식은 비용이 적게 들고 시간 효율적입니다. 기능적으로 연구할 후보의 수를 구체화하는 데 도움이 되며 잠재적으로 새로운 발견으로 이어질 수 있습니다. 여기에서 우리는 숙주-병원체 상호 작용 동안 circRNA의 in silico 식별, 특성화 및 기능적 주석을 위한 상세한 생물정보학 기반 프로토콜을 제공합니다. 이 프로토콜에는 RNA 염기서열 분석 데이터 세트에서 circRNA의 식별 및 정량화, circBase를 통한 주석, circRNA 유형, 겹치는 유전자 수 및 예측된 circRNA-miRNA 상호 작용 측면에서 circRNA 후보의 특성화가 포함됩니다. 본 연구는 또한 유전자 온톨로지(Gene Ontology, GO)와 교토 유전자 및 게놈 백과사전(Kyoto Encyclopedia of Genes and Genomes, KEGG) 농축 분석을 통해 circRNA 부모 유전자의 기능적 주석을 제공한다.
이 프로토콜에서는 인플루엔자 A 바이러스에 감염된 인간 대식세포에서 제조된 비식별화된 리보솜 RNA(rRNA)가 고갈된 RNA-seq 라이브러리 데이터 세트를 다운로드하여 유전자 발현 옴니버스(GEO) 데이터베이스에서 사용했습니다. circRNA의 예측에서 기능적 특성화에 이르는 전체 생물정보학 파이프라인은 그림 1에 요약되어 있습니다. 파이프라인의 각 부분은 아래 섹션에 자세히 설명되어 있습니다.
1. 데이터 분석 전 준비, 다운로드 및 설정
참고: 이 연구에 사용된 모든 소프트웨어 패키지는 무료이며 오픈 소스입니다.
2. CIRIquant를 이용한 circRNA의 예측 및 차등 발현 분석
참고: 차등 발현 분석의 설치 및 수행에 대한 자세한 설명서는 CIRIquant 논문31의 코드 가용성 섹션에서 찾을 수 있습니다. 보충 데이터에는 이 프로토콜에서 사용되는 기본 명령 중 일부도 포함되어 있습니다.
3. 예측된 DE circRNA의 특성화 및 주석
4. Circr을 이용한 circRNA-miRNA 상호작용 예측
참고: circRNA-miRNA 상호작용 분석을 위해 circr을 설치하고 사용하는 방법에 대한 자세한 설명서는 https://github.com/bicciatolab/Circr37에서 찾을 수 있습니다.
5. ceRNA 네트워크 구축
참고 : Cytoscape 사용 방법에 대한 자세한 설명서는 http://manual.cytoscape.org/en/stable/ 및 https://github.com/cytoscape/cytoscape-tutorials/wiki#introduction 에서 찾을 수 있습니다.
6. 기능적 농축 분석
이전 섹션에서 입대한 프로토콜은 Linux OS 시스템에 맞게 수정 및 구성되었습니다. 주된 이유는 circRNA 분석과 관련된 대부분의 모듈 라이브러리와 패키지가 Linux 플랫폼에서만 작동할 수 있기 때문입니다. 이 분석에서, 인플루엔자 A 바이러스에 감염된 인간 대식세포로부터 제조된 비식별화된 리보솜 RNA(rRNA)-고갈된 RNA-seq 라이브러리 데이터 세트를 GEO 데이터베이스(42 )로부터 다운로드하여 대표 결과를 생성하는 데 사용했습니다.
CircRNA 예측 및 정량화
이 분석에서는 인플루엔자 A 바이러스에 감염된 인간 대식세포에서 제조된 리보솜 RNA(rRNA)가 고갈된 RNA-seq 라이브러리 데이터 세트를 사용하여 circRNA 검출 및 기능 분석을 수행했습니다. 프로토콜 섹션에 지정된 대로 CIRIquant는 RNA-seq 라이브러리 데이터 세트를 입력으로 사용하여 식별된 circRNA의 DE 분석을 식별하고 수행하는 데 사용되었습니다. 사용된 참조 파일은 최신 인간 게놈 버전(hg38)을 기반으로 합니다. 표 4 는 CIRIquant 분석의 최종 출력 예를 보여줍니다. CIRIquant 출력에서 DE circRNA의 식별 및 필터링은 간단한 RStudio 스크립트(보충 파일 1)를 통해 실행되었습니다. CircRNA는 FDR(False-Discovery Rate) 값이 <0.05이고 LogFC(Log Fold Change) >|2|인 경우에만 DE로 분류됩니다. 표 5 는 검출된 circRNA 및 DE circRNA의 총 수를 나타낸다. 총 35,846개의 circRNA가 검출되었으며 306개는 DE입니다. 이 출력에서 검출된 DE circRNA는 완전히 상향 조절되며(LogFC > 2), 하향 조절되는 것은 없습니다(LogFC < 2).
DE circRNA의 주석 및 특성화
DE circRNA의 주석 상태
식별된 DE circRNA는 확립된 circRNA 데이터베이스인 circBase와 교차 확인되었습니다. 그러나 circBase에 기탁된 circRNA 좌표는 이전 인간 게놈 버전(hg19)을 기반으로 하기 때문에 본 연구에서 교차 확인을 위해 circBase의 circRNA 좌표를 현재 인간 게놈 버전(hg38)으로 변환해야 합니다. 또한 시작 좌표는 CIRIquant의 1부터 시작하는 출력에서 0부터 시작하는 값으로 변환되어야 합니다. circBase의 hg38 버전 변환된 circRNA 좌표는 Github (https://github.com/bicciatolab/Circr)37의 드라이브 폴더에 제공됩니다. 그런 다음 Rstudio 스크립트(보충 파일 1)를 사용하여 새 데이터 프레임 열에 circRNA의 주석 상태를 할당했습니다. 표 6 은 주석 상태를 갖는 circRNA의 예를 나타낸다.
DE circRNA의 특성화
이 부분은 RStudio 소프트웨어의 R 스크립트를 통해 완전히 실행되었습니다. R 스크립트는 분석 프로세스를 용이하게 하며 기본 지식만 필요합니다.
CircRNA 유형
이 단계에서 DE circRNA는 게놈 위치에 따라 circRNA 유형(Antisense, Exonic, Intergenic 및 Intronic)으로 특성화되었습니다. 아래의 표 7 은 확인된 DE circRNA에 포함된 상이한 circRNA 유형의 백분율 분석을 표시합니다. 총 306개의 DE circRNA 중 263개의 circRNA(85.95%)가 엑손 circRNA인 것으로 확인되었으며, 이는 확인된 가장 풍부한 circRNA 유형입니다. Intronic circRNA는 17개의 DE circRNA로 구성된 두 번째로 많이 확인된 circRNA 유형으로 제공되며 전체 DE circRNA의 최대 5.56%를 차지합니다. 그 뒤를 유전자 간 circRNA(16 DE circRNA ~5.23%)와 안티센스 circRNA(10 DE circRNA ~3.27%)가 뒤따릅니다.
circRNA당 스팬된 유전자 수
CIRIquant에 의해 확인된 CircRNA는 여러 유전자에 걸쳐 겹칠 수 있습니다. 현재까지 대부분의 연구는 하나의 유전자에 걸쳐 있는 circRNA에 초점을 맞추고 있습니다. 따라서 이 프로토콜에서 하나 이상의 유전자에 걸쳐 있는 circRNA 후보는 다운스트림 분석에서 제외됩니다. 아래의 표 8 은 하나 및 하나 이상의 유전자에 걸친 DE circRNA의 수 및 백분율을 설명한다. 이 표에서 유전자 간 circRNA(16 DE circRNA)는 숙주 유전자와 겹치지 않기 때문에 제외되는 반면 나머지 circRNA 유형(290 DE circRNA)은 이 분석의 대상이 됩니다. 290개의 DE circRNA 중 DE circRNA의 대부분(261개의 circRNA ~90%)은 하나의 유전자에 걸쳐 있는 반면 나머지 29개의 circRNA(~10%)는 하나 이상의 유전자에 걸쳐 있습니다.
ceRNA 네트워크 구축
ceRNA 네트워크는 일반적으로 예측된 후 circRNA-miRNA 상호작용을 시각화하기 위해 그려집니다. 아래 그림 3 에서 대표적인 결과로 단 하나의 DE circRNA를 선택하였는데, 이것이 hsa_DE_58 circRNA이다. Circr 예측에 따르면 hsa_DE_58는 최대 9개의 서로 다른 miRNA를 스폰지할 수 있습니다. 이 9개의 miRNA는 엄격한 기준을 통해 필터링한 후 식별됩니다.
기능적 농축 분석
circRNA 부모 유전자의 GO 및 KEGG 분석
아래의 도 4는 GO 분석을 통한 DE circRNA 부모 유전자의 기능적 농축의 버블 플롯을 나타낸 것이다. 기본적으로 GO 분석은 연구 된 조건 (이 경우 바이러스 감염 샘플)에서 풍부하거나 영향을받는 생물학적 과정, 세포 위치 및 분자 기능을 밝히는 것을 목표로합니다. 농축은 통계적으로 유의한 것으로 간주되며 p-값이 0.01 <인 경우에만 버블 그림에 표시됩니다. 그림 4에서 볼 수 있듯이 생물학적 과정(BP)의 상위 3개 농축에는 리보핵단백질 복합체 생물 발생, 바이러스에 대한 반응 및 생물학적 자극에 대한 반응 조절이 포함되며, 분자 기능(MF)의 경우 RNA 및 단일 가닥 RNA 결합에 작용하는 촉매 활성만 통계적으로 풍부합니다. 반면에, 단지 레트로머 복합체는 세포 성분 (CC)에 대해 통계적으로 풍부하다.
도 5 는 DE circRNA 부모 유전자의 KEGG 농축 분석을 버블 플롯으로 나타낸 것이다. GO 농축 분석과 유사하게 KEGG 농축은 통계적으로 유의한 것으로 간주되며 p-값이 0.01 <인 경우에만 버블 플롯에 표시됩니다. 이 경우 인플루엔자 A와 바이러스 수명 주기(HIV-1) 경로의 두 가지 KEGG 용어만 강화되었습니다.
그림 1: circRNA의 예측 및 기능적 특성 분석을 위한 파이프라인. 파이프라인은 필요한 소프트웨어 패키지 설치, circRNA 발현 예측 및 정량화, ceRNA 네트워크 구축, circRNA 부모 유전자 기능 강화 수행과 관련된 처음부터 끝까지 주요 단계에 대한 간단한 개요를 보여줍니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 2: Circr의 폴더 트리 구조 이 폴더 트리 구조는 분석에 필요한 파일을 감지하기 위해 Circr 소프트웨어를 실행하기 전에 설정해야 합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 3: circRNA-miRNA 상호작용으로 구성된 ceRNA 네트워크. 파란색 타원형은 circRNA를 나타내고 주황색 삼각형은 miRNA를 나타냅니다. circRNA와 miRNA를 연결하는 실선은 circRNA의 잠재적인 miRNA 스폰지 기능을 hsa_DE_58. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 4: DE circRNA 부모 유전자의 GO 농축 분석의 버블 플롯. x축의 GeneRatio는 주어진 GO 항과 관련된 입력 목록의 유전자 수를 총 입력 유전자 수로 나눈 값입니다. 그림의 점 크기는 카운트 값으로 표시되며, 이는 주어진 GO 항과 관련된 입력 목록의 유전자 수입니다. 점의 크기가 클수록 용어와 관련된 입력 유전자의 수가 많아집니다. 또한 플롯의 점은 p-값을 기준으로 색상으로 구분됩니다. P-값은 주석 용어의 관측 빈도와 우연히 예상되는 빈도를 비교하여 계산됩니다. 개별 항은 컷오프 값(p-값 < 0.01)을 초과하여 강화된 것으로 간주됩니다. 파란색에서 빨간색에 이르는 p-값의 색상 기울기는 항의 강화가 증가하고 있음을 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 5: DE circRNA 부모 유전자의 KEGG 농축 분석. x축의 GeneRatio는 주어진 KEGG 항과 관련된 입력 목록의 유전자 수를 총 입력 유전자 수로 나눈 값입니다. 그림의 점 크기는 카운트 값으로 표시되며, 이는 주어진 KEGG 항과 관련된 입력 목록의 유전자 수입니다. 점의 크기가 클수록 용어와 관련된 입력 유전자의 수가 많아집니다. 또한 플롯의 점은 p-값을 기준으로 색상으로 구분됩니다. P-값은 주석 용어의 관측 빈도와 우연히 예상되는 빈도를 비교하여 계산됩니다. 개별 항은 컷오프 값(p-값 < 0.01)을 초과하여 강화된 것으로 간주됩니다. 파란색에서 빨간색까지의 p-값의 색상 기울기는 항의 강화가 증가하고 있음을 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
샘플 이름 | CIRIquant 출력 GTF 파일 경로 | 그룹화 |
컨트롤 1 | /경로/to/CIRIquant/ctrl1.gtf | C |
컨트롤 2 | /경로/to/CIRIquant/ctrl2.gtf | C |
감염 1 | /경로/to/CIRIquant/infect1.gtf | T |
감염 2 | /경로/to/CIRIquant/infect2.gtf | T |
표 1: CIRIquant의 .lst 파일 준비. CIRIquant 출력에서 대조군 및 처리된 샘플의 대상 경로는 두 가지 유형의 샘플 간의 circRNA 발현을 비교하기 위해 텍스트 파일에 기록됩니다.
증권 시세 표시기 | 시작하다 | 끝 | 이름 | . | 올 |
증권 시세 표시기 2 | 137428930 | 137433876 | hsa_circ_000076 | . | - |
증권 시세 표시기 2 | 154705868 | 154706632 | hsa_circ_000105 | . | - |
증권 시세 표시기 2 | 159104273 | 159106793 | hsa_circ_000118 | . | - |
증권 시세 표시기 2 | 159215701 | 159226125 | hsa_circ_000119 | . | - |
증권 시세 표시기 | 39980067 | 39980129 | hsa_circ_002584 | . | - |
표 2: Circr용 BED 파일의 예. circRNA와 관련된 6개의 열(Chr, Start, End, Name, Gene 및 Strand)은 BED 파일을 생성하는 데 필요합니다.
circRNA_name | 형 | miRNA_name | 형 |
DE_circRNA_1 | circRNA (서치 RNA) | miR-001 | 미르 |
DE_circRNA_1 | circRNA (서치 RNA) | miR-002 | 미르 |
DE_circRNA_2 | circRNA (서치 RNA) | miR-003 | 미르 |
DE_circRNA_2 | circRNA (서치 RNA) | miR-004 | 미르 |
표 3: Cytoscape 입력 파일. 4개의 열(circRNA_name, Type, miRNA_name 및 Type)을 텍스트 파일에 기록해야 합니다.
서르RNA | 로그FC | 로그CPM | LR (영어) | Pvalue | 드 | 루즈벨트 |
chr4:17595410|17598558 | 8.167934481 | -0.039318634 | 185.5341965 | 3.00E-42 | 1 | 1.08E-37 |
chr16:18834892|18850467 | -3.955083482 | -4.397235736 | 2.982607619 | 0.08416358 | 0 | 0.282478158 |
chr14:73198031|73211942 | 2.493964729 | -4.448176684 | 2.736442046 | 0.09808293 | 0 | 0.282478158 |
표 4: CIRIquant의 최종 출력(.csv) 파일의 일부. CIRIquant는 LogFC, LogCPM(백만당 로그 수), LR(로지스틱 회귀), p-값, 차등 표현식 및 FDR과 같은 정보를 제공합니다.
CIRIquant 결과 | |||
합계 | 드 | 위로 | 솜털 |
35846 | 306 | 306 | 0 |
표 5: 확인된 총 및 차등적으로 발현된(DE) circRNA의 수에 대한 요약. 총 35,846개의 circRNA가 검출되며, 그 중 306개는 DE circRNA입니다. 모든 306 DE circRNA는 대조군 샘플과 비교할 때 처리된 샘플에서 상향 조절됩니다(하향 조절되지 않음).
Custom_Name | Annotation_Status |
hsa_DE_22 | 주석 없음 |
hsa_DE_2 | 주석 |
hsa_DE_58 | 주석 없음 |
hsa_DE_3 | 주석 |
표 6: 주석 상태가 있는 맞춤형 circRNA 이름 표. CircRNA는 알려진 기탁된 circRNA(circBase)의 데이터베이스에서 쿼리됩니다. circRNA가 데이터베이스 내에 존재하면 주석이 첨부되도록 라벨링되고, circRNA가 없으면 주석이 없는 것으로 라벨링됩니다.
CircRNA 유형 | 주파수 | 백분율 |
안티센스 | 10 | 3.27% |
엑손 | 263 | 85.95% |
인터제닉 | 16 | 5.23% |
인트론 | 17 | 5.56% |
표 7: 확인된 circRNA의 유형. CircRNA는 서열 영역, 즉 엑소닉, 인트로닉, 안티센스 및 인터제닉에 따라 다양한 유형의 circRNA로 더 분류할 수 있습니다.
부모 유전자의 수 | 주파수 | 백분율 |
1 | 261 | 90% |
> 1 | 29 | 10% |
표 8: 서로 다른 수의 유전자를 가진 circRNA의 비율. CircRNA는 일반적으로 한 유전자의 엑손에서 암호화되지만 둘 이상의 유전자에 걸쳐 있는 circRNA도 CIRIquant에 의해 검출될 수 있습니다.
보충 파일 1: 프로토콜에 사용되는 스크립트입니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.
이 프로토콜의 유용성을 설명하기 위해, 인플루엔자 A 바이러스에 감염된 인간 대식세포로부터의 RNA-seq를 예로서 사용하였다. 숙주-병원체 상호작용에서 잠재적인 miRNA 스폰지로 기능하는 CircRNA와 숙주 내에서 GO 및 KEGG 기능적 농축을 조사했습니다. 온라인에서 사용할 수 있는 다양한 circRNA 도구가 있지만 각 도구는 서로 상호 작용하지 않는 독립형 패키지입니다. 여기에서는 circRNA 예측 및 정량화, circRNA 기능 강화, circRNA-miRNA 상호작용 예측 및 ceRNA 네트워크 구축에 필요한 몇 가지 도구를 모았습니다. 이 간소화된 프로토콜은 시간을 절약해 주며 진단 및 예후 값을 가진 circRNA 후보를 검출하기 위해 임상 샘플에 적용할 수 있습니다.
기본적으로 우리는 circRNA의 DE 분석을 검출하고 수행할 수 있는 CIRI2와 함께 사전 패키징된 circRNA 정량화 도구인 CIRIquant31을 사용했습니다. DE circRNA는 LogFC의 컷오프 값을 기준으로 필터링됩니다. > |2| FDR < 0.05로 다운스트림 분석에서 잠재적인 오탐을 제거하는 데 도움이 됩니다. 주석 상태, circRNA 유형 및 유전자 수 측면에서 DE circRNA의 특성화는 circRNA 후보를 분류하고 추가로 필터링하는 데 도움이 됩니다. 그 후, circRNA-miRNA 예측 도구인 Circr37을 사용하여 잠재적인 miRNA 스폰지 후보를 예측합니다. circRNA의 표적으로 잠재적인 miRNA를 예측한 후 ceRNA 네트워크를 그립니다. 마지막으로, circRNA의 부모 유전자에 기초하여, R clusterProfiler 패키지(39 )는 GO 및 KEGG 경로 농축 분석을 통한 기능적 주석에 사용된다. GO와 KEGG의 결과는 circRNA에 의해 영향을 받는 생물학적 메커니즘을 밝히는 데 도움이 될 수 있습니다.
현재까지 CIRI2 43, CIRCexplorer244, find_circ 45, MapSplice46 및 UROBORUS 47을 포함하여 여러 가지 circRNA 예측 도구가 개발되었습니다. Hansen 등이 수행한 연구에서 CIRI2는 전반적으로 높은 성능을 보이는 것으로 보고되었습니다. 이는 새로운 예측 및 위양성 식별 감소 측면에서 잘 기능할 수 있는 몇 안 되는 circRNA 검출 도구 중 하나입니다48. 따라서 circRNA 검출 및 정량화를 위해 CIRI2를 활용하는 CIRIquant가 본 연구에 사용되었습니다. CIRIquant는 BSJ(Back Splice Junction) 판독값을 계수하는 데 사용되었으며, 계수 데이터는 동일한 유전자좌에서 전사된 동족 선형 RNA에 매핑된 판독으로 정규화되었습니다. 이를 통해 샘플에서 circRNA를 정량화할 수 있습니다. 실험 조건 전반에 걸쳐 circRNA의 차등 발현을 결정하기 위해 CIRIquant는 DE 분석을 위해 edgeR49에서 일반화된 선형 모델을 구현했으며, circRNA 접합 비율 차이의 중요성을 결정하기 위한 통계적 테스트로 정확한 비율 테스트를 사용했습니다. CIRCexplorer3-CLEAR50과 같은 다른 circRNA 정량화 도구를 사용하여 circRNA의 발현 수준을 정량화할 수 있지만, 이 도구는 샘플에서 BSJ 판독값을 계산하고 동일한 샘플의 동족 선형 RNA 카운트에 대한 카운트 데이터를 정규화하기 때문에 샘플에서 circRNA 정량화만 허용합니다. CIRCexplorer3-CLEAR는 실험 조건에서 circRNA 발현을 비교할 수 없습니다. 또한 CIRCexplorer3-CLEAR에는 정량화된 발현 수준을 지원하기 위한 통계 분석 도구가 구현되어 있지 않습니다. CIRIquant 내에서 구현된 디폴트 circRNA 예측 도구는 CIRI2이지만, find_circ 및 CIRCexplorer2와 같은 다른 도구로부터의 예측 결과도 정량화 및 DE 분석에 이용될 수 있다(31). 이 프로토콜에서는 단 하나의 circRNA 예측 도구(CIRI2)만 예측에 사용되었으며, 이는 여전히 위양성 circRNA 후보를 생성할 수 있습니다. 위양성을 줄이기 위해, 분석을 위해 다른 circRNA 예측 도구를 결합하고, 상이한 circRNA 예측 도구들 중에서 검출된 일반적인 circRNA를 선택할 수 있다(48,51). circRNA 검출을 더욱 향상시키려면 rRNA가 고갈되고 RNase R 전처리가 거친 RNA 염기서열 분석 데이터 세트를 사용하는 것이 이상적입니다.
연구의 목적에 따라, de novo 및 주석 첨부된 DE circRNA는 circBase 데이터베이스(52)에 기초하여 개별적으로 식별될 수 있다. 그러나 하나 이상의 유전자에 걸쳐 있는 circRNA는 circRNA의 진위 여부를 결정하고 위양성을 제거하기 위해 UCSC 또는 기타 게놈 브라우저에서 수동 검사가 필요한 경우가 많습니다. 그럼에도 불구하고, 융합 유전자로부터 유래된 circRNA와 같이 하나 이상의 유전자에 걸쳐 있는 circRNA도 최근보고되었다 53,54.
circr은 세 가지 다른 miRNA-mRNA 예측 알고리즘, 즉 TargetScan55, miRanda 56 및 RNAhybrid57을 결합하여 circRNA-miRNA 결합 부위를 예측합니다. 또한 이 알고리즘은 circRNA-miRNA 분석에서 AGO 피크 및 이전에 검증된 상호 작용에 대한 정보도 통합합니다. 여기서는 보다 신뢰할 수 있는 circRNA-miRNA 예측을 얻을 수 있도록 엄격한 필터링 기준을 적용하여 위양성을 더욱 줄였습니다. 그러나 이 필터링 단계의 엄격성은 사용자 기본 설정에 따라 더 높거나 낮게 설정될 수 있습니다.
ClusterProfiler는 다양한 유기체에 걸쳐 유전자 세트에 기능적으로 주석을 달 수 있는 잘 문서화된 R 패키지입니다. 과잉 표현 분석을 활용하는 이 프로토콜에 언급된 R clusterProfiler 패키지 내의 함수(enrichGO 및 enrichKEGG) 외에도 사용할 수 있는 gseGO 및 gseKEGG와 같은 다른 함수도 있습니다. clusterProfiler가 워크플로에 적합한 선택이 아닌 경우 "AllEnricher"58 또는 "Metascape"59와 같은 웹 사이트 기반 도구와 같이 유전자 집합에 기능적으로 주석을 달 수 있는 다른 도구 및 패키지도 있습니다. 마지막으로, 위에 제공된 파이프라인이 잠재적인 circRNA 및 기능적 주석을 예측하는 데 도움이 되지만 확실한 증거를 제공하려면 습식 실험실 검증이 필요합니다.
저자는 공개 할 것이 없습니다.
저자는 이 원고에 대한 비판적 검토에 대해 Tan Ke En과 Dr. Cameron Bracken에게 감사를 표합니다. 이 작업은 기초 연구 보조금 제도(FRGS/1/2020/SKK0/UM/02/15) 및 말라야 대학교 임팩트 연구 보조금(UM. C/625/1/HIR/MOE/CHAN/02/07)입니다.
Name | Company | Catalog Number | Comments |
Bedtools | GitHub | https://github.com/arq5x/bedtools2/ | Referring to section 4.1.2. Needed for Circr. |
BWA | Burrows-Wheeler Aligner | http://bio-bwa.sourceforge.net/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome |
Circr | GitHub | https://github.com/bicciatolab/Circr | Referring to section 4. Use to predict the miRNA binding sites |
CIRIquant | GitHub | https://github.com/bioinfo-biols/CIRIquant | Referring to section 2.1.3. To predict circRNAs |
Clusterprofiler | GitHub | https://github.com/YuLab-SMU/clusterProfiler | Referring to section 7. For GO and KEGG functional enrichment |
CPU | Intel | Intel(R) Xeon(R) CPU E5-2620 V2 @ 2.10 GHz Cores: 6-core CPU Memory: 65 GB Graphics card: NVIDIA GK107GL (QUADRO K2000) | Specifications used to run this entire protocol. |
Cytoscape | Cytoscape | https://cytoscape.org/download.html | Referring to section 5.2. Needed to plot ceRNA network |
FastQC | Babraham Bioinformatics | https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ | Referring to section 1.2.1. Quality checking on Fastq files |
HISAT2 | http://daehwankimlab.github.io/hisat2/ | Referring to section 2.1.1 and 2.1.2. Needed to run CIRIquant, and to index the genome | |
Linux | Ubuntu 20.04.5 LTS (Focal Fossa) | https://releases.ubuntu.com/focal/ | Needed to run the entire protocol. Other Ubuntu versions may still be valid to carry out the protocol. |
miRanda | http://www.microrna.org/microrna/getDownloads.do | Referring to section 4.1.2. Needed for Circr | |
Pybedtools | pybedtools 0.8.2 | https://pypi.org/project/pybedtools/ | Needed for BED file genomic manipulation |
Python | Python 2.7 and 3.6 or abover | https://www.python.org/downloads/ | To run necessary library modules |
R | The Comprehensive R Archive Network | https://cran.r-project.org/ | To manipulate dataframes |
RNAhybrid | BiBiServ | https://bibiserv.cebitec.uni-bielefeld.de/rnahybrid | Referring to section 4.1.2. Needed for Circr |
RStudio | RStudio | https://www.rstudio.com/ | A workspace to run R |
samtools | SAMtools | http://www.htslib.org/ | Referring to section 2.1.2. Needed to run CIRIquant |
StringTie | Johns Hopkins University: Center for Computational Biology | http://ccb.jhu.edu/software/stringtie/index.shtml | Referring to section 2.1.2. Needed to run CIRIquant |
TargetScan | GitHub | https://github.com/nsoranzo/targetscan | Referring to section 4.1.2. Needed for Circr |
JoVE'article의 텍스트 или 그림을 다시 사용하시려면 허가 살펴보기
허가 살펴보기This article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. 판권 소유