Method Article
이 기사에서는 AMOS(웹 기반 분석 방법) 및 Open Spectra 데이터베이스(연구자가 분석 방법 및 스펙트럼 데이터에 쉽게 액세스할 수 있도록 설계된 화학 정보학 응용 프로그램)에 대해 설명합니다.
분석 방법은 상세한 규제 문서에서 간단한 요약에 이르기까지 다양할 수 있습니다. 규제 방법에는 수정 가능한 분석물, 지원되는 매트릭스, 필요한 시약, 통계적 성능, 실험실 간 검증 및 기타 세부 사항에 대한 정보가 포함될 수 있습니다. 요약은 일반적으로 시약, 기기 및 종종 분석물의 짧은 목록에 대한 일반적인 개요를 제공합니다. 미국 환경보호국(USEPA), USGS(U.S. 지질조사국), 미국 농무부(USDA), 미국 식품의약국(FDA) 등을 포함한 미국 정부 기관의 분석 방법은 자세한 절차 정보를 제공합니다. Agilent, Shimadzu, Thermo Fisher Scientific, Sciex 등과 같은 기기 공급업체도 요약 방법으로 간주될 수 있는 수백 개의 애플리케이션 노트에 대한 액세스를 제공합니다. 이 연구는 화학 구조에 매핑된 식별자(이름 및/또는 CASRN(Chemical Abstracts Service Registry Number))를 사용하여 방법 문서에서 화학 물질을 추출하는 방법에 대한 화학 정보학 지원 데이터베이스를 개발했습니다. 약 7,000개의 분석법이 포함된 결과 데이터베이스는 식별자, 화학 구조 및 구조적 유사성으로 검색할 수 있으며 약 100만 개의 공개 도메인 스펙트럼(LC/MS, GC/MS, NMR 및 IR)으로 보완됩니다. 이 응용 프로그램은 분석 방법 검색 및 분석물, 기능 사용, 방법 소스 및 기타 관련 메타데이터를 기반으로 한 필터링을 지원합니다.
웹 기반으로 화학 데이터를 커뮤니티에 전달하는 방법은 PubChem1, ChemSpider2 및 CompTox Chemicals Dashboard(CCD)3와 같은 애플리케이션에서 볼 수 있습니다. 저널 논문에 게재된 분석 방법 세부 정보, 기기 공급업체가 기술 응용 노트로 발표, 정부 기관에서 표준 운영 절차 또는 규제 방법으로 제공, ISO(International Organization for Standardization)와 같은 표준 기관에서 발행한 분석 방법 세부 정보를 배포하기 위한 노력이 이루어졌습니다. 수만 개의 화학 물질이 광범위한 조건과 분석 기술에서 이러한 출처에 의해 연구되었습니다. 이 광범위한 출처는 다양한 물질을 다루며 특정 매트릭스(예: 혈액)에서 단일 화학 물질의 정량화부터 특정 작물의 살충제 및 잔류물 혼합물, 식수에서 확인된 수백 가지 화학 물질에 이르기까지 다양한 시나리오를 포함합니다. 공개 검색 엔진을 통해 많은 분석 방법을 찾을 수 있지만 모든 방법을 무료로 사용할 수 있거나 공개 액세스할 수 있는 것은 아닙니다.
관심 있는 특정 정보를 찾는 것은 어려울 수 있습니다. 범용 검색 엔진은 화학 데이터에 최적화되어 있지 않으며 순위 지정 알고리즘으로 인해 제한된 잠재 고객을 대상으로 하는 고품질 콘텐츠가 모호해질 수 있습니다. 저널 웹 사이트를 검색하면 보다 표적화된 결과를 얻을 수 있지만, 액세스가 제한되고 초록만 공개적으로 사용할 수 있어 방법의 유용성을 평가하기 어려운 경우가 많습니다. 또한 샘플 매트릭스, 검출 한계 및 정량화와 같은 중요한 매개변수는 종종 구조화된 형식으로 저장되지 않습니다. 또 다른 중요한 문제는 단일 화학 물질과 관련된 화학 식별자, 이름 및 동의어의 다양성과 불일치에 있습니다. 구조화된 분석법 데이터가 부족하기 때문에 수십 년 동안 축적된 분석 화학 지식 및 관련 출판물을 활용할 수 있는 소프트웨어 도구의 개발이 제한됩니다.
이러한 과제와 한계로 인해 분석 방법을 조화시키고 검색하기 위해 다른 곳에서는 확인되지 않은 선별된 화학 지향적인 응용 프로그램이 필요합니다. 이러한 간극을 해소하기 위해 미국 환경보호국(EPA)은 AMOS(Analytical Methods and Open Spectra) 데이터베이스와 웹 기반 애플리케이션을 개발했습니다. AMOS는 현재 분석 방법, 다양한 분석 스펙트럼 및 팩트 시트라고 하는 광범위한 범주의 보충 문서라는 세 가지 유형의 데이터 기록을 수집하고 구성합니다. 각 기록은 분석법의 표적 화학 분석물 및 시약에 연결됩니다. 데이터는 텍스트 쿼리, 화학 구조, 구조적 또는 스펙트럼 유사성을 포함한 여러 가지 방법으로 검색할 수 있습니다.
AMOS 응용 프로그램은 주로 오픈 액세스 및 오픈 데이터 레코드를 제공하는 데 중점을 둡니다. 가능한 경우 데이터베이스의 레코드는 원래 소스에 하이퍼링크로 연결됩니다. 오픈 라이선싱이 아니기 때문에 데이터베이스에 직접 저장되지 않은 기록은 다른 방법으로 사용할 수 있는 경우 URL 을 통해 계속 통합하고 액세스할 수 있습니다. 이는 두 가지 유형의 기록에 적용되는데, 하나는 일반적으로 EPA가 액세스할 수 있는 저널 또는 표준 조직의 페이월 뒤에 있는 분석 방법이고, 다른 하나는 사용 가능하지만 로그인 액세스가 필요한 스펙트럼입니다.
데이터 소스는 기록이 구성되는 방식이 다양하므로 콘텐츠를 조합하고 조화시키기 위해 추출 및 큐레이션에 상당한 노력이 필요합니다. 대부분의 레코드는 물질 식별자(예: CASRN, DTXSID, InChIKey, 일반 이름)를 제공하며, 대부분의 경우 추출은 간단합니다. 그러나 이러한 식별자를 화학 구조 및 물질 세부 정보와 일치시키는 것은 복잡할 수 있습니다. 일부 식별자는 EPA의 DSSTox(Distributed Structure-Searchable Toxicity) 데이터베이스4의 항목과 직접 일치시킬 수 있습니다. 일치하는 물질이 발견되지 않으면 식별자가 기존 물질에 연결되거나 새로운 물질이 등록됩니다. AMOS 이니셔티브는 결과적으로 DSSTox 데이터베이스의 확장으로 이어졌으며 CompTox Chemicals Dashboard3와 같은 다른 EPA 데이터베이스 및 애플리케이션을 지원하는 기본 데이터를 개선했습니다.
특정 귀중한 추가 정보에 대해서는 수동 큐레이션이 필요합니다. 분석 방법의 경우 검출 및 정량 한계, 시료 매트릭스 및 분석 방법론과 같은 실험 파라미터가 표준화된 방식으로 구성되지 않았으며 자동화된 도구는 일관되지 않은 저장으로 인해 이러한 정보를 식별할 수 없습니다.
기록 정보의 두 가지 요소, 즉 샘플과 관련된 매체와 분석물의 기능적 사용은 오염 물질로 인한 위험 및 노출 문제를 모니터링하기 위한 지속적인 노력과 매우 관련이 있습니다. 따라서 레코드 데이터 내에서 이러한 속성을 구조화하는 데 상당한 주의를 기울였습니다. 이 프로젝트를 위해 기능적 사용 분류의 온톨로지가 개발되었습니다. 이 온톨로지는 물질의 기능적 사용을 보다 일반적인 '부모' 사용에서 보다 구체적인 '자식' 사용에 이르기까지 계층적 구조로 조직합니다. 온톨로지는 응용 관점에서 물질의 탐색을 촉진하여 노출 및 위험을 평가하는 수단으로 기능적 사용을 강조하는 연구 이니셔티브를 지원합니다 5,6. 또한 EPA의 멀티미디어 모니터링 데이터베이스(MMDB)7에 지정된 대로 샘플의 조화 배지 범주에 따라 분석법을 라벨링했습니다. 이러한 분류를 통해 특정 매체에서 발생하는 화학물질을 기반으로 화학물질을 검색할 수 있으며, 특정 환경 또는 생물학적 시료에서 화학물질을 검출하는 데 중점을 둔 솔루션 개발을 간소화할 수 있습니다. 이러한 주석은 EPA 내에서 개발 중인 노출 및 위험 지향 워크플로우에 AMOS를 통합하는 것을 향상시킵니다.
스펙트럼을 조합할 때 다양한 파일 형식(그 중 일부는 명목상으로만 표준화되어 있음)을 처리하고 함께 제공되는 메타데이터를 구문 분석해야 하는 과제는 종종 사용자 지정 처리가 필요합니다. 스펙트럼 컬렉션이 출판물에 연결되어 있는 경우, 출판물 내에 문서화된 세부 정보는 데이터 로드를 위해 수동으로 추출해야 할 수 있습니다. 이러한 노력으로 이러한 이질적인 스펙트럼을 통합하고 구조화하는 데이터베이스가 구축되어 연구자들이 향후 노력에서 힘든 큐레이션의 필요성을 피할 수 있습니다.
2025년 3월 현재 데이터베이스에는 약 935,000개의 스펙트럼이 포함되어 있으며 거의 99%가 질량 스펙트럼이고 더 작은 NMR(~2,000) 및 IR(~400) 컬렉션입니다. 또한 약 770,000개의 외부 링크 스펙트럼(SpectraBase 데이터베이스8에 연결), ~36,000개의 팩트 시트 및 ~7,400개의 분석 방법이 있습니다. 애플리케이션에 통합된 물질은 CompTox Chemicals Dashboard(CCD)에 통합되고 120만 개 이상의 물질을 포함하는 DSSTox 데이터베이스의 물질 하위 집합입니다.
AMOS의 기능 대부분은 주어진 물질에 대한 기록 검색, 특정 물질 모음 검색 또는 기록 범주 간 검색의 세 가지 범주로 나눌 수 있습니다. 이러한 기능에 대한 개별 페이지는 모든 페이지 상단의 탐색 모음에서 모두 액세스할 수 있습니다. 이 애플리케이션은 현재 AMOS 모듈을 통해 https://hcd.rtpnc.epa.gov/#/ 배포되어 있습니다. 이 연구에서 사용된 소프트웨어 도구는 재료 표에 나열되어 있습니다.
1. 특정 물질에 대한 기록 검색
그림 1: 콜레스테롤이 포함된 레코드에 대한 검색 결과. "cholesterol"에 대한 일반적인 검색은 표(왼쪽)에 일치하는 레코드 목록을 표시합니다. 선택한 레코드의 질량 스펙트럼이 오른쪽에 표시됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 2: 일괄 검색 인터페이스. 검색 필드에는 DTXSID로 식별되는 두 가지 물질이 포함되어 있습니다. 쿼리에 대한 기본 검색 옵션이 선택됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 3: 1P-LSD에 대한 구조 검색 결과. 이 표에는 구조적으로 유사한 물질을 포함하는 방법이 나열되어 있습니다. 선택한 방법이 오른쪽에 표시됩니다. 표에서 굵게 표시된 항목은 1P-LSD가 나열된 메서드에 나타나지 않음을 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
2. 물질 검색
그림 4: ClassyFire 분류 검색 결과. 결과에는 물질 수준 정보와 분류 그룹당 기록 수가 포함됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 5: "trazine"에 대한 부분 식별자 검색 결과. 검색은 하위 문자열 "trazine"을 포함하는 선호 이름 또는 동의어를 가진 물질을 검색합니다. 세 가지 결과 중 두 개는 동의어에만 "trazine"을 포함하고 선호하는 이름은 포함하지 않습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
3. 레코드 검색
그림 6: 필터링된 분석 방법 목록. 이 표는 분석물 및 매트릭스별로 필터링되어 물 내 PFAS(per- 및 polyfluoroalkyl substances)와 관련된 방법만 표시합니다. 해당 팩트 시트 목록은 이 레이아웃과 매우 유사합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 7: 스펙트럼 유사성 검색 결과. AMOS 데이터베이스의 카페인 스펙트럼이 입력으로 사용됩니다. 유사 스펙트럼은 물질별로 그룹화되며 최대 유사성 점수는 1.0입니다. 대칭복사된 플롯은 입력 스펙트럼(위)과 선택한 데이터베이스 스펙트럼(아래)을 보여줍니다. 연한 파란색 피크는 입력에 고유하고, 주황색 피크는 데이터베이스와 일치하며, 진한 파란색 피크는 공유됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 8: 기능적 사용 분류 시각화. 계층 구조는 커서가 "industrial chemicals" 노드(노란색 윤곽선) 위로 마우스를 가져가면 표시됩니다. 자식 클래스는 녹색으로 윤곽선이 표시되어 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
그림 9: 토양 삼원 플롯 시각화. 이 플롯에는 토양 샘플에 대한 조성 데이터가 표시됩니다. 오른쪽 상단의 툴팁은 현재 커서 아래에 있는 영역의 정확한 구성을 보여줍니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
위에 표시된 AMOS의 스크린샷은 관심 물질에 대한 검색과 스펙트럼, 팩트 시트 및 방법 간의 검색을 포함하여 애플리케이션의 개별 검색에서 얻은 일반적인 결과를 보여줍니다. 데이터베이스를 조사하는 다양한 방법은 데이터 및 데이터와 관련된 물질에 대한 심층적인 조사를 허용하는 방식으로 가장 가능성이 높고 가장 유용한 종류의 검색을 다루기 위한 것입니다.
사용자의 검색을 지원하기 위해 대부분의 기능은 사용 가능한 데이터에 대한 심층적인 검사를 지원하기 위한 방식으로 상호 연결됩니다. 워크플로우의 예로, 기능적 사용 분류 시각화는 해당 기능 클래스와 관련된 분석법 및 팩트 시트의 보기에 연결되며, 여기에서 물질 목록을 추출하여 배치 검색에 입력하거나 개별 문서를 검사하고 해당 문서의 개별 물질을 추가로 조사할 수 있습니다. 분석법의 많은 물질은 데이터베이스에 실험적 질량 스펙트럼도 있기 때문에 연구자는 물질 범주에서 특정 물질의 존재를 테스트할 수 있는 일련의 방법 및 스펙트럼으로 빠르게 이동할 수 있습니다( 그림 9 참조).
결과는 검색되는 항목과 실행되는 검색에 따라 크게 달라지므로 전체 응용 프로그램에 대한 대표 결과를 정의하기가 어렵습니다. 전반적으로 사용자 경험 측면에서 "성공"을 설명하는 것이 더 정확할 수 있습니다. 이 경우, 다음과 같은 결과가 일반적으로 적용되기를 바랍니다: 검색 및 필터링 방법(및 다른 검색과 필터 사이를 이동할 수 있는 기능)이 사용자가 원하는 정보의 하위 집합을 식별하는 데 효과적입니다. 사용자가 찾은 결과가 정확하고 유용한지 확인합니다. 그림 10 은 AMOS 기능을 보여주는 워크플로우의 예를 보여줍니다.
그림 10: AMOS 기능을 보여주는 워크플로우 예시. 워크플로우는 기능적 사용 분류(호흡기 약물)로 시작하고, 혈액 내 호흡기 약물과 관련된 방법을 필터링하고, 하나의 특정 방법을 검사하고, 해당 방법에 포함된 물질에 대한 스펙트럼을 식별합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
많은 프로젝트와 응용 프로그램이 메서드, 팩트 시트 또는 특정 종류의 스펙트럼과 같은 단일 유형의 레코드에서 정보를 수집하고 표준화하는 데 중점을 두지만, AMOS는 여러 레코드 유형에 걸쳐 대량의 정보를 컴파일하고 통합하는 첫 번째 도구입니다. 이러한 다양한 소스의 데이터를 통합, 조화 및 구조화하면 분석 화학 방법론에 액세스해야 하는 워크플로우에 보다 쉽게 통합할 수 있는 데이터베이스를 만들 수 있습니다. 여러 가지 보완적인 방법으로 데이터베이스를 검색할 수 있는 기능을 통해 여러 웹 사이트 또는 도구에서 광범위한 수동 작업이 필요할 수 있는 정보를 효율적으로 검색할 수 있습니다.
공개되기 전에 AMOS의 유용성은 EPA 직원이 광범위한 프로젝트를 지원하기 위해 사용함으로써 입증되었습니다. EPA는 비표적 분석을 위한 질량 분석법의 적용에 지속적인 관심을 가지고 있으며,10,11 , 여러 이니셔티브는 AMOS의 실험적 질량 스펙트럼을 활용하여 DSSTox 화학 물질 12,13에서 생성된 대규모 인실리코 스펙트럼 라이브러리에 대한 검색을 향상시켰습니다. 다른 프로젝트에서는 구조적 유사성 검색을 사용하여 새로운 방법 개발의 시작점을 식별하고, 기존 방법을 검토하여 검출 및 정량 한계를 평가하고, 화학 물질 공간 적용 범위를 평가하기 위해 방법과 연결된 화학 물질 컬렉션을 분석했습니다.
AMOS의 잠재적 학습 데이터 집계는 NTA(Non-targeted Analysis) 워크플로우를 발전시키기 위한 핵심 요구 사항인 분석 방법14에 대한 편의 시설의 정량적 모델 개발을 추가로 지원합니다. AMOS 내의 큐레이션 노력은 또한 방법론적 커버리지와 관련된 화학적 공간을 모델링, 탐색 및 시각화하는 이니셔티브를 촉진합니다14.
AMOS의 핵심 기능은 완성도 단계에 이르렀지만, 사용자 피드백에 따라 개발이 진행됩니다. 현재 작업에는 추가 데이터 통합, 향상된 필터링을 위한 추가 메타데이터 큐레이션 및 검색 기능 확장이 포함됩니다. EPA 이해 관계자와의 협력을 통해 프로그래밍 방식의 액세스를 가능하게 하는 애플리케이션 프로그래밍 인터페이스(API)를 개발 중이며, 그래픽 사용자 인터페이스(GUI)가 비효율적일 수 있는 사용 사례를 해결합니다. 릴리스 정보 페이지가 애플리케이션에 통합되어 시간이 지남에 따라 코드 업데이트를 추적하고 전달할 수 있습니다.
새로운 데이터 기록 및 화학 물질은 현재 매주 추가됩니다. 그러나 공개 출시 이후 출시 일정이 느려질 것으로 예상됩니다. 레코드 및 관련 메타데이터의 정확성을 보장하기 위해 상당한 노력을 기울이고 있지만 대부분의 데이터는 공용 데이터베이스에서 비롯됩니다. 따라서 모든 기록에 대한 완전한 검증은 불가능하며 사용자는 절대적인 데이터 정확성을 보장할 수 없다는 점을 알고 있어야 합니다.
이 백서가 반드시 미국 환경 보호국의 견해나 정책을 나타내는 것은 아닙니다.
저자는 데이터베이스를 위한 화학물질을 큐레이팅하는 모든 작업에 대해 큐레이션 팀에게 감사를 표하고, AMOS의 구축 및 배포에 대한 기술 지원을 제공한 Joshua Powell, Asif Rashid, Freddie Valone에게 감사를 표합니다. 우리는 또한 원고에 대한 검토를 해준 Charles Lowe에게 감사드립니다.
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
JoVE'article의 텍스트 или 그림을 다시 사용하시려면 허가 살펴보기
허가 살펴보기This article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. 판권 소유