Method Article
Dieser Artikel beschreibt AMOS, die webbasierte Datenbank für analytische Methoden und offene Spektren, eine Chemieinformatik-Anwendung, die Forschern einen einfachen Zugang zu Analysemethoden und Spektraldaten ermöglicht.
Die Analysemethoden können von detaillierten regulatorischen Dokumenten bis hin zu einfacheren Zusammenfassungen reichen. Regulatorische Methoden können Informationen über zugängliche Analyten, unterstützte Matrices, erforderliche Reagenzien, statistische Leistung, Ringversuchsvalidierung und andere Besonderheiten umfassen. Zusammenfassungen bieten in der Regel einen allgemeinen Überblick über Reagenzien, Instrumentierung und oft eine kurze Liste von Analyten. Analysemethoden von US-Regierungsbehörden, darunter die U.S. Environmental Protection Agency (USEPA), U.S. Geological Survey (USGS), U.S. Department of Agriculture (USDA), die Food and Drug Administration (FDA) und andere, bieten detaillierte Verfahrensinformationen. Gerätehersteller wie Agilent, Shimadzu, Thermo Fisher Scientific, Sciex und andere bieten ebenfalls Zugriff auf Hunderte von Anwendungshinweisen, die als zusammenfassende Methoden betrachtet werden können. Im Rahmen dieser Studie wurde eine cheminformatgestützte Datenbank von Methoden entwickelt, in denen Chemikalien aus Methodendokumenten extrahiert werden, wobei Identifikatoren (Namen und/oder Registrierungsnummern des Chemical Abstracts Service (CASRN)) auf chemische Strukturen abgebildet werden. Die daraus resultierende Datenbank mit ca. 7.000 Methoden ist nach Identifikator, chemischer Struktur und struktureller Ähnlichkeit durchsuchbar und wird durch ca. eine Million Public Domain-Spektren (LC/MS, GC/MS, NMR und IR) ergänzt. Die Anwendung unterstützt die Suche nach analytischen Methoden und die Filterung basierend auf Analyten, funktionaler Verwendung, Methodenquellen und anderen verwandten Metadaten.
Beispiele für die webbasierte Bereitstellung von Chemiedaten für die Community sind Anwendungen wie PubChem1, ChemSpider2 und das CompTox Chemicals Dashboard (CCD)3. Es wurden Anstrengungen unternommen, um Details zu Analysemethoden in Umlauf zu bringen, die in Zeitschriftenartikeln veröffentlicht wurden, von Geräteherstellern als technische Anwendungshinweise veröffentlicht wurden, von Regierungsbehörden als Standardarbeitsanweisungen oder Regulierungsmethoden zur Verfügung gestellt und von Normungsorganisationen wie der Internationalen Organisation für Normung (ISO) herausgegeben wurden. Zehntausende von Chemikalien wurden von diesen Quellen unter einer Vielzahl von Bedingungen und Analysetechniken untersucht. Dieser umfangreiche Quellenkatalog deckt eine Vielzahl von Substanzen ab und umfasst Szenarien, die von der Quantifizierung einer einzelnen Chemikalie in einer bestimmten Matrix (z. B. Blut) über Mischungen von Pestiziden und deren Rückständen in bestimmten Kulturen bis hin zu Hunderten von im Trinkwasser identifizierten Chemikalien reichen. Während viele Analysemethoden über öffentliche Suchmaschinen gefunden werden können, sind nicht alle frei verfügbar oder frei zugänglich.
Das Auffinden bestimmter Informationen von Interesse kann eine Herausforderung sein. Allzweck-Suchmaschinen sind nicht für Chemiedaten optimiert, und ihre Ranking-Algorithmen können qualitativ hochwertige Inhalte verschleiern, die für ein enges Publikum gedacht sind. Die Suche auf Zeitschriften-Websites kann zu gezielteren Ergebnissen führen, aber der Zugang ist oft eingeschränkt, da nur Abstracts öffentlich zugänglich sind, was es schwierig macht, den Nutzen einer Methode zu beurteilen. Darüber hinaus werden kritische Parameter wie Probenmatrizen, Nachweisgrenzen und Quantifizierung oft nicht in einem strukturierten Format gespeichert. Eine weitere große Herausforderung liegt in der Variation und Inkonsistenz von chemischen Identifikatoren, Namen und Synonymen, die mit einer einzigen Chemikalie verbunden sind. Der Mangel an strukturierten Methodendaten schränkt die Entwicklung von Software-Tools ein, die jahrzehntelang angesammeltes Wissen über analytische Chemie und damit verbundene Veröffentlichungen nutzen könnten.
Infolge dieser Herausforderungen und Einschränkungen besteht ein Bedarf an einer kuratierten, chemieorientierten Anwendung zur Harmonisierung und Suche nach analytischen Methoden, die anderswo nicht identifiziert wurde. Um diese Lücke zu schließen, hat die U.S. Environmental Protection Agency AMOS entwickelt, die Datenbank Analytical Methods and Open Spectra sowie eine webbasierte Anwendung. AMOS sammelt und organisiert derzeit drei Arten von Datensätzen: analytische Methoden, verschiedene analytische Spektren und eine breite Kategorie von ergänzenden Dokumenten, die zusammen als Fact Sheets bezeichnet werden. Jeder Datensatz ist mit den chemischen Zielanalyten und -reagenzien der Methode verknüpft. Die Daten können auf verschiedene Weise durchsucht werden, z. B. nach Textabfragen, chemischer Struktur und struktureller oder spektraler Ähnlichkeit.
Die AMOS-Anwendung konzentriert sich in erster Linie auf die Bereitstellung von Open Access und Open Data-Datensätzen. Wenn möglich, werden Datensätze in der Datenbank mit Hyperlinks zu ihren ursprünglichen Quellen versehen. Datensätze, die nicht unter einer offenen Lizenzierung stehen und daher nicht direkt in der Datenbank gespeichert sind, können trotzdem eingebunden und per URL abgerufen werden, sofern sie anderweitig verfügbar sind. Dies gilt für zwei Arten von Datensätzen: analytische Methoden, die sich hinter Bezahlschranken befinden, typischerweise von Zeitschriften oder Standardorganisationen, zu denen die EPA Zugang hat, und Spektren, die verfügbar sind, aber einen Login-Zugang erfordern.
Datenquellen unterscheiden sich in der Art und Weise, wie Datensätze strukturiert sind, was einen erheblichen Aufwand bei der Extraktion und Kuration erfordert, um den Inhalt zusammenzustellen und zu harmonisieren. Die meisten Datensätze enthalten Stoffidentifikatoren (z. B. CASRN, DTXSID, InChIKey, gebräuchliche Namen), und in vielen Fällen ist die Extraktion unkompliziert. Die Zuordnung dieser Identifikatoren zu chemischen Strukturen und Stoffdetails kann jedoch komplex sein. Einige Identifikatoren können direkt mit Einträgen in der DSSTox-Datenbank (Distributed Structure-Searchable Toxicity) der EPA abgeglichen werden4; Wenn keine Übereinstimmungen gefunden werden, werden Identifikatoren mit bestehenden Stoffen verknüpft oder neue Stoffe registriert. Die AMOS-Initiative hat daher zur Erweiterung der DSSTox-Datenbank geführt und die grundlegenden Daten zur Unterstützung anderer EPA-Datenbanken und -Anwendungen, wie z. B. des CompTox Chemicals Dashboard3, verbessert.
Für bestimmte wertvolle Zusatzinformationen ist eine manuelle Kuration erforderlich. Bei analytischen Methoden sind experimentelle Parameter wie Nachweis- und Quantifizierungsgrenzen, Probenmatrix und Analysemethodik nicht standardisiert organisiert, und automatisierte Werkzeuge können diese Informationen aufgrund ihrer inkonsistenten Speicherung nicht identifizieren.
Zwei Elemente der Aufzeichnungsinformationen, die mit der Probe verbundenen Medien und die funktionelle Verwendung des Analyten, sind für die laufenden Bemühungen zur Überwachung von Gefahren und Expositionsbedenken durch Kontaminanten von großer Bedeutung. Daher wurde der Strukturierung dieser Attribute innerhalb der Datensatzdaten große Aufmerksamkeit geschenkt. Für dieses Projekt wurde eine Ontologie von funktionalen Nutzungsklassifikationen entwickelt. Diese Ontologie organisiert die funktionalen Verwendungen von Substanzen in einer hierarchischen Struktur, die von allgemeineren "übergeordneten" Verwendungen bis hin zu spezifischeren "untergeordneten" Verwendungen reicht. Die Ontologie erleichtert die Erforschung von Stoffen aus der Anwendungsperspektive und unterstützt Forschungsinitiativen, die die funktionelle Verwendung als Mittel zur Bewertung von Exposition und Gefahr betonen 5,6. Darüber hinaus wurden die Methoden nach der harmonisierten Medienkategorie ihrer Stichproben gekennzeichnet, wie sie in der Multimedia-Monitoring-Datenbank (MMDB)7 der EPA spezifiziert ist. Diese Kategorisierung ermöglicht die Suche nach Chemikalien auf der Grundlage ihres Vorkommens in bestimmten Medien und rationalisiert die Entwicklung von Lösungen, die sich auf den Nachweis von Chemikalien in bestimmten Umwelt- oder biologischen Proben konzentrieren. Diese Annotationen verbessern die Integration von AMOS in expositions- und gefahrenorientierte Arbeitsabläufe, die innerhalb der EPA entwickelt werden.
Bei der Zusammenstellung der Spektren erfordert die Herausforderung der Verarbeitung verschiedener Dateiformate - von denen einige nur nominell standardisiert sind - und des Parsens der begleitenden Metadaten oft eine benutzerdefinierte Handhabung. In Fällen, in denen Spektralsammlungen mit einer Publikation verknüpft sind, müssen die in der Publikation dokumentierten Details möglicherweise manuell extrahiert werden, um die Daten zu laden. Diese Bemühungen haben zu einer Datenbank geführt, die diese unterschiedlichen Spektren integriert und strukturiert, so dass die Forscher bei zukünftigen Unternehmungen keine aufwändige Kuratierung mehr leisten müssen.
Mit Stand März 2025 enthält die Datenbank etwa 935.000 Spektren, wobei fast 99 % Massenspektren und kleinere Sammlungen von NMR (~2.000) und IR (~400) sind. Darüber hinaus gibt es ca. 770.000 extern verlinkte Spektren (verbunden mit der SpectraBase-Datenbank8), ~36.000 Factsheets und ~7.400 analytische Methoden. Die in die Anwendung integrierten Substanzen sind eine Teilmenge derjenigen aus der DSSTox-Datenbank, die in das CompTox Chemicals Dashboard (CCD) eingebunden ist und über 1,2 Millionen Substanzen enthält.
Der Großteil der AMOS-Funktionalität kann in drei Kategorien unterteilt werden: Suche nach Datensätzen für bestimmte Substanzen, Suche nach bestimmten Stoffsammlungen oder Suche zwischen Kategorien von Datensätzen. Die einzelnen Seiten für diese Funktionen können alle über die Navigationsleiste oben auf jeder Seite aufgerufen werden. Die Anwendung wird derzeit über das AMOS-Modul auf https://hcd.rtpnc.epa.gov/#/ bereitgestellt. Die in dieser Studie verwendeten Softwaretools sind in der Materialtabelle aufgeführt.
1. Suche nach Datensätzen für bestimmte Stoffe
Abbildung 1: Suchergebnisse für Datensätze, die Cholesterin enthalten. Eine allgemeine Suche nach "Cholesterin" zeigt eine Liste mit übereinstimmenden Datensätzen in der Tabelle (links). Auf der rechten Seite wird das Massenspektrum einer ausgewählten Schallplatte angezeigt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 2: Schnittstelle für die Batch-Suche. Das Suchfeld enthält zwei Stoffe, die durch ihre DTXSIDs identifiziert werden. Für die Abfrage werden Standardsuchoptionen ausgewählt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 3: Struktur der Suchergebnisse für 1P-LSD. In der Tabelle sind Methoden aufgeführt, die strukturell ähnliche Stoffe enthalten. Auf der rechten Seite wird eine ausgewählte Methode angezeigt. Keine fett formatierten Einträge in der Tabelle weisen darauf hin, dass 1P-LSD in keiner der aufgeführten Methoden vorkommt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
2. Suche nach Substanzen
Abbildung 4: Suchergebnisse für die ClassyFire-Klassifizierung. Zu den Ergebnissen gehören Informationen auf Stoffebene und die Anzahl der Datensätze pro Einstufungsgruppe. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 5: Suchergebnisse für Teilidentifikatoren für "trazine". Die Suche findet Substanzen mit bevorzugten Namen oder Synonymen, die den Teilstring "Trazine" enthalten. Zwei der drei Ergebnisse enthalten "Trazine" nur in ihren Synonymen, nicht in ihren bevorzugten Namen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
3. Durchsuchen von Datensätzen
Abbildung 6: Gefilterte Liste der Analysemethoden. Die Tabelle ist nach Analyt und Matrix gefiltert und zeigt nur Methoden, die mit PFAS (per- und polyfluorierte Alkylsubstanzen) in Wasser in Verbindung stehen. Die entsprechende Liste der Merkblätter ähnelt stark diesem Layout. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 7: Suchergebnisse für die Ähnlichkeit des Spektrums. Als Eingabe wird ein Koffeinspektrum aus der AMOS-Datenbank verwendet. Ähnliche Spektren werden nach Substanz gruppiert, mit einem maximalen Ähnlichkeitswert von 1,0. Das gespiegelte Diagramm zeigt das Eingabespektrum (oben) und ein ausgewähltes Datenbankspektrum (unten). Hellblaue Spitzen sind für die Eingabe eindeutig, orangefarbene Spitzen für die Datenbank stimmen überein, und dunkelblaue Spitzen werden gemeinsam genutzt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 8: Visualisierung der Klassifizierung der funktionalen Verwendung. Die hierarchische Struktur wird dargestellt, wenn der Cursor über den Knoten "Industriechemikalien" (gelb umrandet) bewegt wird. Die untergeordneten Klassen sind grün umrandet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 9: Visualisierung des ternären Diagramms des Bodens. Das Diagramm zeigt Daten zur Zusammensetzung von Bodenproben. Eine QuickInfo oben rechts zeigt die genaue Zusammensetzung des Bereichs an, der sich derzeit unter dem Cursor befindet. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Die oben gezeigten Screenshots von AMOS zeigen typische Ergebnisse der einzelnen Suchen in der Anwendung, einschließlich der Suche nach interessanten Substanzen und zwischen Spektren, Datenblättern und Methoden. Die Vielfalt der Abfragemöglichkeiten in der Datenbank zielt darauf ab, die wahrscheinlichsten und nützlichsten Arten der Suche so abzudecken, dass eine tiefere Untersuchung der Daten und der Substanzen, auf die sie sich beziehen, möglich ist.
Um die Suche eines Benutzers zu erleichtern, ist ein Großteil der Funktionalität so miteinander verbunden, dass eine tiefere Untersuchung der verfügbaren Daten unterstützt werden soll. Als Beispiel für einen Arbeitsablauf verknüpft die Visualisierung der funktionalen Verwendungsklassifizierung mit Ansichten der Methoden und Informationsblätter, die sich auf diese Funktionsklasse beziehen, aus denen Stofflisten extrahiert und in die Chargensuche eingespeist werden können, oder es können einzelne Dokumente untersucht und einzelne Stoffe in diesen Dokumenten weiter untersucht werden. Da viele Substanzen in Methoden auch experimentelle Massenspektren in der Datenbank haben, kann ein Forscher schnell von einer Stoffkategorie zu einer Reihe von Methoden und Spektren übergehen, mit denen das Vorhandensein einer bestimmten Substanz getestet werden kann (siehe Abbildung 9).
Da die Ergebnisse stark davon abhängen, wonach gesucht wird und welche Suche bzw. Suchen ausgeführt werden, sind repräsentative Ergebnisse für die gesamte Anwendung schwer zu definieren. Insgesamt kann es zutreffender sein, einen "Erfolg" in Bezug auf die Benutzererfahrung zu beschreiben; In diesem Fall ist zu hoffen, dass im Allgemeinen Folgendes zutrifft: Dass die Methoden des Suchens und Filterns (und die Möglichkeit, zwischen verschiedenen Suchen und Filtern zu wechseln) effektiv sind, um zu identifizieren, welche Teilmengen von Informationen ein Benutzer wünscht; dass die Ergebnisse, die der Benutzer findet, genau und nützlich sind. Abbildung 10 zeigt einen Beispiel-Workflow, der AMOS-Funktionen veranschaulicht.
Abbildung 10: Beispiel-Workflow zur Veranschaulichung von AMOS-Funktionalitäten. Der Arbeitsablauf beginnt mit einer Klassifizierung der funktionellen Verwendung (Atemwegsmedikamente), filtert Methoden, die mit Atemwegsmedikamenten im Blut in Verbindung stehen, untersucht eine bestimmte Methode und identifiziert Spektren für eine Substanz, die in dieser Methode enthalten ist. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Während sich viele Projekte und Anwendungen auf das Sammeln und Standardisieren von Informationen aus einem einzigen Datensatztyp konzentrieren, wie z. B. Methoden, Datenblätter oder eine bestimmte Art von Spektren, ist AMOS das erste identifizierte Tool, das große Mengen an Informationen über mehrere Datensatztypen hinweg sammelt und integriert. Die Vereinheitlichung, Harmonisierung und Strukturierung von Daten aus diesen verschiedenen Quellen führt zu einer Datenbank, die leichter in Arbeitsabläufe integriert werden kann, die Zugang zu Methoden der analytischen Chemie erfordern. Die Möglichkeit, die Datenbank auf mehrere komplementäre Arten zu durchsuchen, ermöglicht ein effizientes Abrufen von Informationen, die andernfalls einen umfangreichen manuellen Aufwand über mehrere Websites oder Tools erfordern würden.
Vor der Veröffentlichung wurde der Nutzen von AMOS durch seine Verwendung durch EPA-Mitarbeiter zur Unterstützung einer Vielzahl von Projekten demonstriert. Die EPA hat ein anhaltendes Interesse an der Anwendung der Massenspektrometrie für die nicht-zielgerichtete Analyse10,11, und mehrere Initiativen haben die experimentellen Massenspektren in AMOS genutzt, um die Suche gegen eine große In-silico-Spektralbibliothek zu verbessern, die aus DSSTox-Chemikalien generiert wurde12,13. Andere Projekte haben die Suche nach struktureller Ähnlichkeit genutzt, um Ansatzpunkte für die Entwicklung neuer Methoden zu identifizieren, bestehende Methoden zur Bewertung von Nachweis- und Quantifizierungsgrenzen untersucht und Sammlungen von Chemikalien analysiert, die mit Methoden zur Bewertung des Ausmaßes der chemischen Raumabdeckung verknüpft sind.
Die Aggregation potenzieller Trainingsdaten durch AMOS unterstützt die Entwicklung quantitativer Modelle der Zugänglichkeit für analytische Methoden14, eine zentrale Anforderung für die Weiterentwicklung von Arbeitsabläufen für die nicht-zielgerichtete Analyse (NTA). Die Kurationsbemühungen innerhalb von AMOS erleichtern auch Initiativen zur Modellierung, Erforschung und Visualisierung chemischer Räume, die mit der methodischen Abdeckung verbunden sind14.
Während die Kernfunktionalität von AMOS ausgereift ist, wird die laufende Entwicklung durch das Feedback der Benutzer geleitet. Zu den aktuellen Aufgaben gehören die Einbindung zusätzlicher Daten, die Kuratierung weiterer Metadaten für eine verbesserte Filterung und die Erweiterung der Suchfunktionen. In Zusammenarbeit mit EPA-Stakeholdern werden Application Programming Interfaces (APIs) entwickelt, um den programmatischen Zugriff zu ermöglichen und Anwendungsfälle zu adressieren, in denen die grafische Benutzeroberfläche (GUI) ineffizient sein kann. Eine Seite mit Versionshinweisen wurde in die Anwendung integriert, um Code-Updates im Laufe der Zeit zu verfolgen und zu kommunizieren.
Neue Datensätze und Chemikalien kommen derzeit wöchentlich hinzu; Nach der öffentlichen Veröffentlichung wird jedoch mit einem langsameren Veröffentlichungsplan gerechnet. Obwohl erhebliche Anstrengungen unternommen werden, um die Genauigkeit der Datensätze und der zugehörigen Metadaten zu gewährleisten, stammen viele der Daten aus öffentlichen Datenbanken. Daher ist eine vollständige Überprüfung jedes Datensatzes nicht möglich, und die Benutzer sollten sich darüber im Klaren sein, dass die absolute Datengenauigkeit nicht garantiert werden kann.
Dieses Papier gibt nicht unbedingt die Ansichten oder Richtlinien der U.S. Environmental Protection Agency wieder.
Die Autoren danken dem Kurationsteam für all seine Arbeit bei der Kuratierung von Chemikalien für die Datenbank sowie Joshua Powell, Asif Rashid und Freddie Valone für die technische Unterstützung beim Aufbau und Einsatz von AMOS. Wir danken auch Charles Lowe für seine Durchsicht des Manuskripts.
Name | Company | Catalog Number | Comments |
Git | N/A | https://git-scm.com/ | Open-source version control system. |
JavaScript | N/A | https://ecma-international.org/publications-and-standards/standards/ecma-262/ | Programming language. Defined by ECMA International standards. |
PostgreSQL | PostgreSQL Global Development Group | https://postgresql.org/about/licence | Open-source database management system. |
Python | Python Software Foundation | https://www.python.org/ | Open-source programming language. |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten