Method Article
Algorithmen des maschinellen Lernens wurden so trainiert, dass sie Muster der Gehirnaktivität verwenden, um Reize, die dem Menschen präsentiert werden, zu "entschlüsseln". Hier zeigen wir, dass die gleiche Technik naturalistische Videoinhalte aus dem Gehirn von zwei Haushunden entschlüsseln kann. Wir stellen fest, dass Decoder, die auf den Aktionen in den Videos basieren, bei Hunden erfolgreich waren.
Jüngste Fortschritte beim Einsatz von maschinellem Lernen und funktioneller Magnetresonanztomographie (fMRT) zur Entschlüsselung visueller Reize aus dem menschlichen und nichtmenschlichen Kortex haben zu neuen Erkenntnissen über die Natur der Wahrnehmung geführt. Dieser Ansatz wurde jedoch noch nicht im Wesentlichen auf andere Tiere als Primaten angewendet, was Fragen über die Art solcher Darstellungen im gesamten Tierreich aufwirft. Hier haben wir die Wach-fMRT bei zwei Haushunden und zwei Menschen verwendet, die jeweils beim Anschauen speziell erstellter hundegerechter naturalistischer Videos aufgenommen wurden. Anschließend trainierten wir ein neuronales Netz (Ivis), um den Videoinhalt von insgesamt 90 Minuten aufgezeichneter Gehirnaktivität von jedem zu klassifizieren. Wir testeten sowohl einen objektbasierten Klassifikator, der versuchte, Kategorien wie Hund, Mensch und Auto zu unterscheiden, als auch einen handlungsbasierten Klassifikator, der versuchte, Kategorien wie Essen, Schnüffeln und Sprechen zu unterscheiden. Im Vergleich zu den beiden menschlichen Probanden, bei denen beide Arten von Klassifikatoren weit über dem Zufall lagen, waren nur handlungsbasierte Klassifikatoren erfolgreich bei der Dekodierung von Videoinhalten der Hunde. Diese Ergebnisse zeigen die erste bekannte Anwendung des maschinellen Lernens zur Entschlüsselung naturalistischer Videos aus dem Gehirn eines Fleischfressers und deuten darauf hin, dass die Sicht des Hundes auf die Welt ganz anders sein könnte als unsere eigene.
Das Gehirn des Menschen zeigt, wie andere Primaten auch, die Aufteilung des visuellen Stroms in dorsale und ventrale Bahnen mit unterschiedlichen und bekannten Funktionen - das "Was" und "Wo" von Objekten1. Diese Was/Wo-Dichotomie war jahrzehntelang eine nützliche Heuristik, aber ihre anatomische Grundlage ist heute als viel komplexer bekannt, da viele Forscher eine Parzellierung bevorzugen, die auf Erkennen und Handeln basiert ("was" vs. "wie")2,3,4,5. Während unser Verständnis der Organisation des visuellen Systems von Primaten weiter verfeinert und diskutiert wird, ist noch viel darüber unbekannt, wie die Gehirne anderer Säugetierarten visuelle Informationen repräsentieren. Diese Lücke ist zum Teil ein Ergebnis der historischen Fokussierung auf eine Handvoll Arten in den visuellen Neurowissenschaften. Neue Ansätze in der Bildgebung des Gehirns eröffnen jedoch die Möglichkeit, das visuelle System eines breiteren Spektrums von Tieren nichtinvasiv zu untersuchen, was neue Einblicke in die Organisation des Nervensystems von Säugetieren liefern könnte.
Hunde (Canis lupus familiaris) bieten eine reichhaltige Gelegenheit, die Repräsentation visueller Reize bei einer Spezies zu untersuchen, die evolutionär von Primaten entfernt ist, da sie möglicherweise das einzige Tier sind, das darauf trainiert werden kann, kooperativ an MRT-Scans teilzunehmen, ohne dass eine Sedierung oder Fixierung erforderlich ist 6,7,8. Aufgrund ihrer Koevolution mit dem Menschen in den letzten 15.000 Jahren bewohnen Hunde auch unsere Umwelt und sind vielen der Reize ausgesetzt, denen Menschen täglich begegnen, einschließlich Videobildschirmen, die die bevorzugte Art der Darstellung von Reizen in einem MRT-Scanner sind. Trotzdem können Hunde diese üblichen Umweltreize auf eine Weise verarbeiten, die sich stark von der des Menschen unterscheidet, was die Frage aufwirft, wie ihr visueller Kortex organisiert ist. Grundlegende Unterschiede - wie das Fehlen einer Fovea oder die Tatsache, dass sie ein Dichromat sind - können nicht nur für die visuelle Wahrnehmung auf niedrigerem Niveau, sondern auch für die visuelle Repräsentation auf höherer Ebene erhebliche nachgelagerte Folgen haben. Mehrere fMRT-Studien an Hunden haben gezeigt, dass sowohl gesichts- als auch objektverarbeitende Regionen vorhanden sind, die der allgemeinen dorsalen/ventralen Strömungsarchitektur bei Primaten zu folgen scheinen, obwohl unklar bleibt, ob Hunde per se gesichtsverarbeitende Regionen haben oder ob diese Regionen für die Morphologie des Kopfes selektiv sind (z. B. Hund vs. Mensch)9, 10,11,12,13. Unabhängig davon würde vorhergesagt, dass das Gehirn eines Hundes, da es kleiner ist als das der meisten Primaten, weniger modularisiert ist14, so dass es zu einer stärkeren Vermischung der Arten von Informationen in den Strömen oder sogar zur Privilegierung bestimmter Arten von Informationen, wie z. B. Handlungen, kommen könnte. Es wurde zum Beispiel vermutet, dass Bewegung ein hervorstechenderes Merkmal bei der visuellen Wahrnehmung von Hunden sein könnte als Textur oder Farbe15. Da Hunde keine Hände haben, eines der wichtigsten Mittel, durch die wir mit der Welt interagieren, kann ihre visuelle Verarbeitung, insbesondere von Objekten, ganz anders sein als die von Primaten. In Übereinstimmung damit fanden wir kürzlich Hinweise darauf, dass die Interaktion mit Objekten durch Mund und Pfote zu einer stärkeren Aktivierung in objektselektiven Regionen im Hundegehirn führte16.
Obwohl Hunde in ihrer häuslichen Umgebung an Videobildschirme gewöhnt sind, bedeutet das nicht, dass sie es gewohnt sind, Bilder in einer Versuchsumgebung auf die gleiche Weise zu betrachten, wie es ein Mensch tun würde. Die Verwendung naturalistischerer Reize kann helfen, einige dieser Fragen zu klären. In den letzten zehn Jahren haben Algorithmen des maschinellen Lernens beachtliche Erfolge bei der Entschlüsselung naturalistischer visueller Reize aus der menschlichen Gehirnaktivität erzielt. Frühe Erfolge konzentrierten sich auf die Adaption klassischer, blockierter Designs, um die Gehirnaktivität zu nutzen, um sowohl die Arten von Reizen zu klassifizieren, die ein Individuum sah, als auch die Gehirnnetzwerke, die diese Repräsentationen kodierten 17,18,19. Mit der Entwicklung leistungsfähigerer Algorithmen, insbesondere neuronaler Netze, konnten komplexere Reize entschlüsselt werden, einschließlich naturalistischer Videos20,21. Diese Klassifikatoren, die in der Regel auf neuronale Reaktionen auf diese Videos trainiert werden, verallgemeinern sich auf neuartige Stimuli und ermöglichen es ihnen, zu identifizieren, was ein bestimmtes Subjekt zum Zeitpunkt der fMRT-Reaktion beobachtet hat. Zum Beispiel können bestimmte Arten von Aktionen in Filmen vom menschlichen Gehirn genau entschlüsselt werden, wie z. B. Springen und Drehen, während andere (z. B. Ziehen) dies nicht können22. Obwohl viele Arten von Objekten aus fMRT-Antworten dekodiert werden können, scheinen allgemeine Kategorien schwieriger zu sein. Die Entschlüsselung des Gehirns ist nicht auf den Menschen beschränkt und bietet ein leistungsfähiges Werkzeug, um zu verstehen, wie Informationen in den Gehirnen anderer Spezies organisiert sind. Analoge fMRT-Experimente mit nichtmenschlichen Primaten haben im Temporallappen unterschiedliche Repräsentationen für die Dimensionen von Lebendigkeit und Faszination/Körperlichkeit gefunden, die denen beim Menschen entsprechen23.
Als erster Schritt zum Verständnis der Repräsentationen naturalistischer visueller Reize bei Hunden wurde die Wach-fMRT bei zwei sehr MRT-versierten Haushunden eingesetzt, um die kortikalen Reaktionen auf hundegeeignete Videos zu messen. In dieser Studie wurden naturalistische Videos aufgrund ihrer potenziell größeren ökologischen Validität für einen Hund und aufgrund ihres nachgewiesenen Erfolgs mit neuronalen Netzen, die Videoinhalte auf die Bewegung von Hunden abbilden24, verwendet. In drei separaten Sitzungen wurden 90 Minuten fMRT-Daten aus den Reaktionen jedes Hundes auf 256 einzigartige Videoclips gewonnen. Zum Vergleich: Das gleiche Verfahren wurde an zwei menschlichen Freiwilligen durchgeführt. Dann trainierten und testeten wir mit einem neuronalen Netzwerk Klassifikatoren, um entweder "Objekte" (z. B. Mensch, Hund, Auto) oder "Aktionen" (z. B. Sprechen, Essen, Schnüffeln) mit einer unterschiedlichen Anzahl von Klassen zu unterscheiden. Die Ziele dieser Studie waren zweierlei: 1) festzustellen, ob naturalistische Videoreize aus dem Hundekortex dekodiert werden können; und 2) wenn ja, geben Sie einen ersten Einblick, ob die Organisation der des Menschen ähnlich war.
Die Hundestudie wurde von der Emory University IACUC (PROTO201700572) genehmigt, und alle Besitzer gaben ihre schriftliche Zustimmung zur Teilnahme ihres Hundes an der Studie. Die Studienverfahren am Menschen wurden vom IRB der Emory University genehmigt, und alle Teilnehmer gaben vor dem Scannen eine schriftliche Einwilligung ab (IRB00069592).
1. Teilnehmer
2. Reize
3. Versuchsplanung
4. Bildgebung
5. Labels für Stimulus
6. fMRT-Vorverarbeitung
7. Analysen
Zu den gebräuchlichsten Metriken zum Bewerten der Modellleistung in Machine Learning-Analysen gehören Präzision, Genauigkeit, Abruf und F1-Bewertung. Genauigkeit ist der Gesamtprozentsatz der Modellvorhersagen, die unter Berücksichtigung der wahren Daten richtig sind. Die Genauigkeit ist der Prozentsatz der positiven Vorhersagen des Modells, die tatsächlich positiv sind (d. h. die Richtig-Positiv-Rate), während die Erinnerung der Prozentsatz der richtig positiven Ergebnisse in den ursprünglichen Daten ist, die das Modell erfolgreich vorhersagen kann. Der F1-Score ist der gewichtete Durchschnitt von Präzision und Abruf und fungiert als alternatives Maß für die Genauigkeit, das robuster gegenüber Klassenungleichgewichten ist. Der Ivis unterscheidet sich jedoch von anderen häufig verwendeten Algorithmen des maschinellen Lernens dadurch, dass seine Ausgabe nicht binär ist. Bei einer bestimmten Eingabe von Gehirnvoxeln stellt jedes Ausgabeelement die Wahrscheinlichkeiten dar, die jeder der Klassen entsprechen. Die Berechnung von Genauigkeit, Präzision, Abruf und F1 für diese Ausgaben erforderte eine Binarisierung nach dem Motto "Der Gewinner bekommt alles", wobei die Klasse mit der höchsten Wahrscheinlichkeit als die für dieses Volumen vorhergesagte Klasse betrachtet wurde. Bei diesem Ansatz wurden wichtige Informationen über die Rangfolge dieser Wahrscheinlichkeiten eliminiert, die für die Beurteilung der Qualität des Modells relevant waren. Während wir also weiterhin diese traditionellen Metriken berechnet haben, haben wir den LRAP-Wert (Label Ranking Average Precision) als primäre Metrik verwendet, um die Genauigkeit des Modells im Testsatz zu berechnen. Diese Metrik misst im Wesentlichen, inwieweit der Klassifikator den True-Labels höhere Wahrscheinlichkeiten zuordnete37.
In unterschiedlichem Maße war der Klassifikator des neuronalen Netzes sowohl für Menschen als auch für Hunde erfolgreich. Für den Menschen war der Algorithmus in der Lage, sowohl Objekte als auch Aktionen zu klassifizieren, wobei Drei-Klassen-Modelle für beide eine mittlere Genauigkeit von 70 % erreichten. Der LRAP-Score wurde als primäre Metrik verwendet, um die Genauigkeit des Modells im Testsatz zu berechnen. Diese Metrik misst das Ausmaß, in dem der Klassifikator den True-Labels höhere Wahrscheinlichkeiten zugewiesenhat 37. Bei beiden Menschen waren die medianen LRAP-Scores für alle getesteten Modelle größer als das 99. Perzentil eines zufällig permutierten Satzes von Labels (Tabelle 1; Abbildung 2). Bei Hunden hatte nur das Aktionsmodell bei beiden Teilnehmern einen medianen LRAP-Perzentilrang, der signifikant größer war als der Zufall (Tabelle 1; p = 0,13 für Objekte und p < 0,001 für Aktionen; mittlerer LRAP-Score des Drei-Klassen-Aktionsmodells für Hunde = 78. Perzentil). Diese Ergebnisse galten sowohl für alle Probanden einzeln als auch für die Gruppierung nach Arten.
Angesichts des Erfolgs des Klassifizierers haben wir mit zusätzlichen Klassen trainiert und getestet, um die Grenzen des Modells zu bestimmen. Dazu gehörte die Berechnung von Unähnlichkeitsmatrizen für die gesamten 52 potenziellen Klassen von Interesse unter Verwendung des hierarchischen Clustering-Algorithmus des Python-Pakets scipy, der Klassen basierend auf der Ähnlichkeit der Gehirnreaktion eines Individuums auf jede einzelne gruppierte, wie sie durch paarweise Korrelation definiert ist. Von den zusätzlich getesteten Modellen hatte das Modell mit dem höchsten medianen LRAP-Perzentil-Ranking bei beiden Hunden fünf Klassen: die ursprünglichen Klassen "Sprechen", "Fressen" und "Schnüffeln" sowie zwei neue Klassen, "Streicheln" und "Spielen" (Abbildung 2). Dieses Modell hatte einen medianen LRAP-Perzentilrang, der signifikant höher war als der zufällig für alle Teilnehmer vorhergesagte (Tabelle 1; p < 0,001 sowohl für Hunde als auch für Menschen; Mittlerer LRAP-Score des Fünf-Klassen-Aktionsmodells für Hunde = 81. Perzentil).
Bei der Rückkartierung auf ihre jeweiligen Hirnatlanten zeigten die Merkmalsbedeutungswerte der Voxel eine Reihe von Clustern informativer Voxel im okzipitalen, parietalen und temporalen Kortex sowohl von Hunden als auch von Menschen (Abbildung 3). Beim Menschen zeigten die objektbasierten und handlungsbasierten Modelle ein fokussiveres Muster als bei Hunden und in Regionen, die typischerweise mit Objekterkennung assoziiert sind, wenn auch mit leichten Unterschieden in der räumlichen Lokalisierung von objektbasierten Voxeln und handlungsbasierten Voxeln.
Wir überprüften, dass diese Artenunterschiede nicht das Ergebnis der aufgabenkorrelierten Bewegung der Hunde waren, die sich zu bestimmten Arten von Videos mehr bewegten als zu anderen (z. B. Videos mit anderen als Hunden, z. B. Autos). Wir berechneten die euklidische Norm der sechs Bewegungsparameter und passten ein lineares Mixed-Effects-Modell mit dem R-Paket lme4 an, mit Klasse als festem Effekt und Laufnummer als Zufallseffekt für jeden Hund. Für jedes der endgültigen Modelle fanden wir keinen signifikanten Effekt des Klassentyps auf die Bewegung für Daisy (F(2, 2252) = 0,83, p = 0,44 für objektbasiert und F(4, 1235) = 1,87, p = 0,11 für aktionsbasiert) oder Bhubo (F(2, 2231) = 1,71, p = 0,18 für objektbasiert und F(4, 1221) = 0,94, p = 0,45 für aktionsbasiert).
Abbildung 1: Naturalistische Videos und Präsentation in MRT-Fassung. (A) Beispielbilder aus Videoclips, die den Teilnehmern gezeigt wurden. (B) Bhubo, ein 4-jähriger Boxer-Mix, der Videos anschaut, während er sich einer fMRT im Wachzustand unterzieht. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 2: Modellleistung bei Hunden und Menschen. Die Verteilung der LRAP-Scores, dargestellt als Perzentil-Rankings ihrer Nullverteilungen, über 100 Iterationen des Trainings und Testens des Ivis-Algorithmus für maschinelles Lernen für ein objektbasiertes Modell mit drei Klassen, ein aktionsbasiertes Modell mit drei Klassen und ein aktionsbasiertes Modell mit fünf Klassen, wobei Modelle versuchten, BOLD-Reaktionen auf naturalistische Videostimuli zu klassifizieren, die über Wach-fMRT bei Hunden und Menschen. Die Bewertungen werden nach Arten aggregiert. Ein LRAP-Score mit einem sehr hohen Perzentil-Ranking deutet darauf hin, dass es sehr unwahrscheinlich ist, dass das Modell diesen LRAP-Score zufällig erreicht. Ein Modell, das nicht besser als der Zufall abschneidet, hätte einen Median des LRAP-Score-Perzentil-Rankings von ~50. Gestrichelte Linien stellen die mediane LRAP-Score-Perzentil-Rangfolge für jede Art über alle 100 Läufe dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 3: Regionen, die für die Unterscheidung von Drei-Klassen-Objekt- und Fünf-Klassen-Handlungsmodellen wichtig sind. (A) Menschliche und (B) Hunde-Teilnehmer. Die Voxel wurden nach ihrer Merkmalsbedeutung mit einem Random-Forest-Klassifikator eingestuft, der über alle Iterationen der Modelle gemittelt wurde. Die oberen 5% der Voxel (d.h. diejenigen, die zum Trainieren von Modellen verwendet werden) werden hier dargestellt, nach Arten aggregiert und zu Visualisierungszwecken in den Gruppenraum transformiert (Atlanten: Mensch34 und Hund35). Die Beschriftungen zeigen Gehirnregionen von Hunden mit hohen Werten für die Merkmalsbedeutung, basierend auf den von Johnson et al.35 identifizierten. Abkürzung: SSM = der suprasylvische Gyrus. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Modelltyp | Genauigkeit des Trainings | Genauigkeit des Tests | F1-Punktzahl | Präzision | Rückruf | Median-Perzentil des LRAP-Scores | |
Mensch 1 | Objekt (3 Klassen) | 0.98 | 0.69 | 0.48 | 0.52 | 0.49 | >99 |
Aktion (3 Klassen) | 0.98 | 0.72 | 0.51 | 0.54 | 0.54 | >99 | |
Aktion (5 Klassen) | 0.97 | 0.51 | 0.28 | 0.37 | 0.27 | >99 | |
Mensch 2 | Objekt (3 Klassen) | 0.98 | 0.68 | 0.45 | 0.5 | 0.47 | >99 |
Aktion (3 Klassen) | 0.98 | 0.69 | 0.46 | 0.5 | 0.48 | >99 | |
Aktion (5 Klassen) | 0.97 | 0.53 | 0.3 | 0.4 | 0.27 | >99 | |
Bhubo | Objekt (3 Klassen) | 0.99 | 0.61 | 0.38 | 0.41 | 0.39 | 57 |
Aktion (3 Klassen) | 0.98 | 0.63 | 0.38 | 0.4 | 0.4 | 87 | |
Aktion (5 Klassen) | 0.99 | 0.45 | 0.16 | 0.29 | 0.13 | 88 | |
Gänseblümchen | Objekt (3 Klassen) | 1 | 0.61 | 0.38 | 0.43 | 0.39 | 43 |
Aktion (3 Klassen) | 0.97 | 0.62 | 0.35 | 0.38 | 0.35 | 60 | |
Aktion (5 Klassen) | 0.99 | 0.44 | 0.16 | 0.27 | 0.13 | 76 |
Tabelle 1: Aggregierte Metriken des Ivis-Algorithmus für maschinelles Lernen über 100 Iterationen von Training und Tests von BOLD-Reaktionen auf naturalistische Videoreize, die über Wach-fMRT bei Hunden und Menschen erhalten wurden. Die Objektmodelle hatten drei Zielklassen ("Hund", "Mensch", "Auto"), und die Aktionsmodelle hatten entweder drei oder fünf Klassen (drei Klassen: "sprechen", "essen", "schnüffeln"; fünf Klassen: "sprechen", "essen", "schnüffeln", "streicheln", "spielen"). Werte, die deutlich größer als der Zufall sind, werden fett dargestellt.
Ergänzende Tabelle 1: Klassenbezeichnungen. Bitte klicken Sie hier, um diese Datei herunterzuladen.
Ergänzender Film 1: Beispiel-Videoclip. Bitte klicken Sie hier, um diese Datei herunterzuladen.
Die Ergebnisse dieser Studie zeigen, dass naturalistische Videos Repräsentationen im Gehirn von Hunden induzieren, die über mehrere Bildgebungssitzungen hinweg stabil genug sind, dass sie mit fMRT entschlüsselt werden können - ähnlich den Ergebnissen, die sowohl bei Menschen als auch bei Affen erzielt wurden20,23. Während frühere fMRT-Studien des visuellen Systems von Hunden abgespeckte Reize wie ein Gesicht oder ein Objekt vor einem neutralen Hintergrund präsentiert haben, zeigen die Ergebnisse hier, dass naturalistische Videos, in denen mehrere Menschen und Objekte miteinander interagieren, Aktivierungsmuster im Hundekortex induzieren, die mit einer Zuverlässigkeit entschlüsselt werden können, die der des menschlichen Kortex nahe kommt. Dieser Ansatz eröffnet neue Wege der Untersuchung, wie das visuelle System des Hundes organisiert ist.
Obwohl das Gebiet der fMRT bei Hunden schnell gewachsen ist, stützten sich diese Experimente bisher auf relativ dürftige Reize, wie z. B. Bilder von Menschen oder Objekten vor neutralen Hintergründen 10,12,13. Obwohl diese Experimente begonnen haben, Gehirnregionen zu identifizieren, die analog zur fusiformen Gesichtszone (FFA) von Primaten sind, die an der Gesichtsverarbeitung beteiligt ist, und dem lateralen okzipitalen Kortex (LOC) für die Objektverarbeitung, gibt es nach wie vor Uneinigkeit über die Art dieser Repräsentationen, wie z.B. ob Hunde per se Gesichtsbereiche haben, die auf ähnliche hervorstechende Merkmale wie Primaten reagieren, oder ob sie getrennte Repräsentationen für Hunde und Menschen oder Gesichter und Köpfe haben. Zum Beispiel 9,13. Hunde sind natürlich keine Primaten, und wir wissen nicht, wie sie diese künstlichen Reize interpretieren, losgelöst von ihren üblichen multisensorischen Kontexten mit Geräuschen und Gerüchen. Einige Hinweise deuten darauf hin, dass Hunde Bilder von Objekten nicht als Darstellungen realer Dinge behandeln12. Obwohl es nicht möglich ist, ein echtes multisensorisches Erlebnis im Scanner zu schaffen, kann die Verwendung naturalistischer Videos einen Teil der Künstlichkeit abschwächen, indem dynamische Reize bereitgestellt werden, die der realen Welt besser entsprechen, zumindest für einen Hund. Aus den gleichen Gründen hat die Verwendung naturalistischer Reize in der menschlichen fMRT-Forschung an Popularität gewonnen, was beispielsweise zeigt, dass Ereignissequenzen in einem Film im Kortex über mehrere Zeitskalen hinweg dargestellt werden und dass Filme eine zuverlässige Emotionsaktivierung wirksam induzierenkönnen 38. Obwohl naturalistische Videos nach wie vor relativ arme Reize sind, wirft ihr Erfolg in den menschlichen Neurowissenschaften die Frage auf, ob ähnliche Ergebnisse bei Hunden erzielt werden können.
Unsere Ergebnisse zeigen, dass ein Klassifikator für neuronale Netze erfolgreich darin war, einige Arten von naturalistischen Inhalten aus Hundegehirnen zu entschlüsseln. Dieser Erfolg ist angesichts der Komplexität der Reize eine beeindruckende Leistung. Da der Klassifikator an ungesehenen Videoclips getestet wurde, erkannte das Decodierungsmodell breite Kategorien, die über Clips hinweg identifizierbar waren, und nicht Eigenschaften, die für einzelne Szenen spezifisch waren. Wir sollten beachten, dass es mehrere Metriken gibt, um die Leistung eines Klassifikators für maschinelles Lernen zu quantifizieren (Tabelle 1). Da naturalistische Videos von Natur aus nicht alle Klassen gleich häufig vorkommen, haben wir einen vorsichtigen Ansatz gewählt, indem wir eine Nullverteilung aus der zufälligen Permutation von Labels konstruiert und die damit verbundene Signifikanz bewertet haben. Dann stellten wir fest, dass der Erfolg der Hundemodelle statistisch signifikant war und Werte von 75 bis 90 Perzentilen erreichte, aber nur, wenn die Videos auf der Grundlage der vorhandenen Aktionen wie Spielen oder Sprechen codiert wurden.
Die Testsätze waren im Gegensatz zu den Trainingssätzen nicht klassenübergreifend ausgewogen. Da nur 20 % der Daten erfasst wurden, hätte die Unterstichprobenziehung auf die kleinste Klassengröße zu sehr kleinen Stichprobengrößen für jede Klasse geführt, so dass die berechneten Statistiken unzuverlässig gewesen wären. Um die Möglichkeit einer überhöhten Genauigkeit durch dieses Ungleichgewicht zu vermeiden, wurde die Nullverteilung des LRAP berechnet, indem die Reihenfolge der Klassen für jede Modelliteration 1.000 Mal zufällig permutiert wurde. Diese NULL-Verteilung diente als Referenz dafür, wie gut das Modell wahrscheinlich zufällig funktionierte. Anschließend wurde der wahre LRAP in eine Perzentilrangfolge in dieser NULL-Verteilung konvertiert. Ein sehr hohes Perzentil-Ranking, z. B. 95 %, würde bedeuten, dass ein so hoher Wert nur in 5 % der Fälle in 1.000 zufälligen Permutationen auftrat. Ein solches Modell könnte daher als weit über dem Zufall liegend angesehen werden. Um festzustellen, ob diese Perzentil-Rankings signifikant höher sind als die zufällig erwartete, d. h. das 50. Perzentil, wurde statistisch gesehen die mediane LRAP-Perzentil-Rangfolge über alle 100 Iterationen für jedes Modell berechnet und ein Wilcoxon-Rangtest mit Vorzeichen bei einer Stichprobe durchgeführt.
Obwohl das primäre Ziel darin bestand, einen Decoder für naturalistische visuelle Reize für Hunde zu entwickeln, sind Vergleiche mit dem Menschen unvermeidlich. Hier stellen wir zwei Hauptunterschiede fest: Für jede Art von Klassifikator schnitten die menschlichen Modelle besser ab als die Hundemodelle; Und die menschlichen Modelle schnitten sowohl bei objekt- als auch bei aktionsbasierten Modellen gut ab, während die Hundemodelle nur bei aktionsbasierten Modellen abschnitten. Die überlegene Leistung der menschlichen Modelle könnte auf mehrere Faktoren zurückzuführen sein. Menschliche Gehirne sind etwa 10-mal größer als Hundegehirne, so dass es mehr Voxel gibt, aus denen man wählen kann, um einen Klassifikator zu erstellen. Um die Modelle auf eine gleiche Stufe zu stellen, sollte man die gleiche Anzahl von Voxeln verwenden, aber dies kann entweder im absoluten oder relativen Sinne sein. Obwohl das endgültige Modell auf den oberen 5% der informativen Voxel in jedem Gehirn basierte (ein relatives Maß), wurden ähnliche Ergebnisse mit einer festen Anzahl von Voxeln erzielt. Daher scheint es wahrscheinlicher, dass Leistungsunterschiede damit zusammenhängen, wie Menschen und Hunde Videoreize wahrnehmen. Wie oben erwähnt, sind Hunde und Menschen zwar beide multisensorisch in ihrer Wahrnehmung, aber die Reize können für einen Hund ärmer sein als für einen Menschen. Größenhinweise können zum Beispiel verloren gehen, da alles wie eine Spielzeugversion der realen Welt aussieht. Es gibt Hinweise darauf, dass Hunde Objekte nach Größe und Textur kategorisieren, bevor sie Form haben, was fast das Gegenteil von Menschen ist39. Darüber hinaus ist der Geruch, der hier nicht berücksichtigt wird, wahrscheinlich eine wichtige Informationsquelle für die Objektunterscheidung bei Hunden, insbesondere bei der Identifizierung von Artgenossen oder Menschen 40,41,42. Aber selbst ohne Größen- oder Geruchshinweise in der ungewöhnlichen Umgebung des MRT-Scanners sagt die Tatsache, dass der Klassifikator überhaupt funktionierte, dass es immer noch Informationen gab, die für die Hunde relevant waren und aus ihrem Gehirn wiederhergestellt werden konnten. Bei nur zwei Hunden und zwei Menschen könnten die Artenunterschiede auch auf individuelle Unterschiede zurückzuführen sein. Die beiden Hunde stellten jedoch die besten der MRT-trainierten Hunde dar und zeichneten sich dadurch aus, dass sie beim Anschauen von Videos still hielten. Während eine größere Stichprobengröße sicherlich zuverlässigere Unterscheidungen zwischen den Spezies ermöglichen würde, wird die geringe Anzahl von Hunden, die in der Lage sind, Wach-fMRT durchzuführen und Videos lange genug ansehen, die Verallgemeinerbarkeit immer auf alle Hunde beschränken. Es ist zwar möglich, dass spezialisierte Rassen wie Windhunde fein abgestimmte visuelle Gehirnreaktionen haben, aber wir glauben, dass das individuelle Temperament und die Ausbildung eher die Hauptdeterminanten dafür sind, was aus dem Gehirn eines Hundes wiederhergestellt werden kann.
Diese Artenunterschiede werfen die Frage auf, auf welchen Aspekt der Videos die Hunde geachtet haben. Ein Ansatz zur Beantwortung dieser Frage setzt auf einfachere Video-Stimuli. Indem wir dann isolierte Bilder von Menschen, Hunden und Autos verwenden, sowohl einzeln als auch zusammen vor neutralen Hintergründen, könnten wir in der Lage sein, die hervorstechenden Dimensionen auf einen Hund zurückzuentwickeln. Dies ist jedoch sowohl methodisch ineffizient als auch verarmt die Reize aus der realen Welt weiter. Die Frage der Aufmerksamkeit kann allein durch den Dekodierungsansatz gelöst werden, d. h. durch die Verwendung der Modellleistung, um zu bestimmen, worauf geachtet wird43. In diesem Sinne deuten die Ergebnisse darauf hin, dass die Menschen sich zwar sowohl um die Akteure als auch um die Handlungen kümmerten, während sich die Hunde mehr auf die Handlungen selbst konzentrierten. Dies kann auf Unterschiede in Bewegungsmerkmalen auf niedriger Ebene zurückzuführen sein, wie z. B. die Bewegungshäufigkeit, wenn Individuen spielen und nicht essen, oder es könnte auf eine kategorische Darstellung dieser Aktivitäten auf einer höheren Ebene zurückzuführen sein. Die Verteilung der informativen Voxel in der Hirnrinde des Hundes deutet darauf hin, dass es sich bei diesen Repräsentationen nicht nur um Low-Level-Merkmale handelt, die sonst auf visuelle Regionen beschränkt wären. Weitere Studien mit einer größeren Vielfalt an Videoreizen könnten die Rolle der Bewegung bei der Kategoriediskriminierung durch Hunde beleuchten.
Zusammenfassend lässt sich sagen, dass diese Studie die Machbarkeit der Wiederherstellung naturalistischer visueller Informationen aus der Hirnrinde von Hunden mit Hilfe von fMRT auf die gleiche Weise gezeigt hat, wie dies bei der menschlichen Großhirnrinde der Fall ist. Diese Demonstration zeigt, dass auch ohne Geräusche oder Gerüche hervorstechende Dimensionen komplexer Szenen von Hunden beim Anschauen von Videos kodiert werden und dass diese Dimensionen aus ihrem Gehirn wiederhergestellt werden können. Zweitens können aufgrund der geringen Anzahl von Hunden, die diese Art von Aufgabe ausführen können, die Informationen im Kortex weiter verbreitet sein, als dies normalerweise beim Menschen der Fall ist, und die Arten von Handlungen scheinen leichter wiederhergestellt zu werden als die Identität der Akteure oder Objekte. Diese Ergebnisse eröffnen eine neue Art der Untersuchung, wie Hunde die Umwelt wahrnehmen, die sie mit Menschen teilen, einschließlich Videobildschirmen, und schlagen reichhaltige Wege für die zukünftige Erforschung der Art und Weise vor, wie sie und andere Nicht-Primatentiere die Welt "sehen".
Nichts.
Wir danken Kate Revill, Raveena Chhibber und Jon King für ihre hilfreichen Einblicke in die Entwicklung dieser Analyse, Mark Spivak für seine Unterstützung bei der Rekrutierung und Ausbildung von Hunden für die MRT und Phyllis Guo für ihre Hilfe bei der Videoerstellung und -kennzeichnung. Wir danken auch unseren engagierten Hundebesitzern Rebecca Beasley (Daisy) und Ashwin Sakhardande (Bhubo). Die Humanstudien wurden durch ein Stipendium des National Eye Institute (Grant R01 EY029724 an D.D.D.) unterstützt.
Name | Company | Catalog Number | Comments |
3 T MRI Scanner | Siemens | Trio | |
Audio recordings of scanner noise | homemade | none | |
Camera gimbal | Hohem | iSteady PRO 3 | |
Dog-appropriate videos | homemade | none | |
fMRI processing software | AFNI | 20.3.01 | |
Mock scanner components | homemade | none | Mock head coil and scanner tube |
Neural net software | Ivis | 1.7.1 | |
Optical flow software | OpenCV | 4.2.0.34 | |
Projection system for scanner | homemade | none | |
Trophy Cam HD | Bushnell | 119874 | |
Video camera | GoPro | HERO7 | |
Visualization software | ITK-SNAP | 3.6.0 | |
Windows Video Editor | Microsoft | Windows 11 version |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten