Zusammenfassung
In diesem Artikel wird eine fNIRS-EEG-Emotionsdatenbank (FEAD) vorgeschlagen, die zum Trainieren von Emotionserkennungsmodellen verwendet werden kann. Die Studie erfasste die elektrische Aktivität des Gehirns und die hämodynamischen Reaktionen des Gehirns von insgesamt 37 Probanden sowie die Klassifizierung und Dimensionsbewertung von 24 Arten emotionaler audiovisueller Reize durch die Probanden. Der Zusammenhang zwischen neurophysiologischen Signalen und subjektiven Bewertungen wurde untersucht und es wurden signifikante Korrelationen in der präfrontalen Kortexregion gefunden. Die Datenbank wird öffentlich zugänglich gemacht und soll Forscher dazu ermutigen, fortschrittlichere Algorithmen für affektive Computer- und Emotionserkennung zu entwickeln.
Einführung
Emotionen sind eine kurzlebige und intensive Reaktion des Nervensystems auf einen bestimmten Reiz. Viele Studien haben gezeigt, dass kortikale und subkortikale Nervenstrukturen des Gehirns an der Regulierung und Verarbeitung von Emotionen beteiligt sind. Da das Nervensystem eine wichtige Rolle bei der Steuerung, Reaktion auf und Regulierung psychologischer Prozesse spielt, kann uns das Verständnis seiner Funktion dabei helfen, wirksame Indikatoren für Emotionen zu identifizieren. Unsere Sinnesrezeptoren erkennen Veränderungen in der inneren und äußeren Umgebung und übermitteln diese Veränderungen über Aktionspotentiale (Signale) an relevante Teile des Nervensystems des Gehirns. Gefühle, Gedanken und Entscheidungen sind das Ergebnis der Synthese dieser Sinneseindrücke. Das Nervensystem ermöglicht es dem Menschen dann, bewusst oder unbewusst auf Veränderungen in seiner Umgebung zu reagieren, indem es Signale an verschiedene Organe wie Muskeln und Drüsen sendet. Daraus ergeben sich drei Hauptwege zur Emotionsmessung: 1) Messung von Biomarkern durch Erfassung physiologischer Signale (wie Atemfrequenz, Herzschlag oder neuronale elektrische Aktivität); 2) Überwachung äußerer Manifestationen (wie Makro-/Mikro-Gesichtsausdrücke oder Körpersprache); ;3) Subjektive Beurteilung (z. B. Selbstberichtsmaßnahmen).
Bei der Auswahl des oder der Emotionsindikatoren, die den emotionalen Zustand einer Person am besten widerspiegeln, muss die Komplexität menschlicher Emotionen berücksichtigt werden. Obwohl externe Indikatoren leicht zu beobachten und zu erhalten sind, erschweren verschiedene Faktoren, darunter soziale Verpflichtungen und persönliche Gewohnheiten, für externe Beobachter das Verständnis der mit diesen Indikatoren verbundenen Emotionen. Andererseits kann es aufgrund von Faktoren wie einem niedrigen Signal-Rausch-Verhältnis, individuellen psychophysiologischen Mechanismen, dem Geschlecht sowie psychologischen und physischen Merkmalen schwierig sein, physiologische Signale zu interpretieren. Allerdings sind Biomarker weniger anfällig für externe Indikatoren und schwer zu verbergen oder zu verschleiern. Darüber hinaus haben die technologischen Fortschritte in den letzten Jahren die Datenerfassung einfach und kostengünstig gemacht, sodass physiologische Signale zuverlässig zur Erkennung menschlicher Emotionen genutzt werden können.
Wenn es darum geht, menschliche Emotionen auf semantische affektive Zustände abzubilden, gibt es zwei weithin akzeptierte Rahmenwerke: die Theorie der diskreten Emotionen und die Theorie der dimensionalen Emotionen. Die Theorie der diskreten Emotionen geht davon aus, dass es einen Kernsatz von Emotionen gibt, der beim Menschen kulturübergreifend identifizierbar ist. Ekmans sechs Grundemotionen, darunter Wut, Ekel, Angst, Glück, Traurigkeit und Überraschung, sind ein beliebtes Modell in der Theorie der diskreten Emotionen. Jeder emotionale Zustand ist einzigartig und universell und weist spezifische Merkmale auf, die es ihm ermöglichen, ein breites Spektrum an Emotionen klar zu definieren und zu beschreiben. Angesichts der Komplexität menschlicher Emotionen und der unterschiedlichen Ansichten über die grundlegenden emotionalen Komponenten haben andere Forscher jedoch Methoden zur Abbildung affektiver Zustände auf mehrdimensionalen Achsen vorgeschlagen, die sogenannte dimensionale Emotionstheorie. Es gibt verschiedene Modelle dieser Theorie. Beispielsweise verwendet das dreidimensionale PAD-Modell Vergnügen, Erregung und Dominanz, um menschliche Emotionen zu beschreiben, wobei Vergnügen den Grad des Glücks oder Vergnügens darstellt, Erregung den Grad der Wachsamkeit darstellt und Dominanz das Gefühl des Einflusses auf die Umgebung darstellt. Ein weiteres beliebtes Dimensionsmodell ist das Zirkumplex-Modell, das versucht, Emotionen auf zwei Achsen abzubilden: Vergnügen und Erregung. Das von Plutchik (2003) vorgeschlagene Emotionsrad kombiniert Kategorientheorie und Dimensionstheorie. Es ordnet die vier gegensätzlichen Primäremotionen – Glück, Angst, Traurigkeit und Wut – in konzentrischen Kreisen an. Hier verwendet dieser Artikel das PAD-Dimensionsmodell und die vier Kategorien von Emotionen in Plutchiks Emotionsrad, um den grundlegenden Wahrheitswert zu ermitteln.
In den letzten Jahren wurden viele Emotions-Benchmark-Datenbanken veröffentlicht, die einzelne (unimodale) oder mehrere (multimodale) Emotionsindikatoren und eine oder mehrere Emotionstheorien verwenden. Beispielsweise erfasst die Berlin Emotion Speech Database (Emo-DB) 535 Sätze, die von 10 Schauspielern (fünf Männer und fünf Frauen) gesprochen wurden, mit dem Ziel, ihre Emotionen sechs Emotionskategorien (glücklich, wütend, ängstlich, Angst, Langeweile und Ekel) zuzuordnen ). Die Datensätze „Spontaneous Microexpressions“ (SMIC) und „Spontaneous Microfacial Movements“ (SAMM) sind ebenfalls monomodale Datenbanken, in denen die Gesichtsausdrücke der Teilnehmer aufgezeichnet und ihre Emotionen in kategoriale Emotionen umgewandelt werden. Ebenso nutzt der SEED-Datensatz die physiologischen Signale (EEG) von 15 Teilnehmern, um deren Emotionen zu klassifizieren. Die Komplexität menschlicher psychologischer Zustände, des subjektiven Bewusstseins und der unbewussten Eigenschaften sowie die Notwendigkeit eines umfassenden Verständnisses menschlicher Emotionen haben Forscher jedoch dazu veranlasst, multimodale Forschung zur Emotionserkennung durchzuführen. Der AMIGOS-Datensatz sammelt drei physiologische Signale und Videoaufzeichnungsinformationen von Gesichtern und Körpern von 40 Personen, um deren subtile emotionale Veränderungen zu identifizieren. DEAP, MAHNOB-HCI, RECOLA, DREAMER und DECAF sind ebenfalls multimodale Datenbanken, die Augenbewegungen, Gesichtsvideos, Sprache und physiologische Signale (EEG, Elektromyographie (EMG), Elektrokardiogramm (EKG), elektrodermale Aktivität (EDA)) der Teilnehmer aufzeichnen. .
Da das Gehirn eine zentrale Rolle bei der Verarbeitung und Erzeugung emotionaler Reaktionen spielt, kann die Messung neuronaler Aktivität wertvolle Einblicke in diesen Prozess liefern und uns helfen, besser zu verstehen, wie Emotionen ausgedrückt werden. Technologien wie EEG und fNIRS sind relativ kostengünstig und eignen sich hervorragend für die Erfassung dynamischer Informationen über das Gehirn. Einige frühe Studien haben die Komplementarität dieser Techniken in hybriden Umgebungen hervorgehoben, insbesondere im Kontext der Emotionsforschung zur Messung der neurovaskulären Kopplung (der Beziehung zwischen zerebralem Blutfluss und neuronaler Aktivität). Obwohl es einige öffentlich zugängliche fNIRS-EEG-Datenbanken gibt, die sich auf motorische Bilder, mentale Belastung und Bewegungsartefaktanalyse konzentrieren, gibt es unseres Wissens derzeit nur eine öffentlich verfügbare fNIRS-EEG-Datenbank, die sich auf die Emotionserkennung konzentriert. Dieser Datensatz enthält Datensätze von nur fünf Teilnehmern. Daher fehlt derzeit eine umfassende, groß angelegte Emotionsdatenbank mit fNIRS- und EEG-Signalen für die Emotionsforschung.
In dieser Studie wurde die fNIRS-EEG Emotion Database (FEAD) erstellt, die gleichzeitig EEG- und fNIRS-Signale von 37 Teilnehmern aufzeichnete, während diese auf 24 emotionale Hinweise (audiovisuelle Reize) reagierten. Dieses bimodale Maß wurde dann in ein dimensionales Emotionsmodell abgebildet, wobei die Self-Rating Scale of Mood (SAM) für subjektive Selbstbewertungen verwendet wurde, die Valenz, Erregung und Dominanz sowie die vier diskreten Kategorien Glück, Wut, Angst, und Traurigkeit. Darüber hinaus enthält die FEAD-Datenbank die Antworten der Teilnehmer zur Videovertrautheit, demografische Informationen und die Positive and Negative Affectiveness Scale (PANAS), die Informationen über den emotionalen Zustand der Teilnehmer vor dem Experiment liefert. Diese Studie untersucht diesen Hybridaufbau als System zur Messung emotionaler Biomarker und demonstriert vorläufige Ergebnisse der dimensionalen Emotionsklassifizierung von fNIRS und EEG als unimodale und bimodale Systeme.
Experimentelle Verfahren
Reizdatenbank
Derzeit gibt es eine Vielzahl von Emotionsinduktionsparadigmen, die hauptsächlich in zwei Kategorien unterteilt werden: endogene und exogene Emotionsinduktion. Bei der endogenen Methode müssen sich die Probanden an Erinnerungen erinnern, die sich auf bestimmte Emotionen beziehen (solche Erinnerungen sind unsicher und unkontrollierbar). Exogene Methoden induzieren die Emotionen der Probanden durch äußere Stimulation. Exogene Emotionsinduktionsparadigmen werden in der Emotionserkennungsforschung häufiger eingesetzt, da Forscher in der Lage sind, die den Probanden bereitgestellten Reize zu kontrollieren.
Standardisierte Tools zur Emotionsinduktion umfassen verschiedene Reiztypen wie Bilder, Audio, Video, Sprache, Videospiele und virtuelle Realität (VR). Jeder Reiztyp hat seine Vorteile und Grenzen, und die Wahl des Reiztyps hängt von der spezifischen Forschungsfrage ab. Hier entschied sich diese Studie für die Videostimulation, da sie die Vorteile einer hohen ökologischen Validität, einer schnellen Aufmerksamkeitserregung, kleiner Bewegungsartefakte usw. bietet und ein Erlebnis bieten kann, das der realen Welt nahe kommt.
150 Videoclips wurden von YouTube nach folgenden Kriterien gesammelt:
1. Das Video weckt eine Emotion.
2. Das Video enthält keine Wasserzeichen, Logos oder offensichtliche Werbung, um Voreingenommenheit auszuschließen.
3. Der Inhalt des Videos sollte so klar sein, dass die Teilnehmer ihn ohne zusätzliche Erklärung verstehen können.
4. Wählen Sie Videos mit weniger Aufrufen, um störende Effekte wie Vertrautheit zu minimieren.
5. Das Video ist lang genug, um hämodynamische Reaktionen zu verfolgen, beeinträchtigt jedoch nicht die Stimmung, führt nicht zu Müdigkeit und erhöht die kognitive Belastung nicht.
Zwei Psychologen (1 Mann und 1 Frau) überprüften die Videos und identifizierten 76 80 Sekunden lange Videoclips, die ein breites Spektrum an Szenarien abdeckten (z. B. menschliche Interaktionen, Tiere, Natur, Essen und Komödie).
Um die Wirksamkeit dieser Videos bei der Auslösung von Emotionen weiter zu überprüfen, führte diese Studie eine Umfrage auf Amazon Mechanical Turk (MTurk) durch. Die Befragten wurden gebeten, sich 76 Videos anzusehen und zu jedem Video fünf Fragen zu beantworten. Bei der ersten Frage geht es um die Vertrautheit des Probanden mit dem Video, die anhand einer standardmäßigen 5-Punkte-Likert-Skala bewertet wird (1=überhaupt nicht vertraut, 5=sehr vertraut). Die nächsten drei Fragen verwenden eine standardmäßige 9-Punkte-Likert-Skala (SAM-Skala), um die Wertigkeit, Erregung und Dominanz (VAD) der Emotion zu bewerten. Bei der letzten Frage geht es um die Kernemotionen auf der Hauptachse in Plutchiks Emotionsrad. Die MTurk-Umfrage für diese Studie ist auf Personen über 18 Jahre und Personen mit MTurk-Master-Qualifikationen beschränkt. Im Rahmen dieser Studie wurden über einen Zeitraum von 14 Tagen 169 Antworten gesammelt, von denen 106 vollständig waren. Um die Zuverlässigkeit der Umfrageergebnisse zu verbessern, wurden in dieser Studie Elemente mit sehr kurzen Antwortzeiten gelöscht, um die Möglichkeit auszuschließen, dass Probanden den Fragebogen ausgefüllt haben, ohne das Video anzusehen. Schließlich wurden Daten von 73 Probanden (45 Männer und 28 Frauen) mit einem Durchschnittsalter von µ=32,8 Jahren und σ2=9,30 erhalten. Die Bewertungen dieser Probanden wurden analysiert, um eine Videobibliothek zur Verwendung in dieser Studie aufzubauen.
Basierend auf den Ergebnissen der MTurk-Umfrage und den durchschnittlichen Valenzwerten wurden die Videos in drei Kategorien eingeteilt: positiv, neutral und negativ. Um doppelte Inhalte zu vermeiden und sicherzustellen, dass ein vielfältiges Spektrum an Erregung und Dominanz abgedeckt wird, wählten zwei Forscher acht Videos aus jeder Gruppe aus.
Sammelausrüstung und Versuchsumgebung
Bisherige Untersuchungen haben gezeigt, dass die experimentelle Umgebung nicht nur einen erheblichen Einfluss auf die aufgezeichneten Daten, sondern auch auf den psychologischen Zustand der Probanden hat. Daher ist der Laboraufbau einfach und ablenkungsfrei gehalten (Abbildung 1). Das Licht im Raum wurde gedimmt, um zu verhindern, dass Umgebungslicht die Infrarotstrahlen beeinträchtigt. Um Bewegungsartefakte in EEG-Signalen zu reduzieren, statteten die Forscher die Probanden mit bequemen Stühlen mit verstellbarer Rückenlehne aus. Das LG-Display war 59,5 Zoll groß, hatte eine Bildwiederholfrequenz von 50/60 Hz und war in einem angenehmen Abstand platziert, sodass die Augen der Probanden auf die Mitte des Bildschirms fokussiert werden konnten. Alle Skalen werden auf einem 9,7-Zoll-iPad absolviert.
Abbildung 1. Experimentelle Umgebung.
Diese Studie sammelte gleichzeitig EEG- und fNIRS-Daten mithilfe der Hardware von g.Nautilus Research. g.Nautilus ist ein kabelloses, batteriebetriebenes EEG-Gerät, das mit 16 Nasselektroden sowie einer Referenzelektrode und einer Erdungselektrode ausgestattet ist. Das g.SENSOR 8 fNIRS-Kanal-Zusatzgerät besteht aus 8 Sendern und 2 Empfängern, die über eine Magnethalterung an der EEG-Haube befestigt werden. Das Gerät entspricht einem standardmäßigen 10/20-Layoutsystem und unterstützt sowohl die Anbringung der fNIRS-Sonde als auch die flexible Platzierung der EEG-Elektrode. Das EEG-Signal hatte eine Abtastrate von 500 Hz, eine Empfindlichkeit von ±187,5 mV und wurde mit einem 50-Hz-Notch-Filter aufgezeichnet. Wenden Sie einen 0,01-100-Hz-Bandpassfilter an. Die Abtastrate des fNIRS-Signals beträgt 10 Hz und der Abstand zwischen jedem Sender und Empfänger beträgt 30 mm. Infrarotlicht mit Wellenlängen von 785 nm und 850 nm wird verwendet, um die Veränderungen der Lichtabsorption von Hämoglobinmolekülen im Gehirnblutfluss zu messen. Der differenzielle Pfadlängenfaktor (DPF) für alle Probanden betrug 6.
In dieser Studie wurden die folgenden Gehirnregionen überwacht: medialer präfrontaler Kortex (mPFC), dorsolateraler präfrontaler Kortex (DLPFC), unterer Parietallappen, Frontpol, zusätzlicher motorischer Kortex, oberer Gyrus temporalis und Broca-Bereich. Abbildung 2 zeigt die Positionen der EEG-Elektroden und der fNIRS-Sonde, wobei andere Positionen mithilfe des International 10/5-Systems grob kalibriert wurden. Die ungefähren Standorte der fNIRS-Sender sind AF4h, AF3h, F8h, F7h, AFF10h, AFF9h, NFp2 und NFp1; die Empfängerstandorte sind AF7h und AF8h. Die Positionen der EEG-Elektroden sind FC3, FC4, FC5, FC6, CP3, CP4, T7, T8, F7, F8, AF5, AF6, F1, F2, FPz und AFz.
Abbildung 2. Lage der EEG-Elektroden (schwarz) und der fNIRS-Sonde (blau).
Teilnehmer
An diesem Experiment nahmen insgesamt 37 Probanden (17 Frauen und 20 Männer) im Alter zwischen 22 und 44 Jahren teil (µ=28,97, σ2=5,73). Alle Probanden hatten ein normales oder auf den Normalwert korrigiertes Sehvermögen und es wurden keine neurologischen oder psychologischen Störungen wie eine bipolare Störung oder eine Depression diagnostiziert. Die Probanden wurden gebeten, innerhalb von zwei Stunden vor Beginn des Experiments auf das Essen und Trinken von koffeinhaltigem Tee oder Kaffee zu verzichten. Diese Studie wurde am Auckland Institute of Bioengineering durchgeführt und vom Human Participants Ethics Committee (UAHPEC) der University of Auckland genehmigt. Die Daten werden anonymisiert, um sie öffentlich zugänglich zu machen.
Versuchsprotokoll
Jeder Proband besuchte zu Beginn des Experiments das Labor, um sich mit der Umgebung vertraut zu machen, und die Forscher gaben eine kurze Einführung in die Ausrüstung, um Ängste abzubauen und die Auswirkungen zusätzlicher Variablen zu reduzieren. Anschließend erfolgt eine Einführung in die Versuchsdurchführung und eine Erläuterung der Untersuchungsskalen. Nach der Unterzeichnung der Einverständniserklärung wurden die Probanden gebeten, vor der Studie einen Fragebogen auszufüllen, der demografische Fragen (Alter, Geschlecht, Händigkeit und Sprache) und eine Standard-PANAS-Skala enthielt. PANAS ist eine 20-Punkte-Selbstberichtsskala, die positive und negative Emotionen auf einer 5-Punkte-Skala misst. Diese Skala wurde verwendet, um den allgemeinen emotionalen Zustand der Probanden vor Beginn der Studie zu beurteilen.
Um den Einfluss der Haardichte und -farbe des Probanden auf die Infrarotlichtübertragung und die EEG-Signale zu verringern, wurde in dieser Studie ein Kamm verwendet, um die Haare zu trennen und die Haare auf der Stirn zu reinigen, bevor die Elektroden an der Kopfhaut befestigt wurden. Um die Klarheit des Tons zu gewährleisten und sicherzustellen, dass die Probanden von der äußeren Umgebung isoliert sind, werden vor dem Experiment Kopfhörer vorbereitet und die entsprechende Lautstärke an die Bedürfnisse jedes Probanden angepasst.
Das Experiment bestand aus drei Phasen mit jeweils acht Versuchen (Abb. 3). Anschließend wurden die 24 ausgewählten Videos pseudozufällig in drei experimentelle Teilmengen aufgeteilt. Auf jedes positive oder negative Video folgte ein neutrales Video. Bei jedem Versuch sahen sich die Probanden ein 80-sekündiges Video an und hatten dann 35 Sekunden Zeit, ihre Emotionen zu bewerten. Anschließend blickten sie in die Mitte des Bildschirms und atmeten fünf Sekunden lang tief durch, um sich auf den nächsten Versuch vorzubereiten. Um Müdigkeit und Schläfrigkeit vorzubeugen, gibt es zwischen den einzelnen Etappen eine Ruhepause von zwei bis drei Minuten. Nach jedem Video wurden die Probanden gebeten, fünf Fragen zu beantworten: (I) Kennen Sie dieses Video? Bewertet anhand einer 5-stufigen Likert-Skala (1: Überhaupt nicht vertraut; 5: Sehr vertraut); (II) bis (IV) sind Fragen auf der 9-stufigen SAM-Skala (Abbildung 4); Beschreiben Sie Ihre Gefühle (Glück, Traurigkeit, Angst, Wut). Experimentelle Details sind in Tabelle 1 aufgeführt.
Abbildung 3. Versuchsprotokoll.
Abbildung 4. Subjektive emotionale Beurteilung von Valenz, Erregung und Dominanz mittels SAM.
Tabelle 1. Zusammenfassung der experimentellen Informationen.
subjektive Beurteilungsanalyse
Wie bereits erwähnt, wurden in dieser Studie die gesammelten Videos in drei Kategorien (negativ, positiv und neutral) unterteilt, um ein breites Spektrum an Emotionen hervorzurufen. Abbildung 5 zeigt die durchschnittlichen Valenzbewertungen von 37 Probanden für jede Kategorie ausgewählter Reize. Durch den Wilcoxon-Signed-Rank-Test wurde festgestellt, dass es einen signifikanten Unterschied in den Valenzwerten zwischen negativen und neutralen Reizen gab (p<0,001) und ebenso einen signifikanten Unterschied zwischen neutralen und positiven Reizen (p<0,001).
Abbildung 5. Wertigkeitsbewertungen negativer, positiver und neutraler Videos.
Über den gesamten Datensatz hinweg betrugen die durchschnittlichen Bewertungen für Valenz, Erregung und Dominanz 5,35 (±2,74), 5,06 (±2,28) bzw. 5,16 (±2,35). Abbildung 7 zeigt die breite Abdeckung jedes emotionalen Zustands in jeder Phase. Darüber hinaus waren laut dem Wilcoxon-Signed-Rank-Test die Unterschiede in den Bewertungen von mTurk-Befragten und Versuchspersonen in Bezug auf Valenz, Erregung und Dominanz statistisch nicht signifikant (da p>0,05 für alle Dimensionen) (Abbildung 6). Dies bedeutet, dass die beiden Probandengruppen ähnlich auf den ausgewählten Reiz reagierten.
Abbildung 6. Vergleich der Bewertungsbereiche von mTurk-Umfrageteilnehmern und Versuchspersonen.
Abbildung 7. Durchschnittliche Bewertungen von Valenz, Erregung und Dominanz für jede Phase.
Um mögliche Störeffekte oder Anzeichen von Müdigkeit zu untersuchen, untersuchte diese Studie die mittleren Korrelationen zwischen den Bewertungen der Probanden (Tabelle 2). Die Ergebnisse der Studie zeigten eine mäßige positive Korrelation zwischen Vertrautheit und Wertigkeit und eine schwache positive Korrelation zwischen Vertrautheit und Dominanz. Obwohl kein Zusammenhang zwischen Ursache und Wirkung vermutet wurde, neigten die Menschen dazu, positivere Gefühle gegenüber bekannteren Videos zu hegen. Darüber hinaus gab es eine signifikante positive Korrelation zwischen Valenz und Dominanz und eine negative Korrelation zwischen Valenz und Erregung. Allerdings waren diese Korrelationen schwach, was darauf hindeutet, dass die Probanden während des Bewertungsprozesses in der Lage waren, verschiedene Skalen klar zu verstehen und zwischen ihnen zu unterscheiden. Die Reizreihenfolge hatte keinen signifikanten Zusammenhang mit den Valenz-, Erregungs- oder Dominanzwerten, was darauf hindeutet, dass Gewöhnungs- oder Ermüdungseffekte nur einen geringen Einfluss haben.
Tabelle 2. Mittlere Korrelationen zwischen subjektiven Bewertungen von Vertrautheit, Wertigkeit, Erregung, Dominanz und Präsentationsreihenfolge. * zeigt p<0,05 an.
Conjoint-Analyse
Datenvorverarbeitung
Verschiedene Rauschquellen können EEG- und fNIRS-Signale stören und die Dateninterpretation erschweren. Viele der in EEG-Signalen beobachteten Artefakte wie Schwitzen, langsames Driften, Blinzeln und Augenbewegungen treten hauptsächlich im Niederfrequenzbereich (<4 Hz) auf, während andere Artefakte wie Zähneknirschen und Muskelbewegungen dort auftreten der höhere Frequenzbereich. Obwohl fNIRS-Signale robuster gegenüber Bewegungsartefakten sind als EEG-Signale, können sie dennoch durch Instrumentenrauschen (>3 Hz), Meyer-Wellen (0,1 Hz), Atmung (0,2–0,5 Hz), Herzfrequenz (1–1,5 Hz) usw. beeinflusst werden Störungen durch Blutdruckschwankungen.
Um den Rechenaufwand zu reduzieren, wird das Signal auf 250 Hz heruntergesampelt. Zur Filterung wird ein Butterworth-Filter dritter Ordnung verwendet, bei dem der Filterbereich von EEG [4–80]Hz und der Filterbereich von fNIRS [0,0125–0,7]Hz beträgt, um das oben genannte Rauschen zu entfernen. Die letzten zwei Sekunden der 5-sekündigen Ruhephase vor jedem Reiz dienten als Basislinie, und das 80-s-Video wurde zur Analyse des emotionalen Zustands verwendet. Es ist bekannt, dass unterschiedliche Basiskorrekturmethoden zu unterschiedlichen Ergebnissen führen können. Hier verwendet diese Studie den Mittelwert und die Standardabweichung der Basislinie, um die experimentellen Daten zu normalisieren.
Aufgrund der Komplexität und der instationären Natur der Gehirndynamik kann die Auswahl spezifischer Merkmale zur Darstellung physiologischer Signale eine Herausforderung sein und sich wiederum auf die Interpretation der Daten auswirken. Es gibt viele Funktionen im Zeit-, Frequenz- und räumlichen Bereich, von denen jede ihre Vorteile hat. Diese Studie verwendet Bandleistung (BP) und Differentialentropie (DE), um die spektralen Eigenschaften und nichtlinearen dynamischen Eigenschaften von Modalitäten darzustellen, die beide in Emotionserkennungssystemen wirksam sind. Darüber hinaus extrahierte diese Studie auch den Mittelwert der fNIRS-Daten, um eine zusätzliche Perspektive auf die Gefäßdynamik zu bieten. Zur Schätzung des Blutdrucks verwendet diese Studie die Welch-Methode (Fenstergröße beträgt 4 Sekunden) und berechnet die Fläche der spektralen Leistungsdichte (PSD) innerhalb des interessierenden Frequenzbands.
Korrelation neurovaskulärer Daten und Scores
Um festzustellen, ob EEG- und fNIRS-Daten mit subjektiven Bewertungen korrelieren, wurde in den mittleren 40 Sekunden jedes Versuchs eine Korrelationsanalyse durchgeführt. Der Blutdruck wurde verwendet, um die Korrelation der beiden Modalitäten zu bewerten und einen direkten Vergleich zu ermöglichen. Darüber hinaus wurde die Korrelation von HbO und HbR mit den Testergebnissen der Probanden bewertet. Diese Studie berechnete den Spearman-Korrelationskoeffizienten zwischen der Frequenzleistung und den subjektiven Bewertungen jedes Signaltyps und berechnete den p-Wert für 37 Probanden unter der Annahme einer Unabhängigkeit zwischen den Daten. Die 37 Spearman-p-Werte für jeden Signaltyp und jeden Kanal wurden dann mithilfe der Fisher-Methode zu einem einzigen p-Wert kombiniert. Das Signifikanzniveau liegt bei p<0,05. Die Ergebnisse sind in Tabelle 3 dargestellt. Es ist zu beobachten, dass in allen emotionalen Zustandsdimensionen die durchweg signifikanten Kanäle hauptsächlich in den Präfrontallappen (AF5, AFz, F1, Fpz) und Temporallappen (T7, T8) liegen. Dieses Ergebnis ähnelt früheren Studien, in denen EEG zur Emotionserkennung verwendet wurde.
Tabelle 3. Durchschnittliche Korrelation zwischen fNIRS-Optode und EEG-Elektrode (p<0,05). (*=p<0,01, ∗*=p<0,001).
Diese Studie beobachtete eine starke Korrelation zwischen Titer und EEG-Signalen in allen Frequenzbändern. Die Alpha-Band-Leistung in der zentralen Region (CP3) nahm mit steigenden Valenzwerten zu. Erregungs- und EEG-Signale waren über alle Frequenzbänder hinweg signifikant korreliert. Insbesondere fand diese Studie eine signifikante negative Korrelation zwischen Erregung und Theta-Band- und Alpha-Band-Leistung im PFC-Bereich. Bezüglich der Dominanz deuten die Ergebnisse der vorliegenden Studie darauf hin, dass die rechte Hemisphäre eine wesentlichere Rolle spielt, was sich in den ausgeprägten Elektroden in den Bereichen F2, FC6 und T8 widerspiegelt.
Die Analyse der fNIRS-Signaturen in drei Dimensionen ergab signifikante Korrelationen zwischen Oxygenierungs- und Desoxygenierungssignalen. Dieser Befund steht im Einklang mit der Studie von Bandara et al. (2018), dass neben Oxygenierungssignalen auch Desoxygenierungssignale eine entscheidende Rolle bei der Unterscheidung von Valenz und Erregung spielen. Die Ergebnisse dieser Studie zeigen, dass das fNIRS-Signal die stärkste Korrelation mit dem Potenz-Score aufweist. Insbesondere löste die aktive Stimulation einen Anstieg der Frequenzbandleistung des AFF10h-Oxygenierungssignals in der PFC-Region aus, während sie gleichzeitig eine Abnahme der Frequenzbandleistung des Desoxygenierungssignals in den F8h-, AF4h- und F7h-Regionen verursachte. Darüber hinaus zeigten die Desoxygenierungsniveaus der NFp1- und AF3h-Kanäle eine signifikant positive Korrelation mit der Wirksamkeit (p<0,01). Bezüglich der Erregung wurde ein Anstieg sowohl der Bandstärke als auch des Oxygenierungssignals an der AFF10h-Position beobachtet. Im Hinblick auf die Dominanz nahm der durchschnittliche Desoxygenierungsgrad der NFp1-Kanäle ab.
abschließend
Diese Studie schlägt die fNIRS-EEG Emotion Database (FEAD) vor, die neurohämodynamische Daten von 37 Probanden und affektive Zustandswerte für 24 emotionale Videoreize enthält. Diese Studie verwendet tragbare Geräte zur Aufzeichnung von EEG- und fNIRS-Signalen. Diese Methode bietet die Möglichkeit, affektive Computertechnologien und Algorithmen in verschiedene Anwendungen zu integrieren, und die Ergebnisse der Studie zeigen deutlich die Empfindlichkeit von EEG- und fNIRS-Signalen gegenüber emotionalen Dimensionen. Es besteht die Hoffnung, dass zukünftige Forschungen diese Datenbank nutzen werden, um neue Datenanalysemethoden zu erforschen und zu entwickeln.
Verwandte Artikel: AF Nia, V. Tang, V. Malyshau, A. Barde, GM Talou und M. Billinghurst, „FEAD: Einführung in die fNIRS-EEG-Affective-Datenbank – Videostimuli“, in IEEE Transactions on Affective Computing, doi: 10.1109/TAFFC.2024.3407380.