まとめ
この論文では、感情認識モデルのトレーニングに使用できる fNIRS-EEG 感情データベース FEAD を提案します。この研究では、合計37人の被験者の脳の電気活動と脳の血行力学的反応、および被験者による24種類の感情的視聴覚刺激の分類と次元評価が記録された。神経生理学的信号と主観的評価の間の関係が調査され、前頭前皮質領域で有意な相関関係が見つかりました。このデータベースは一般に公開され、研究者がより高度な感情コンピューティングおよび感情認識アルゴリズムを開発することを奨励することを目的としています。
導入
感情は、特定の刺激に対する神経系の短期間で激しい反応です。多くの研究は、大脳皮質および皮質下の神経構造が感情の調節と処理に関与していることを示しています。神経系は心理的プロセスの制御、反応、調節において重要な役割を果たすため、その機能を理解することは、感情の効果的な指標を特定するのに役立ちます。私たちの感覚受容体は、内部および外部環境の変化を検出し、これらの変化を活動電位 (信号) を通じて脳の神経系の関連部分に伝達します。感情、思考、決定は、これらの感覚入力の総合の結果です。そして、神経系は、筋肉や腺などのさまざまな器官に信号を送信することで、人々が環境の変化に意識的または無意識的に反応できるようにします。これにより、感情測定には 3 つの主な手段が生まれます。1) 生理学的信号 (呼吸数、心拍数、神経電気活動など) を収集することによってバイオマーカーを測定する、2) 外部症状 (マクロ/ミクロの表情やボディランゲージなど) をモニタリングする。 ;3) 主観的な評価 (自己申告による評価など)。
個人の感情状態を最もよく表す感情指標を選択するには、人間の感情の複雑さを考慮する必要があります。外部指標は観察して入手するのが簡単ですが、社会的義務や個人の習慣などのさまざまな要因により、外部の観察者がこれらの指標に関連する感情を理解することが困難になります。一方、生理学的信号は、低い信号対雑音比、個人の精神生理学的メカニズム、性別、心理的および身体的特徴などの要因により、解釈が困難な場合があります。ただし、バイオマーカーは外部指標の影響を受けにくく、隠蔽したり変装したりするのが困難です。さらに、近年の技術の進歩により、データ収集が簡単かつ安価になり、生理学的信号を確実に使用して人間の感情を検出できるようになりました。
人間の感情を意味論的な感情状態にマッピングする場合、離散感情理論と次元感情理論という 2 つの広く受け入れられている枠組みがあります。離散感情理論では、人間には異文化間で識別可能な一連の感情の中核が存在すると仮定しています。エクマンの 6 つの基本的な感情 (怒り、嫌悪、恐怖、幸福、悲しみ、驚きを含む) は、離散感情理論の人気のモデルです。それぞれの感情状態は独特かつ普遍的であり、幅広い感情を明確に定義して説明できる特定の特徴を持っています。しかし、人間の感情の複雑さと基本的な感情要素に関するさまざまな見解を考慮して、他の研究者は感情状態を多次元軸にマッピングする方法、いわゆる次元感情理論を提案しています。この理論にはいくつかの異なるモデルがあります。たとえば、PAD の 3 次元モデルは、喜び、覚醒、および支配を使用して人間の感情を表します。喜びは幸福または喜びの度合いを表し、覚醒は警戒レベルを表し、支配は周囲の環境への影響の感覚を表します。もう 1 つの人気のある次元モデルは、感情を喜びと覚醒という 2 つの軸にマッピングしようとする環状モデルです。 Plutchik (2003) によって提案された感情ホイールは、カテゴリー理論と次元理論を組み合わせたものです。それは、幸福、恐怖、悲しみ、怒りという相反する 4 つの主要な感情を同心円状に配置します。ここで、この論文では、PAD 次元モデルと Plutchik の感情ホイールの感情の 4 つのカテゴリを使用して、基本的な真理値を確立します。
近年、単一 (単峰性) または複数 (多峰性) の感情指標と 1 つ以上の感情理論を使用する多くの感情ベンチマーク データベースがリリースされています。たとえば、ベルリン感情スピーチ データベース (Emo-DB) は、10 人の俳優 (男性 5 人、女性 5 人) が話した 535 文を記録しており、その目的は、俳優の感情を 6 つの感情カテゴリー (幸せ、怒り、不安、恐怖、退屈、嫌悪) にマッピングすることです。 )。自発微表情 (SMIC) および自発微顔動き (SAMM) データセットもシングルモーダル データベースであり、参加者の顔の表情が記録され、参加者の感情がカテゴリ感情に変換されます。同様に、SEED データセットは 15 人の参加者の生理学的信号 (EEG) を使用して感情を分類します。しかし、人間の心理状態、主観的意識と無意識の特性の複雑さ、そして人間の感情を包括的に理解する必要性により、研究者は多峰性の感情認識研究を行うようになりました。 AMIGOS データセットは、40 人の個人から 3 つの生理学的信号と顔と体のビデオ記録情報を収集し、微妙な感情の変化を特定します。 DEAP、MAHNOB-HCI、RECOLA、DREAMER、および DECAF も、参加者の目の動き、顔のビデオ、音声および生理学的信号 (EEG、筋電図 (EMG)、心電図 (ECG)、皮膚電気活動 (EDA)) を記録するマルチモーダル データベースです。 。
脳が感情反応の処理と生成において中心的な役割を果たしていることを考えると、神経活動を測定することは、このプロセスに関する貴重な洞察を提供し、感情がどのように表現されるかをより深く理解するのに役立ちます。 EEG や fNIRS などの技術は比較的低コストで、脳に関する動的な情報の収集に優れています。いくつかの初期の研究では、特に神経血管結合(脳血流と神経活動の関係)を測定する感情研究の文脈において、ハイブリッド環境におけるこれらの技術の相補性が強調されています。運動イメージ、精神的負荷、運動アーチファクト分析に焦点を当てた公的に利用可能な fNIRS-EEG データベースはいくつかありますが、私たちの知る限り、感情認識に焦点を当てた公的に利用可能な fNIRS-EEG データベースは現在 1 つだけです。このデータセットには、5 人の参加者のみからのレコードが含まれています。したがって、感情研究のための fNIRS 信号と EEG 信号を含む包括的で大規模な感情データベースが現在不足しています。
ここで、この研究は fNIRS-EEG 感情データベース (FEAD) を作成し、37 人の参加者が 24 の感情的な手がかり (視聴覚刺激) に反応したときの EEG 信号と fNIRS 信号を同時に記録しました。次に、この二峰性の尺度は、幸福、怒り、恐怖、感情の 4 つの個別のカテゴリだけでなく、感情、興奮、支配力をカバーする主観的な自己評価のための気分の自己評価スケール (SAM) を使用して、次元の感情モデルにマッピングされました。そして悲しみの感情。さらに、FEAD データベースには、ビデオの親しみやすさ、人口統計情報、および実験前の参加者の感情状態に関する情報を提供する肯定的および否定的感情尺度 (PANAS) に関する参加者の回答が含まれています。この研究では、感情バイオマーカーを測定するシステムとしてこのハイブリッド設定を検証し、単峰性および二峰性システムとしての fNIRS と EEG の予備的な次元感情分類結果を実証します。
実験手順
刺激データベース
現在、さまざまな感情誘導パラダイムがあり、主に内因性感情誘導と外因性感情誘導の 2 つのカテゴリに分類されます。内生的方法では、被験者は特定の感情に関連した記憶を思い出す必要があります(そのような記憶は不確実で制御できません)。外生的方法は、外部刺激を通じて被験者の感情を誘発します。外因性感情誘導パラダイムは、研究者が被験者に与える刺激を制御できるため、感情認識研究でより広く使用されています。
標準化された感情誘発ツールには、画像、音声、ビデオ、言語、ビデオ ゲーム、仮想現実 (VR) などのさまざまな種類の刺激が含まれます。各刺激タイプには利点と制限があり、刺激タイプの選択は特定の研究課題によって異なります。ここで、この研究ではビデオ刺激を選択しました。ビデオ刺激には、高い生態学的妥当性、迅速な注意喚起、小さなモーションアーチファクトなどの利点があり、現実世界に近い体験を提供できるためです。
次の基準を使用して、YouTube から 150 のビデオ クリップが収集されました。
1. ビデオは感情を呼び起こします。
2. 偏見を排除するために、ビデオには透かし、ロゴ、または明らかな広告はありません。
3. ビデオの内容は、追加の説明がなくても参加者が理解できるほど明確である必要があります。
4. 親しみやすさなどの混乱を招く影響を最小限に抑えるために、再生回数の少ない動画を選択します。
5. ビデオは血行力学的反応を追跡するのに十分な長さですが、気分に影響を与えたり、疲労を誘発したり、認知負荷を高めたりすることはありません。
2 人の心理学者 (男性 1 名、女性 1 名) がビデオをレビューし、幅広いシナリオ (人間関係、動物、自然、食べ物、コメディなど) をカバーする 80 秒の長さのビデオ クリップ 76 個を特定しました。
感情を引き出すこれらのビデオの有効性をさらに検証するために、この研究では Amazon Mechanical Turk (MTurk) で調査を実施しました。回答者は 76 本のビデオを視聴し、各ビデオに関する 5 つの質問に答えるように求められました。最初の質問は、被験者のビデオに対する精通度に関するもので、標準の 5 段階リッカート スケール (1= まったく精通していない、5= 非常に精通している) を使用して評価されます。次の 3 つの質問では、標準の 9 点リッカート スケール (SAM スケール) を使用して、感情の価度、覚醒、優勢 (VAD) を評価します。最後の質問は、Plutchik の感情ホイールの主軸にある核となる感情について尋ねます。この研究のためのMTurk調査は、18歳以上およびMTurkマスター資格を持つ人に限定されています。この研究では 14 日間で 169 件の回答が収集され、そのうち 106 件が完了しました。本研究では、調査結果の信頼性を高めるため、回答時間が非常に短い項目を削除し、被験者がビデオを見ずにアンケートを完了した可能性を排除しました。最終的に、73 人の被験者 (男性 45 人、女性 28 人) からデータが得られ、平均年齢はμ=32.8 歳、σ2=9.30 でした。これらの被験者の評価は、この研究で使用するビデオ ライブラリを構築するために分析されました。
MTurk の調査結果と平均価度スコアに基づいて、ビデオはポジティブ、ニュートラル、ネガティブの 3 つのカテゴリに分類されました。コンテンツの重複を避け、多様な興奮と支配を確実にカバーするために、2 人の研究者が各グループから 8 本のビデオを選択しました。
採取装置と実験環境
これまでの研究では、実験環境が記録データだけでなく被験者の心理状態にも大きな影響を与えることがわかっています。したがって、実験室のセットアップはシンプルに保たれ、気を散らすことはありません (図 1)。周囲の光が赤外線に悪影響を及ぼさないように、部屋の照明は暗くされました。 EEG信号の動きアーチファクトを軽減するために、研究者らは被験者に快適な背もたれ調節可能な椅子を装着させた。 LG ディスプレイのサイズは 59.5 インチで、リフレッシュ レートは 50/60Hz で、被験者の目が画面の中心に集中できるように快適な距離に設置されました。すべてのスケールは 9.7 インチ iPad 上で完了します。
図 1. 実験環境。
この研究では、g.Nautilus Research ハードウェアを使用して EEG データと fNIRS データを同時に収集しました。 g.Nautilus は、16 個の湿式電極、参照電極、接地電極を備えたバッテリー駆動のワイヤレス EEG デバイスです。 g.SENSOR 8 fNIRS チャネル アドオン デバイスは、8 つの送信機と 2 つの受信機で構成され、磁気ブラケットを介して EEG キャップに固定されています。このユニットは標準の 10/20 レイアウト システムに準拠しており、fNIRS プローブの取り付けと柔軟な EEG 電極の配置の両方をサポートしています。 EEG 信号のサンプリング レートは 500 Hz、感度は ±187.5 mV で、50 Hz のノッチ フィルターを使用して記録されました。 0.01 ~ 100Hz のバンドパス フィルターを適用します。 fNIRS信号のサンプリングレートは10Hz、各送信機と受信機間の距離は30mmです。波長785nmおよび850nmの赤外光は、脳血流中のヘモグロビン分子の光吸収の変化を測定するために使用されます。すべての被験者の差動光路長係数 (DPF) は 6 でした。
この研究では、内側前頭前野 (mPFC)、背外側前頭前野 (DLPFC)、下頭頂小葉、前頭極、補足運動野、上側頭回、ブローカ野の脳領域をモニタリングしました。図 2 は、EEG 電極と fNIRS プローブの位置を示しており、他の位置は国際 10/5 システムを使用して大まかに校正されています。 fNIRS 送信機のおおよその位置は AF4h、AF3h、F8h、F7h、AFF10h、AFF9h、NFp2、および NFp1 であり、受信機の位置は AF7h と AF8h です。 EEG 電極の位置は、FC3、FC4、FC5、FC6、CP3、CP4、T7、T8、F7、F8、AF5、AF6、F1、F2、FPz、および AFz です。
図 2. EEG 電極 (黒) と fNIRS プローブ (青) の位置。
参加者
合計 37 人の被験者 (女性 17 人、男性 20 人) がこの実験に参加し、年齢範囲は 22 ~ 44 歳 (μ=28.97、σ2=5.73) でした。すべての被験者は正常または正常に矯正された視力を有しており、双極性障害やうつ病などの神経障害または心理障害は診断されていませんでした。被験者には、実験開始前の2時間以内にカフェイン入りのお茶やコーヒーの飲食を避けるよう求めた。この研究はオークランド生物工学研究所で実施され、オークランド大学人間参加者倫理委員会(UAHPEC)によって承認されました。データは匿名化され、一般にアクセスできるようになります。
実験プロトコル
各被験者は実験の開始時に実験室を訪れて環境に慣れ、研究者は不安を軽減し、追加の変数の影響を軽減するために機器の簡単な説明を行いました。続いて、実験手順の紹介と研究規模の説明が続きます。インフォームドコンセントフォームに署名した後、被験者は人口統計上の質問(年齢、性別、利き手、言語)および標準的な PANAS スケールを含む研究前のアンケートに記入するよう求められました。 PANAS は、ポジティブな感情とネガティブな感情を 5 段階で測定する 20 項目の自己申告尺度です。この尺度は、研究開始前に被験者の全体的な感情状態を評価するために使用されました。
被験者の毛髪の密度と色が赤外線の透過率と脳波信号に及ぼす影響を軽減するために、この研究では電極を頭皮に固定する前に櫛を使って毛髪を分け、額の毛髪をきれいにしました。音声の明瞭さを確保し、被験者を外部環境から確実に隔離するために、実験前にヘッドフォンを用意し、各被験者のニーズに応じて適切な音量を調整します。
実験は 3 つのフェーズで構成され、各フェーズには 8 つの試行が含まれていました (図 3)。次に、選択された 24 個のビデオが擬似ランダムに 3 つの実験用サブセットに分割されました。ポジティブまたはネガティブな各ビデオの後には、ニュートラルなビデオが続きました。各試験では、被験者は 80 秒のビデオを視聴し、その後 35 秒間で感情を評価し、次の試験に備えるために画面の中央を見て 5 秒間深呼吸しました。疲労や眠気を防ぐために、各ステージの間に 2 ~ 3 分の休憩時間があります。各ビデオの後、被験者は次の 5 つの質問に答えるように求められました: (I) このビデオをよく知っていますか? 5 点のリッカート スケールを使用して評価します (1: まったくよくわからない、5: 非常によく知っている)。(II) から (IV) は 9 点の SAM スケールでの質問です (図 4)。あなたの感情(幸福、悲しみ、恐怖、怒り)を説明してください。実験の詳細を表 1 に示します。
図 3. 実験プロトコル。
図 4. SAM を使用した価性、覚醒、支配性の主観的な感情評価。
表 1. 実験情報の概要。
主観的評価分析
前述したように、この研究では、収集したビデオを 3 つのカテゴリ (ネガティブ、ポジティブ、ニュートラル) に分類し、さまざまな感情を引き出しました。図 5 は、選択した刺激の各カテゴリーに対する 37 人の被験者の平均価度評価を示しています。 Wilcoxon の符号付き順位検定により、負の刺激と中性の刺激の間には価数スコアに有意な差があり (p<0.001)、同様に中性の刺激と正の刺激の間には有意な差があることがわかりました (p<0.001)。
図 5. ネガティブ、ポジティブ、ニュートラルなビデオの価値評価。
データセット全体にわたって、価性、覚醒、および支配性の平均評価は、それぞれ 5.35 (±2.74)、5.06 (±2.28)、および 5.16 (±2.35) でした。図 7 は、各段階における各感情状態の広範な範囲を示しています。さらに、Wilcoxon の符号付き順位検定によれば、mTurk の回答者と実験被験者の価性、覚醒、優越性に関する評価の差は統計的に有意ではありませんでした (すべての次元で p>0.05 であるため) (図 6)。これは、2 つの被験者グループが選択された刺激に対して同様に反応したことを意味します。
図 6. mTurk 調査回答者と実験被験者の評価範囲の比較。
図 7. 各フェーズの価度、覚醒、および支配性の平均評価。
潜在的な交絡効果または疲労の兆候を調べるために、この研究では被験者の評価間の平均相関関係を調査しました (表 2)。研究の結果、親密度と価数の間には中程度の正の相関関係があり、親密度と支配力の間には弱い正の相関関係があることがわかりました。因果関係は示唆されていませんが、人々は見慣れたビデオに対してよりポジティブな感情を抱く傾向がありました。さらに、価数と支配性の間には有意な正の相関があり、価数と覚醒の間には負の相関があった。ただし、これらの相関関係は弱く、被験者が採点プロセス中に異なるスケールを明確に理解して区別できたことを示しています。刺激の順序は、価度、覚醒、または支配スコアとは有意に関連しておらず、慣れや疲労効果による影響がほとんどないことを示唆しています。
表 2. 親しみやすさ、価度、覚醒、支配性、および提示順序の主観的評価間の平均相関。 * は p<0.05 を示します。
コンジョイント分析
データの前処理
さまざまなノイズ源が EEG および fNIRS 信号に干渉し、データの解釈を複雑にする可能性があります。発汗、ゆっくりとしたドリフト、瞬き、目の動きなど、EEG 信号で観察されるアーチファクトの多くは、主に低周波数範囲 (<4 Hz) で発生しますが、歯の食いしばりや筋肉の動きなどの他のアーチファクトは、低周波数範囲 (<4 Hz) で発生します。より高い周波数範囲、より広い周波数範囲。 fNIRS 信号は EEG 信号よりも運動アーチファクトに対して堅牢ですが、それでも機器ノイズ (>3Hz)、マイヤー波 (0.1Hz)、呼吸 (0.2 ~ 0.5Hz)、心拍数 (1 ~ 1.5Hz)、および血圧変動による干渉。
計算コストを削減するために、信号は 250Hz にダウンサンプリングされます。フィルタリングには3次バターワースフィルタが使用され、EEGのフィルタリング範囲は[4-80]Hz、fNIRSのフィルタリング範囲は[0.0125-0.7]Hzで、上記のノイズを除去します。各刺激前の 5 秒間の休止期間の最後の 2 秒がベースラインとして機能し、80 秒間のビデオが感情状態の分析に使用されました。ベースライン補正方法が異なれば、結果も異なる可能性があることが知られています。ここで、この研究ではベースラインの平均と標準偏差を使用して実験データを正規化します。
脳のダイナミクスの複雑さと非定常的な性質により、生理学的信号を表す特定の特徴を選択することは困難な場合があり、結果としてデータの解釈に影響を与えます。時間、周波数、空間領域には多くの機能があり、それぞれに利点があります。本研究では、感情認識システムに有効な帯域パワー(BP)と微分エントロピー(DE)を用いて、モダリティのスペクトル特性と非線形動的特性を表現しています。さらに、この研究では、血管動態に関する追加の観点を提供するために、fNIRS データの平均値も抽出しました。 BP を推定するために、この研究ではウェルチ法 (ウィンドウ サイズは 4 秒) を採用し、対象の周波数帯域内のパワー スペクトル密度 (PSD) の面積を計算します。
神経血管データとスコアの相関関係
EEG および fNIRS データが主観的評価と相関するかどうかを判断するために、各試験の中央 40 秒で相関分析が実行されました。 BP を使用して 2 つのモダリティの相関関係を評価し、直接比較しました。さらに、HbO および HbR と被験者のスコアとの相関関係が評価されました。この研究では、各信号タイプの周波数パワーと主観的評価の間のスピアマン相関係数を計算し、データ間の独立性を仮定して 37 人の被験者の p 値を計算しました。次に、各信号タイプおよび各チャネルの 37 の Spearman p 値が、Fisher の方法を使用して単一の p 値に結合されました。有意水準は p<0.05 です。結果を表3に示す。すべての感情状態の次元において、一貫して重要なチャネルは主に前頭前葉 (AF5、AFz、F1、Fpz) と側頭葉 (T7、T8) に位置していることが観察できます。この結果は、感情認識にEEGを使用した以前の研究と同様です。
表 3. fNIRS オプトードと EEG 電極間の平均相関 (p<0.05)。 (*=p<0.01、**=p<0.001)。
この研究では、すべての周波数帯域で力価とEEG信号の間に強い相関関係が観察されました。中央(CP3)領域のアルファバンドパワーは、価数スコアの増加とともに増加しました。覚醒信号と EEG 信号は、すべての周波数帯域にわたって有意に相関していました。特に、この研究では、覚醒と、PFC 領域のシータバンドおよびアルファバンドのパワーとの間に有意な負の相関があることがわかりました。優位性に関して、本研究の結果は、領域 F2、FC6、および T8 の突出電極に反映されているように、右半球がより重要な役割を果たしていることを示唆しています。
三次元での fNIRS シグネチャの分析により、酸素化シグナルと脱酸素化シグナル間の有意な相関関係が明らかになりました。この発見は、酸素化シグナルに加えて、脱酸素化シグナルも価数と覚醒を区別する上で重要な役割を果たすという Bandara et al. (2018) の研究と一致しています。この研究の結果は、fNIRS シグナルが効力スコアと最も強い相関関係を持っていることを示しています。具体的には、能動刺激は、PFC 領域の AFF10h 酸素化信号の周波数帯域パワーの増加を引き起こし、一方、F8h、AF4h、および F7h 領域の脱酸素信号の周波数帯域パワーの減少を引き起こしました。さらに、NFp1 および AF3h チャネルの脱酸素レベルは、効力と有意な正の相関関係を示しました (p<0.01)。覚醒に関しては、AFF10h 位置でのバンドパワーと酸素化シグナルの両方の増加が観察されました。優勢性の観点からは、NFp1 チャネルの平均脱酸素レベルが減少しました。
結論は
この研究は、37 人の被験者の神経血行動態データと 24 の感情ビデオ刺激の感情状態スコアを含む fNIRS-EEG 感情データベース (FEAD) を提案します。この研究では、ポータブル デバイスを使用して EEG および fNIRS 信号を記録します。この方法は、感情コンピューティング技術とアルゴリズムをさまざまなアプリケーションに統合する機会を提供します。この研究の結果は、感情の側面に対する EEG および fNIRS 信号の感度を明確に示しています。将来の研究では、このデータベースを使用して新しいデータ分析方法を探索および開発することが期待されます。
参考文献:AF Nia、V. Tang、V. Malyshau、A. Barde、GM Talou、M. Billinghurst、「FEAD: fNIRS-EEG 感情データベース - ビデオ刺激の紹介」、IEEE Transactions on Affective Computing、doi: 10.1109/TAFFC.2024.3407380。