学術ニュースレター| CN-Celeb-AV: マルチシーンオーディオビジュアルマルチモーダルデータセットのリリース

最近、清華大学と北京郵電大学の音声言語技術チームは、音声およびビデオのマルチモーダル ID 認識分野の研究者向けに、中国の有名人のマルチシーン音声およびビデオ マルチモーダル データセット (CN-Celeb-AV) をリリースしました ( AVPR)を使用します。このデータセットには、1,136 人の中国の有名人による 419,000 以上のビデオ クリップが含まれており、11 の異なるシナリオをカバーしており、完全および不完全の 2 セットの標準評価セットを提供します。研究者は、共有リソース Web サイト http://cnceleb.org で CN-Celeb-AV を検索し、無料ダウンロードを申請できます。

背景紹介

バイオメトリクス技術とは、人間の生物学的特徴を自動的に測定・分析し、本人認証を行う技術です。声紋と顔は、遠隔で非接触で収集できるため、最も一般的なタイプの生体認証の 2 つです。ここ数年、ディープラーニングの登場とビッグデータの蓄積により、話者認識と顔認識という2つの生体認証技術の性能が大幅に向上し、幅広い用途が登場しています。

目覚ましい進歩にもかかわらず、声紋認識と顔認識はどちらも実際的な困難に直面しています。オーディオベースの声紋認識の場合、課題は内容の変化、チャネルの違い、背景雑音、話者の話し方、さらには生理学的状態の変化にあります。ビデオベースの顔認識の場合、照明の変化、位置の変化、未知のオクルージョンなどによって課題が生じます。

単一モダリティのパフォーマンスの上限を克服するための直感的なアイデアは、オーディオおよびビジュアル モダリティの補完的な情報を統合して、オーディオビジュアル マルチモーダル ID 認識 (AVPR) システムを構築することです。特に複雑な実際のアプリケーションのシナリオでは、システムはより堅牢である必要があります。この考えに答えるために、NIST は SRE 2019 でオーディオビジュアル マルチモーダル ID チャレンジ トラック [1] を開始し、SRE 2021 [2] でもそれを継続しました。既存の AVPR 研究では、表現融合とジョイント モデリングという 2 つの方法が主に採用されています。これらの研究では良好な結果が得られていますが、学習データと評価データのシナリオは単一かつ比較的限定されており、実際のアプリケーションの複雑さを反映するのは困難です。

複雑なアプリケーション シナリオでの AVPR 研究を促進するために、CN-Celeb-AV という名前の新しい AVPR データセットをリリースします。このデータセットの収集プロセスは、オーディオおよびビジュアルモーダルデータを含む CN-Celeb [3,4] の原則に従います。データセット全体は、「完全モーダル」部分と「不完全モーダル」部分の 2 つの部分で構成されます。データセット全体は 11 の現実世界のシナリオをカバーしており、1,136 人 (中国の有名人、ビデオブロガー、アマチュア) からの 419,000 以上のビデオ クリップが含まれています。私たちは、CN-Celeb-AV が現実世界の複雑さを備えた AVPR の適切なベンチマークとなることを願っています。

データの特性

CN-Celeb-AV は、現実世界の課題に対処するための AVPR 研究に適したいくつかの望ましい特性を備えています。

1. 現実世界の不確実性: ほぼすべてのビデオ クリップには現実世界の不確実性が含まれています。音声コンテンツ、ノイズ、チャンネル、複数人、話し方の変化など、顔のポーズ、照明、表情、解像度、オクルージョンなど。

2. マルチシナリオ単一スピーカー: 単一スピーカーと複数のシナリオの大量のデータが含まれており、クロスシナリオおよびクロスセッションテストに使用でき、現実世界のアプリケーションに近いものになります。

3. モダリティの不完全性:一部のビデオ クリップでは、モダリティ情報の一部のみが完全で観察可能であり、モダリティが欠落している状況が存在するため、実際の複雑な条件下で AVPR システムのパフォーマンスを評価するのに適しています。これは、マルチモーダル テクノロジーが適用される状況でもあります。最大の価値を提供することが期待されます。

表 1 CN-Celeb-AV データの概要

写真

表 2 CN-Celeb-AV シーンのセグメンテーション

写真

CN-Celeb-AV には 2 つのベンチマーク評価セットがあります。

1. 「完全モード」評価セット CNC-AV-Eval-F: ほとんどのオーディオ クリップとビデオ クリップには、完全なオーディオ情報とビデオ情報が含まれています。

2. 「不完全モード」評価セット CNC-AV-Eval-P: オーディオまたはビデオ情報が破損しているか完全に失われているオーディオ クリップとビデオ クリップが多数含まれています。たとえば、対象者の顔や声が一時的に消えたり、ノイズによって破損したり、まったく使用できなくなったりすることがあります。

事前検証

オープンソースの声紋認識モデル ECAPA-TDNN、顔検出モデル RetinaFace、および顔認識モデル InsightFace を使用して、MOBIO [5]、VoxCeleb [6]、および CN-Celeb-AV 評価セットで一連の比較実験を実行します。実験結果を以下の表3に示す。

表3 実験結果

写真

まず、ユニモーダル システムとマルチモーダル システムの両方が、MOBIO および VoxCeleb1 評価セットで良好なパフォーマンスを達成しています。両方のデータセットでモダリティ情報がほぼ完全であるため、これは予想されることです。対照的に、2 つの CNC-AV-Eval 評価セットでは、主に CNC-AV-Eval のより複雑なデータが原因で、オーディオおよびビジュアル モダリティのパフォーマンスははるかに悪くなります。これは、音声であれ視覚であれ、現在の主流の識別技術が依然として現実世界の複雑さに対処できないことを示しています。

第 2 に、マルチモーダル システムはすべての評価セットで一貫してユニモーダル システムよりも優れており、マルチモーダル情報の利点が強調されています。ただし、それでも、2 つの CNC-AV-Eval 評価セットでのマルチモーダル システムのパフォーマンスは依然として低く、複雑なシナリオにおけるマルチモーダル識別についてはさらなる研究が必要であることを示唆しています。

ダウンロード

  • 紙のアドレス

    • https://arxiv.org/abs/2305.16049

  • データアプリケーション

    • http://cnceleb.org/

  • 収集ツール

    • https://github.com/smile-struggler/CN-Celeb3_collector

  • ベースラインシステム

    • https://gitlab.com/csltstu/sunine/-/tree/cncav/

参考文献

[1] SO Sadjadi、CS Greenberg、E. Singer、DA Reynolds 他、「2019 NIST 視聴覚話者認識評価」、『Odyssey』、2020 年、259 ~ 265 ページ。

[2] SO Sadjadi、C. Greenberg、E. Singer、L. Mason、および D. Reynolds、「2021 NIST 話者認識評価」、arXiv プレプリント arXiv:2204.10242、2022 年。 

[3] L. Li、R. Liu、J. Kang、Y. Fan、H. Cui、Y. Cai、R. Vipperla、TF Zheng、D. Wang、「CN-Celeb: マルチジャンル話者認識、 『スピーチコミュニケーション』vol. 137、77–91ページ、2022年。

[4] Fan、J. Kang、L. Li、D. Wang 他、「CN-Celeb: 挑戦的な中国語話者認識データセット」、ICASSP。IEEE、2020、7604 ~ 7608 ページ。

[5] C. McCool、S. Marcel、A. Hadid、M. Pietikainen ® 他、「携帯電話でのバイモーダル人物認識: 携帯電話データの使用」、ICMEW。IEEE、2012 年、635 ~ 640 ページ。

[6] A. Nagrani、JS Chung、および A. Zisserman、「VoxCeleb: 大規模話者識別データセット」、INTERSPEECH、2017 年、2616 ~ 2620 ページ。

おすすめ

転載: blog.csdn.net/weixin_48827824/article/details/132086741