PersEmoN: 겉보기 성격, 감정 및 관계를 분석하기 위한 심층 네트워크

PersEmoN: 겉보기 성격, 감정 및 관계의 공동 분석을 위한 심층 네트워크

공식 계정: EDPJ

목차

1. 요약

2. 키워드

3. 당면한 문제

4. PersEmoN 네트워크 구조

5. 손실 함수

5.1 인격 상실

5.2 감정 상실 

5.3 데이터세트 분류기 손실 

5.4 적대적 손실 

5.4 관계 상실 

5.5 전체 손실 함수

6. 실험

6.1 감정 평가

6.2 겉보기 성격 평가

6.3 겉보기 성격과 감정의 관계

6.4 합동훈련의 효과

6.5 일관성 전략

7. 참고


1. 요약

겉보기 성격과 감정을 분석하는 것은 Affective Computing의 핵심입니다. 현재 작업은 두 가지에 대한 독립적인 분석입니다. 본 논문은 이 두 가지 높은 수준의 감정적 특징과 그 관계가 얼굴 이미지에서 공동으로 학습될 수 있는지 탐색한다. 따라서 본 논문에서는 PersEmoN을 제안한다. 이것은 종단 간 훈련된 샴과 같은 딥 네트워크입니다. 두 개의 컨볼루션 네트워크로 구성됩니다. 하나는 표현 성격 분석용이고 다른 하나는 감정 분석용입니다. 기본 기능 추출 모듈을 공유하고 Multi-Task Learning의 프레임워크 내에서 최적화됩니다. 감정 및 성격 네트워크에는 주석이 달린 자체 데이터 세트가 있습니다. 또한 이종 데이터 세트 간의 표현 일관성을 향상시키기 위해 적대적 유사 손실 함수가 사용됩니다. 이를 바탕으로 본고에서는 감정과 캐릭터 외모의 관계에 대해서도 논의한다.

  • 외모 특성 : 사람의 첫인상/외모 특성을 통해 성격 특성을 빠르게 판단할 수 있습니다(Personality Traits).
  • 5가지 성격 특성(5대 성격 특성, 성격 심리학 , 성격 특성 목록 )
    • 이 분야의 많은 연구에서 영어 단어를 사용하든 중국어 단어를 사용하든 피험자가 자신을 설명하도록 요청하든 다른 사람을 설명하도록 요청하든 어떤 요인 추출 및 회전 방법을 사용하든 상관없이 결과는 다섯 가지 주요 요인으로 나타났습니다. 이는 다음과 같습니다.
      • 외향성: 외향적이고 활기차고 열정적입니다.
      • 친화성: 유쾌하고, 이타적이며, 전염성이 있습니다.
      • Conscientionusness: 공정성, 자제, 자제;
      • 신경증: 신경질, 부정적인 감정, 신경과민;
      • 경험에 대한 개방성: 솔직하고 창의적이며 개방적입니다.
    • 이 5가지 요소의 약어는 OCEAN이며 "빅 5" 시스템의 광범위한 표현을 의미합니다.
  • 감성 컴퓨팅(Affective Computing) : 인간의 영향을 인식, 해석, 처리 및 시뮬레이션할 수 있는 시스템 및 장치의 연구 및 개발.
  • 샴 네트워크( 참조 1 , 참조 2 ): 주요 기능
    • Siamese 네트워크는 아키텍처, 매개변수 및 가중치가 동일한 두 개의 유사한 하위 네트워크를 통해 두 개의 서로 다른 입력을 받습니다.
    • 두 서브넷은 결합된 쌍둥이처럼 서로의 거울상입니다. 따라서 서브네트워크 아키텍처, 매개변수 또는 가중치에 대한 모든 변경 사항은 다른 서브네트워크에도 적용됩니다.
    • 두 하위 네트워크 모두 인코딩을 출력하여 두 입력 간의 차이를 계산합니다.
    • Siamese 네트워크의 목표는 유사성 점수를 사용하여 두 입력이 동일한지 다른지를 분류하는 것입니다. 유사성 점수는 일반적인 거리 메트릭 학습 방법에서 사용되는 기술인 이진 교차 엔트로피, 대조 함수 또는 삼중항 손실을 사용하여 계산할 수 있습니다.
    • Siamese 네트워크는 식별 기능을 사용하여 알 수 없는 분포의 익숙하지 않은 범주를 일반화하는 원샷 분류기입니다.
  • 이기종 데이터 : 매우 다양한 유형과 형식의 데이터입니다. 이 백서의 이기종 데이터: 다른 설정에서 수집되었습니다. 환경의 밝기, 캐릭터의 자세 등이 모두 매우 다릅니다. 각 데이터 세트는 상당히 다른 통계 분포를 가질 수 있습니다.

2. 키워드

감성 컴퓨팅, 감정, 겉보기 성격, 적대적 학습, 멀티태스크 학습, 딥 러닝 

3. 당면한 문제

  1. 명백한 성격, 감정 및 그들의 관계에 대한 풍부한 표현을 학습하기 위한 레이블이 지정된 감정 및 명백한 성격을 포함하는 대규모 데이터 세트는 거의 없습니다. 특히 기존 데이터세트는 감정 속성만 포함하고 다른 데이터세트는 겉보기 성격만 주석으로 표시할 수 있습니다. 감정과 명백한 성격에 대한 데이터에 수동으로 주석을 달면 이 상황을 부분적으로 완화할 수 있습니다. 그러나 비용이 많이 들고 시간이 많이 걸리며 주관성으로 인해 오류가 발생하기 쉽습니다.
  2. 기존 데이터 세트의 차이점: 데이터 세트는 종종 조명, 규모, 포즈 등에서 상당한 변화를 보일 수 있는 서로 다른 환경에서 수집됩니다. 각 데이터 세트는 통계 분포가 크게 다를 수 있습니다.
  3. 감정과 명백한 성격에 대한 주석은 이미지, 프레임 수준 또는 비디오 수준에서 수행할 수 있습니다. 프레임 수준 및 비디오 수준 이해를 단일 네트워크로 캡슐화하는 방법은 무엇입니까?

4. PersEmoN 네트워크 구조

여기에 이미지 설명 삽입

  • 먼저 오픈 소스 멀티태스킹 컨볼루션 신경망(Multi-task Convolutional Neural Network, MTCNN)을 사용하여 명백한 성격 및 감정 데이터 세트에서 얼굴을 식별하고 조정합니다.
  • 명백한 성격 데이터 세트의 경우 희소 샘플링(Sparse Sampling)을 사용합니다.
  • 겉보기 성격 네트워크는 그림이 속한 5가지 성격 특성 중 어느 것이 속하는지 예측하기 위한 기능 추출 모듈(FEM)과 성격 분석 모듈(PAM)로 구성됩니다. 합의 집계 기능은 PAM에 제공하기 전에 명백한 성격 점수를 집계하는 데 사용됩니다.
  • 감정 네트워크는 겉보기 성격 네트워크와 FEM을 공유하며, 감정의 각성 값(Arousal)과 각성 값(valence)을 예측하는 데 사용되는 자체 감정 분석 모듈(Emotion Aalysis Module, EAM)이 있습니다.
  • 마지막으로 감정과 겉보기 성격의 관계를 분석하는 모듈이 있습니다(Realtionship Analysis Moudel, RAM).

Arousal은 Arousal의 정도를, Valence는 긍정적인 감정의 정도를 나타내는데 이 두 가지 차원은 자신의 수준을 수치로 나타낸다. 예를 들어, 값 범위 [-1,1], -1은 매우 우울함/부정성을 의미하고 1은 매우 흥분됨/긍정성을 의미합니다. 이와 같이 행복(happiness)은 높은 각성(arousal)과 높은 원자가(valence)로 표현될 수 있고, 우울증(depression)은 낮은 각성(low arousal)과 낮은 원자가(low valence)로 표현될 수 있다. 거의 모든 인간의 감정은 이 2차원이 형성하는 2차원 공간으로 표현될 수 있다. ( 참고 )

  • 교육 단계에서 시스템은 이미지가 가져온 데이터 세트를 식별하고 해당 브랜치에 자동으로 할당합니다.
  • 테스트 단계에서 시스템은 각각 PAM과 EAM을 통해 명백한 성격과 감정을 추정합니다.
  • 추론 단계에서는 PAM과 EAM을 기반으로 겉보기 성격 특성을 얻습니다.
  • 부산물로 RAM을 사용하여 감정(각성 및 각성)에서 명백한 성격 특성을 얻을 수 있습니다.
  • 테스트 단계에서 이 방법은 각 비디오 프레임을 독립적으로 처리하여 비디오 기반 감정 데이터 세트에도 적용할 수 있다는 점에 주목할 가치가 있습니다.
  • 다양한 모듈의 자세한 구조는 아래 그림과 같습니다. Conv는 여러 컨볼루션 레이어를 포함할 수 있는 컨볼루션 단위입니다. 대괄호는 잔여 단위입니다. 예를 들어, [3 \times 3,64] \times 4는 각각 3 \times 3크기가 64개의 필터가 있는 4개의 캐스케이드된 컨벌루션 레이어를 나타냅니다. S2는 보폭이 2임을 의미합니다. FC는 출력 뉴런의 수에 해당하는 완전 연결 계층을 나타냅니다.

여기에 이미지 설명 삽입

5. 손실 함수

5.1 인격 상실

V와 Y는 각각 입력 비디오와 실측 레이블을 나타냅니다. 겉보기 성격 비디오의 인덱스 모음을 나타내는 i번째 비디오가 주어지면 \left\{ {\mathop V\nolimits_i^P ,\mathop Y\nolimits_i^P } \right\}(i \in \mathop N\nolimits^P )P 는 데이터가 겉보기 성격 데이터 세트에서 가져온 것임을 의미합니다. \mathop N\limits^Pi번째 비디오를 등간격으로 K 세그먼트로 나누면 {\rm{\{ }}\mathop S\nolimits_{i1}^P {\rm{,}}\mathop S\nolimits_{i2}^P \mathop {, \cdots ,S}\nolimits_{iK}^ P {\rm{\} }}다음과 같은 모델을 얻을 수 있습니다.

 그 중 {\rm{\{ }}\mathop I\nolimits_{i1}^P {\rm{,}}\mathop I\nolimits_{i2}^P \mathop {, \cdots ,I}\nolimits_{iK}^ P {\rm{\} }}얼굴 프레임이 있는데, \mathop S\nolimits_{iK}^P프레임은 프래그먼트에서 무작위로 샘플링됩니다 \mathop I\nolimits_{iK}^P. 함수는 매개변수가 인 성격 네트워크를 F(\mathop I\nolimits_{iK}^P ,\mathop W\nolimits^p )나타내며 얼굴을 기반으로 예비 겉보기 성격 점수를 얻습니다. 프래그먼트 합의 함수 G는 최종 겉보기 성격 점수를 얻기 위해 예비 점수를 융합합니다. 원활한 손실 기능으로  성격 네트워크를 최적화합니다 .\mathop W\nolimits^p\mathop I\nolimits_{iK}^P\mathop l\nolimits_1

 Smooth \mathop l\nolimits_1함수는 다음과 같이 표현됩니다.

5.2 감정 상실 

얼굴 이미지가 주어지면  \left\{ { {\rm{ }}I_i^E,{\rm{ }}Y_i^E} \right\}(i \in {\rm{ }}{N^E})감정 네트워크는 감정 점수를 생성합니다.

 Emotion network의 loss function은 다음과 같이 표현된다.

5.3 데이터세트 분류기 손실 

 저자는 \mathop W\nolimits^D데이터가 어떤 데이터 세트에서 왔는지 구별하는 데 사용되는 D 매개변수로 데이터 세트 분류기를 훈련했습니다. FEM에서 파생된 각 기능 표현에 대해 데이터 세트 분류자는 다음 소프트맥스 손실로 학습됩니다. 성격 데이터셋의 경우,

 그 중 q(I,W,\mathop W\nolimits^D ) = soft\max(\mathop W\nolimits^D ,F(I,W);. 마찬가지로 감정 데이터 세트의 경우

 총 손실은 다음과 같이 표현됩니다.

5.4 적대적 손실 

적과 같은 학습 목표가 FEM에 도입되었습니다. 예측된 데이터 세트 레이블 간의 교차 엔트로피 와 데이터 세트 레이블에 대한 균일 분포를 계산하여 퍼지 두 데이터 세트 간의 차이를 최대화합니다 .

5.4 관계 상실 

 겉보기 성격이 감정 속성에서 직접 추론될 수 있는지 알아보기 위해 논문에서는 RAM을 소개합니다. EAM으로부터 감정 점수를 받아 겉보기 성격 점수를 예측합니다. RAM에 대한 입력은 다음과 같이 표현할 수 있습니다.

  {\rm{\{ }}\mathop I\nolimits_{i1}^P {\rm{,}}\mathop I\nolimits_{i2}^P \mathop {, \cdots ,I}\nolimits_{iK}^ P {\rm{\} }}얼굴 프레임이며 \mathop S\nolimits_{iK}^P프레임은 조각에서 무작위로 샘플링됩니다  \mathop I\nolimits_{iK}^P. F({\rm{ }}I_{iK}^P,{\rm{ }}{W^E})매개변수가 다음과 같은 감정 네트워크를 나타냅니다 \mathop W\nolimits^E. 얼굴 프레임을 기반으로  \mathop I\nolimits_{iK}^P감정 점수의 예비 예측을 얻습니다. RAM은 \mathop V\nolimits_i^P비디오를 기반으로 명백한 성격 점수를 제공합니다.

 {W^R}RAM의 매개변수를 나타냅니다. RAM은 다음 목적 함수를 최적화하여 얻습니다.

5.5 전체 손실 함수

PersEmoN의 각 모듈은 미분 가능하며 전체 시스템을 엔드 투 엔드 방식으로 최적화할 수 있습니다. 다음과 같은 손실 함수 최소화

여기에 이미지 설명 삽입

시스템의 주요 목표는 감정과 겉보기 성격 특성, 즉 주요 목적 함수를 추정하는 것이므로 \mathop L\nolimits_{상태}가중치 \top L\nolimits_{per}는 로 설정됩니다 \end \lambda \nolimits_1 = \end \lambda \nolimits_2 = 1. 다른 손실 함수의 역할은 정규화이므로 가중치는 상대적으로 작습니다 \top \lambda \nolimits_3 = \top \lambda \nolimits_4 = \top \lambda \nolimits_5 = 0.1. Smooth \mathop l\nolimits_1함수의 파라미터 m=0.05(공식 3).

6. 실험

감정 예측의 질을 평가하기 위해 예측값과 감정의 참값의 평균 제곱 오차(MSE)를 계산하였다. 이 백서에서는 평균 정확도(평균 정확도) A 및 결정 계수 (결정 계수) 의 두 가지 메트릭을 사용합니다 \mathop R\한계^2.

 이 중 는 \mathop 무제한^t전체 검사 샘플 수를 나타내고, \mathop Y\limits^P실제 값을 나타내며, \mathop P\limits_i예측 값을 나타내고, \top {\bar Y}\nolimits^P실제 값의 평균을 나타냅니다.

결정 계수 의 백과 사전 에 따르면

  • 총 제곱합은 참값과 참값의 평균 사이의 MSE입니다.
  • 회귀 제곱합은 예측값과 참값의 평균 사이의 MSE입니다.
  • 잔차 제곱합은 예측값과 참값 사이의 MSE입니다.

이 기사에서 사용된 결정 계수 \mathop R\한계^2: 1 - 잔차 제곱합/회귀 제곱합. 제 생각에는 (1 - 잔여 제곱합 / 총 제곱합)을 사용하는 것이 더 정확해야 합니다.

잔차 제곱합이 작을수록, 즉 결정 계수가 클수록 예측 성능이 좋습니다.

6.1 감정 평가

데이터는 PersEmoN이 다른 모델처럼 감정 인식을 위해 설계되지는 않았지만, PersEmoN은 여전히 ​​각성 값(Arousal)과 각성 값(valence)의 두 차원을 예측하는 데 약간의 이점이 있음을 보여줍니다.

6.2 겉보기 성격 평가

PersEmoN은 종단 간 모델이며 추론을 위해 비디오 정보만 사용합니다.

기능 융합 (Fusion)

  • 많은 심층 학습 작업(예: 대상 감지, 이미지 분할)에서 서로 다른 규모의 기능을 융합하는 것은 성능을 향상시키는 중요한 수단입니다. 저수준 피처는 해상도가 더 높고 더 많은 위치 및 세부 정보를 포함 하지만 컨볼루션이 적기 때문에 시맨틱이 낮고 노이즈가 더 많습니다 . 높은 수준의 기능은 의미론적 정보가 더 강력 하지만 해상도가 낮고 세부 사항에 대한 인식이 좋지 않습니다 . 이 둘을 효율적으로 통합하고 강점을 취하고 나쁜 것을 버리는 것이 세분화 모델을 개선하는 열쇠입니다.
  • 다수의 레이어를 융합하여 검출과 분할의 성능을 향상시키는 작업이 많으며, 융합과 예측의 순서에 따라 초기 융합과 후기 융합으로 분류된다.
    • 조기 융합(Early fusion):  먼저 여러 레이어의 특징을 융합한 다음 융합된 특징에 대해 예측자를 훈련합니다( 완전한 융합 후에만 탐지가 균일하게 수행됨 ). 이러한 종류의 방법은 연결 건너뛰기 라고도 하며 연결 ​​및 추가 작업을 사용합니다 . 이 아이디어의 대표가 ION(Inside-Outside Net)과 HyperNet입니다. 두 가지 전형적인 기능 융합 방법:
      • concat : 두 기능을 직접 연결하는 일련의 기능 융합입니다. 두 입력 기능 x 및 y의 차원이 p 및 q인 경우 출력 기능 z의 차원은 p+q입니다.
      • add : 입력 기능 x 및 y에 대해 이 두 기능 벡터를 복소수 벡터로 결합하는 병렬 전략, z = x + iy, 여기서 i는 허수 단위입니다.
    • 후기 융합(Late fusion): 서로 다른 레이어의 탐지 결과를 결합하여 탐지 성능을 향상시킵니다( 최종 융합이 완료되기 전에 부분적으로 융합된 레이어에서 탐지가 시작되고 다층 탐지가 있을 것이며 마지막으로 다중 탐지가 있을 것입니다) 결과가 수행됩니다.Fusion ). 이 범주에는 두 가지 유형의 연구 아이디어가 있습니다.
      • Single Shot MultiBox Detector(SSD), Multi-scale CNN(MS-CNN)과 같이 feature를 융합하지 않고 multi-scale feature를 따로 예측한 후 예측 결과를 융합
      • 이 기능은 피라미드 융합을 수행하고 FPN (Feature Pyramid Network ) 등과 같은 융합 후 예측합니다.

다음 표는 평균정확도 A와 결정계수 를 이용한 겉보기 성격예측 벤치마크 \mathop R\한계^2BU-NKU-v2 값은 \mathop R\한계^2공개하지 않았다.

데이터는 PersEmoN이 예측을 위해 비디오 정보만 사용하는 경우에도 뛰어난 성능을 나타냄을 보여줍니다.

6.3 겉보기 성격과 감정의 관계

위 그림의 PAM+RAM은 2차원 각성 값-각성 값(Arousal-valence)만으로 겉보기 성격의 좋은 예측을 달성합니다.

아래 그림은 서로 다른 겉보기 성격 특성과 감정(각성-가치) 공간 간의 관계를 보여줍니다.

실험 결과에 따르면 친화성(행복, 이타적, 전염성)은 성실성(공평성, 자제, 자제)과 더 유사하며, 신경증(신경증, 부정적인 감정, 신경질)과 개방성(직선적, 창의적, 열린 마음)은 상당히 다릅니다. 반면 외향성(Extroversion, Energy, Enthusiasm)은 다이어그램에 표시되지 않았지만 Agreeableness와 더 유사합니다.

6.4 합동훈련의 효과

본 논문의 목적은 일반화 가능한 표현을 얻기 위한 새로운 멀티태스킹 학습 방법을 제안하는 것이다. 대상 문제뿐만 아니라 매우 일반적인 문제에도 적용됩니다. PersEmoN에서는 모든 작업이 FEM을 공유하므로 추가 작업은 재분할화처럼 작동하여 시스템이 관련 작업에서 더 잘 수행하도록 합니다.

다양한 모듈의 추가로 성능이 지속적으로 향상되었습니다. 저자는 이러한 개선이 FEM이 공유하는 매개변수가 전체 시스템의 일반화 성능에 직접적으로 영향을 미치는 CNN의 BP 알고리즘에서 비롯된다고 믿습니다.

6.5 일관성 전략

다른 데이터 세트의 경우 전송 가능성이 좋은 표현은 불변이어야 합니다. 이를 위해 저자는 PersEmoN에서 coherence 전략을 제거하는 실험을 진행하였다. 결과는 일관성 전략이 성능을 향상시킬 수 있음을 보여줍니다. 즉, 일관된 표현을 얻는 데 필요합니다.

겉보기 성격과 감정 데이터셋은 t-SNE를 이용하여 FEM을 통해 얻은 512차원 특징을 2차원 공간에 투영하고 시각화한다. 일관된 전략을 사용하여 감정의 많은 특징이 링에 분산되어 두 분포가 훨씬 더 많이 겹치면서 비슷해집니다.

7. 참고

Zhang L, Peng S, Winkler S. PersEmoN: 겉보기 성격, 감정 및 관계[J]의 공동 분석을 위한 심층 네트워크. 정서적 컴퓨팅에 관한 IEEE 거래, 2019. 下载地址:https://arxiv.org/pdf/1811.08657.pdf

추천

출처blog.csdn.net/qq_44681809/article/details/128222315