【종이 노트】공감적 대화 생성을 위한 지식 연결

공감적 대화 생성을 위한 지식 연결


컨퍼런스 : AAAI 2022

과제 : 공감대화 생성

코드 : 프로젝트 주소

원문 : 종이 주소

1. 동기

인간은 일반적으로 암묵적인 감정을 인식하기 위해 경험과 외부 지식에 의존하며 공감적으로 반응하기 위해 더 많은 외부 지식이 필요합니다. 대화 중에 말하는 사람의 요청과 상대방의 대답 사이에 일정한 비대칭적 간격이 있는 경우가 많으며 요청에 포함되지 않은 새로운 정보가 응답에 나타나는 경우도 있습니다. 우리는 정보 간의 연결을 모델링하기 위해 지식을 다리로 사용해야 합니다.

또한 공감적 대화에서는 정서적 의존성(청자가 화자가 표현하는 것과 동일한 감정으로 반응함) 과 정서적 타성이 외적 지식과 함께 나타나는 경우가 많다.

2. 주요 아이디어

상식 지식감성 어휘 지식을 통합한 공감대화 생성 모델 KEMP 를 제안한다. 첫째, 감정적 컨텍스트 그래프를 구축하기 위해 외부 지식과 상호 작용하여 대화 이력을 풍부하게 합니다 . 그런 다음 지식이 풍부한 감성 컨텍스트 그래프에서 감성 컨텍스트 표현을 학습하여 감성 신호를 추출합니다 . 마지막으로 본 논문은 감성 컨텍스트 맵으로부터 획득한 감성 의존도를 학습하기 위한 감성 크로스 어텐션 메커니즘을 제안한다 .

  • 상식 지식은 ConceptNet을 사용하며 각 지식 튜플은 다음과 같이 정의됩니다. (머리 개념, 관계, 꼬리 개념, 신뢰도 점수)

  • 감정 어휘 지식은 NRC_VAD를 사용하며, 20,000개의 영어 단어를 포함하고 각 단어는 3차원 벡터( V a , A r , D o V_a,A_r,D_o 포함)를 포함합니다.V,,). 감정 강도 값을 다음과 같이 정의합니다.

여기에 이미지 설명 삽입

3. 모델

이미지-20230604163648394

3.1 감정적 컨텍스트 그래프

  • 외부 지식 검색 및 감성 컨텍스트 그래프 구축

    대화 기록이 주어지면 긴 텍스트 시퀀스로 이어붙이고 각 논스톱 단어에 대해 먼저 ConceptNet에서 일련의 후보 트리플을 검색합니다. 그런 다음 세 가지 휴리스틱 전략을 통해 정서 관련 지식을 재정의합니다.

    • 감정 관련 관계(예: "Causes")가 있는 가장자리가 있고 충분한 신뢰도가 있는 트리플릿을 추출합니다.
    • 검색된 개념 엔터티의 경우 VAD의 감정 강도 값을 사용하여 정렬되고 top-K 트리플이 감정 지식 하위 그래프로 선택됩니다.
    • 세 종류의 에지 설정: 타이밍 에지(연속된 두 단어 연결), 감정 에지(단어와 그 감정 실체 연결), 글로벌 에지(시작 기호 CLS 및 기타 노드 연결)

3.2 감정적 맥락 인코더

  • 감정적 컨텍스트 그래프 인코딩

    • 포함시키다

      감정적 맥락 그래프를 인코딩하기 위해 단어 임베딩, 위치 임베딩 및 새로 추가된 노드 상태 임베딩의 세 가지 유형의 임베딩이 사용됩니다. 외부 지식.

    • 다중 헤드 그래프 어텐션 메커니즘

      노드 표현은 다중 헤드 그래프 주의 메커니즘을 사용하여 업데이트됩니다. 각 노드는 특히 인접한 이웃과의 로컬 관심 상호 작용에 의해 상황화됩니다.

      임베딩 및 다중 헤드 맵 어텐션 상호 작용 이후의 기능은 글로벌 상호 작용을 위해 일반 Transformer 모듈에 들어갑니다.

      마지막으로 각 노드의 인코딩된 표현을 얻습니다 .

  • 정서적 신호 인식

    • 감정 신호 표현은 정점 표현과 감정 강도 값의 가중 합으로 정의됩니다.
    • 그런 다음 감정 신호 벡터는 선형 계층과 Softmax를 통해 감정 범주 분포에 투영되며 선형 계층 학습 후 표현은 감정 신호 입니다 .

3.3 감정 의존 디코더

감정적 맥락 그래프로부터 감정적 의존도를 얻고 공감적 반응의 표현을 제어하기 위해 감정 신호를 선형 레이어를 통해 새로운 벡터로 매핑한 후 각 시간 단계에서 디코더의 입력 단어 임베딩과 연결한다.

정서 맥락 맵과 대상 공감 반응 간의 정서 관계를 개선하기 위해 본 논문에서는 정서 특징을 융합하고 정서적 주의력 상실을 시행하는 두 가지 정서 전략을 설계합니다.

  • 감정적 특징 통합

    Decoder의 multi-head cross-attention layer에서 마지막 출력 단어 와 Encoder에 의해 출력된 감성 컨텍스트 그래프의 각 노드 표현 사이의 Attention이 계산되고 대화 컨텍스트 벡터가 획득됩니다 .

    대화 응답에서 공감을 표현하기 위해 대화 컨텍스트 벡터감정 신호 표현을 연결하여 감정 컨텍스트 벡터를 얻습니다 . 그런 다음 후속 Transformer Decoder 모듈에 입력합니다.

  • 정서적 주의력 상실 시행

    • 대화에서 사람들은 자연스럽게 감정 정보가 두드러지는 표현에 주의를 기울입니다. 왜냐하면, 본 논문은 다음과 같이 감정 강도가 높은 노드에 모델이 더 많은 주의를 기울이도록 하는 강제 감정 주의 상실을 설계합니다.

    이미지-20230612185255547

    공식은 먼저 각 노드의 Attention Head를 평균화한 후 각 노드의 감정 강도와 그 Attention 값 사이의 평균 제곱 오차(MSE)를 최소화하여 감정 강도 값이 높은 노드가 Attention에 더 가중치를 두도록 설계 .

    • 또한 입력 그래프에서 엔티티 개념 노드를 복사할 확률을 계산하기 위해 텍스트 요약에서 포인터 생성 네트워크 PGN의 방법은 다음과 같습니다.

      이미지-20230612193116611

    최종 손실은 감정 레이블 예측, 텍스트 생성 및 감정 주의의 세 가지 손실의 가중 합을 동시에 최적화하는 다중 작업 학습의 한 형태입니다.

3.4 KEMP-DialoGPT

KEMP는 감성 컨텍스트 인코더의 그래프 주의 계층과 감정 의존 디코더의 교차 주의 계층을 DialoGPT에 융합하여 사전 훈련된 언어 모델에 통합됩니다.

추천

출처blog.csdn.net/m0_47779101/article/details/131175672