동적 장면 그래프 생성을 위한 공간-시간 변환기

최근 SGG 방향으로 작업을 하다가 우연히 이 논문을 저장하게 되었습니다.

2107.12309.pdf(arxiv.org) https://arxiv.org/pdf/2107.12309.pdf

코드 주소:  GitHub - yrcong/STTran: 동적 장면 그래프 생성을 위한 공간-시간 변환기, ICCV2021 https://github.com/yrcong/sttran

앞에서 말했지

SGG 작업에 대해 더 알고 싶다면 이 리뷰를 읽어보세요. 앞으로 더 많은 연구를 하도록 하겠습니다.

2104.01111.pdf(arxiv.org) https://arxiv.org/pdf/2104.01111.pdf

아래 그림은 장면 그래프의 예를 보여줍니다.

장면 그래프 생성 방법은 기본적으로 다섯 가지 범주로 나뉩니다.

  1. CRF 기반
  2. TransE 기반
  3. CNN 기반
  4. RNN/LSTM 기반
  5. 그래프 기반 . (향후 중점)

장면 그래프의 응용 분야는 다음과 같습니다.

  • 시각적-텍스트 변환기
  • 이미지-텍스트 검색
  • 시각적 질문 답변
  • 이미지 이해 및 추론
  • 3D 장면 이해
  • 인간-물체 / 인간-인간 상호작용

장면 생성의 과제는 다음과 같은 측면에 있습니다.

  • 장면 그래프의 롱테일 분포
  • 멀리 있는 표적 간의 관계 탐지
  • 동적 장면 그래프 생성
  • 장면 그래프 기반의 사회적 관계 탐지
  • 시각적 추론 모델 및 방법 정보

주요 기여 

  • 동적 장면 그래프 생성을 위해 시공간 변환기 STTran이 제안되었으며, 이 인코더는 프레임 내의 공간적 컨텍스트를 추출하고 디코더는 프레임 간의 시간적 종속성을 캡처합니다.
  • 장면 그래프를 생성하기 위한 새로운 전략은 다중 레이블 손실(반제약)을 사용하여 도입되었습니다.
  • 실험을 통해 STTran이 시간적 맥락을 잘 활용하여 관계 탐지를 향상할 수 있다는 것이 입증되었습니다.

연구배경

장면 이해에 대한 현재 연구는 이미지에서 더욱 까다로운 비디오로 옮겨가고 있습니다. 동작 인식 및 동작 위치 파악에 대한 많은 작업이 있었지만 프레임별 관계 감지/장면 그래프 생성은 여전히 ​​공백입니다. 비디오에서 동적 장면 그래프를 생성하는 것은 이미지에서 장면 그래프를 생성하는 것보다 더 어렵습니다. 개체 간의 동적 관계와 프레임 간의 시간적 종속성에 더 풍부한 의미론적 해석이 필요하기 때문입니다. 그림은 이미지와 비디오 생성 장면 그래프의 차이점을 보여줍니다.

사진 기반 장면 그래프 생성과 비교하여, 주어진 비디오에 대한 동적 장면 그래프를 생성할 때 단일 프레임의 시각적, 공간적, 의미적 정보를 활용할 수 있을 뿐만 아니라 시간적 맥락을 활용하여 관계를 정확하게 유추할 수 있습니다. 프레임에 나타나는 것입니다. 예를 들어, 아래 그림에서 사람이 만지는 음식은 의미적으로 잘못 계산될 수 없지만, 이전 프레임의 정보를 기반으로 사람이 먹는 음식이 더 정확한 행동 관계입니다.

방법

그림은 STTran의 아키텍처 다이어그램을 보여줍니다. 

타겟 감지 백본은 RGB 비디오 프레임에서 타겟 영역을 제안하고 관계 특징 벡터를 전처리합니다. 시공간 변환기 STTran의 인코더는 먼저 단일 프레임의 공간 컨텍스트를 추출합니다. 서로 다른 프레임의 인코더 그룹에 의해 수정된 관계 표현이 결합되어 학습된 프레임 인코딩에 추가됩니다. 디코더 계층은 시간적 종속성을 캡처하고 선형 분류기를 사용하여 다양한 관계 클래스(예: 주의, 공간, 컨텍스트)에 대한 관계를 예측합니다. 그림의 FFN은 피드포워드 네트워크를 나타냅니다.

표적 탐지 네트워크, 작성자는 FasterRCNN을 사용하고 백본은 ResNet101을 사용합니다.

조건자 표현 생성:

t: t번째 프레임, k: k번째 조건자
i, j: 조건자와 연관된 두 객체, i번째 및 j번째
v: 타겟 탐지 네트워크에 의해 추출된 시각적 특징
uij: 두 객체 i의 합집합 j 상자는 ROIAlign 특성을 통과합니다
. fbox: 객체 i의 bbox와 객체 j의 bbox를 특성으로 변환하고 uij와 동일한 차원을 갖습니다. ψ:
Flatten
s: 객체 카테고리의 의미 임베딩 정보

공간 인코더

  • 프레임의 공간적 맥락을 변환하는 데 중점을 두고 입력은 다음과 같습니다 X_t =\왼쪽 \{ x^1_t,x^2_t, ...,{x_t}^{K(t)} \오른쪽 \}.
  • n번째 레이어의 출력은 다음과 같습니다 \boldsymbol{X}_t^{(n)}=Att_{enc.}(\boldsymbol{Q}=\boldsymbol{K}=\boldsymbol{V}=\boldsymbol{X}^{(n-1)} ).
  • 공간 인코더는 N개의 동일한 인코더로 구성되며 At_{enc.}{\color{Golden} }순서대로 쌓입니다.n번째 레이어의 입력은 n-1번째 레이어의 출력입니다.
  • 일부 주요 변환기 방법과 달리 공간 인코더는 프레임 내 관계가 직관적으로 병렬이기 때문에 위치 인코딩을 입력에 통합하지 않습니다.
  • 관계 표현에 숨겨진 공간 정보는 self-attention 메커니즘에서 중요한 역할을 합니다.
  • 공간 인코더 스택의 최종 출력은 시간 디코더로 전송됩니다.

시간 디코더

이전 단어 위치 및 픽셀 위치와 달리 프레임 인코딩을 사용자 정의하여 관계형 테이블에 시간적 알 수 없는 항목을 삽입합니다. E_f시간 디코더의 윈도우 에타에 의해 결정되는 임베딩 벡터의 수는 고정되어 있고 상대적으로 짧기 때문에 학습 가능한 임베딩 매개변수를 사용하여 프레임 인코딩을 구성합니다 . \mathrm{E}_\mathrm{f}=[\mathrm{e}_1,...\mathrm{e}_\eta], 여기서 는 및 와 길이가 같은 절대 벡터 \mathrm{e}_{1},...\mathrm{e}_{\eta}\in\mathrm{R}^{1936}입니다 . x_t^{^{k}}실험에서는 비교를 위해 정현파 인코딩 방법도 사용되었습니다.

  • 시간 디코더는 주로 프레임 간의 시간 의존성을 캡처하는 데 사용됩니다.
  • 슬라이딩 창을 사용하여 프레임을 일괄 처리하므로 멀리 있는 프레임과의 간섭을 피하기 위해 인접한 프레임 간에 메시지가 전달될 수 있습니다.
  • _{dnc.}에서마스크된 다중 헤드 Self-Attention 레이어가 제거됩니다.
  • [x_1,...,x_T]i번째 생성된 입력이 Z_i = [x_i,...,x_{\eta +i-1}],i\in \left \{ 1,...,T+\eta -1 \right \},\eta \leq TT가 전체 비디오의 길이인 곳 에서 길이 θ 의 슬라이딩 윈도우가 실행됩니다.
  • 디코더와 인코더는 동일하며 N개의 동일한 self-attention 레이어로 쌓여 있습니다.
  • 첫 번째 레이어는 다음과 같습니다. \mathrm Q=\mathrm K=\mathrm Z_\mathrm i+\mathrm E_\mathrm f(프레임 코딩 추가), \mathrm{V}=\mathrm{Z}_{\mathrm{i}},\hat{\mathrm{Z}}_{\mathrm{i}}=\mathrm{Aut}+\mathrm{dec.} \왼쪽(\mathrm{Q,K,V}\오른쪽);
  • 마지막 디코더의 출력은 최종 예측으로 사용됩니다.
  • 슬라이딩 윈도우의 사용으로 인해 한 프레임의 관계는 다양한 입력 배치에서 다르게 표현되며, 윈도우에서 가장 먼저 나타나는 표현이 선택됩니다.

실험

시공간 변환기 STTran 훈련을 위한 손실 함수에는 신뢰성 기반 다중 레이블 마진 손실과 표준 교차 엔트로피 손실의 두 가지가 포함됩니다.

추론 관계 분포를 사용하여 장면 그래프를 생성하는 데는 일반적으로 두 가지 일반적인 전략이 있습니다.

여기서는 반제약 전략이 제안됩니다 . Semi Constraint는  주체-객체 쌍에 대해 여러 조건자를 허용합니다. 여기서 술어는 일치의 신뢰성이 주어진 임계값보다 큰 경우에만 긍정적입니다.

테스트 중 주어-술어-객체 관계 <주어-술어-객체>의 점수는 다음과 같습니다.

 아래 그림은 다양한 전략의 예를 보여줍니다.

실험적인 Action Genome(AG) 데이터 세트는 Charades 데이터 세트 위에 Stanford University에서 제공됩니다(ECCV'16 논문 " Hollywood in homes: Crowdsourcing data collection for Activity Understanding " 참조).(CVPR'20 논문 참조) " 액션 게놈: 시공간 장면 그래프의 구성으로서의 액션 "). 여기에는 35개의 개체 클래스(사람 없음)로 구성된 476,229개의 경계 상자와 25개의 관계 클래스로 구성된 1715,568개의 인스턴스가 포함되어 있으며 총 234,253개의 프레임에 레이블이 지정되어 있습니다.

이 25가지 관계는 (1) 사람이 대상을 보고 있는지 여부를 나타내는 주의 관계, (2) 공간 관계, (3) 대상과 접촉하는 다양한 방식을 나타내는 접촉 관계의 세 가지 유형으로 세분화됩니다. AG 데이터에는 다양한 공간 관계(예: <사람-앞문> 및 <사람-옆문>) 또는 접촉 관계(예: <사람-먹기-음식>)로 라벨이 지정된 135,484개의 주체-손님 쌍이 있습니다. 및 <사람이 음식을 가져가는 것>).

평가된 세 가지 측정값은 이미지 영역의 장면 그래프 생성에서 나오며 비디오 영역의 동적 장면 생성 방법을 테스트하는 데 사용됩니다.

  • (1) 술어 분류(PREDCLS)
  • (2) 장면 그래프 분류(SGCLS)
  • (3) 장면 그래프 감지(SGDET)

실험 결과는 다음과 같습니다. 비교된 여러 SOTA 방법은 다음과 같습니다.

  • VRD:“ 언어 사전과의 시각적 관계 탐지 ”. ECCV2016
  • MSDN:“ 개체, 문구 및 지역 캡션에서 장면 그래프 생성 ”,ICCV2017
  • Motif Freq:“ 신경 모티프: 글로벌 컨텍스트로 장면 그래프 분석 ”, CVPR2018.
  • VCTREE:“ 시각적 맥락을 위한 동적 트리 구조를 구성하는 방법 학습 ”, CVPR2019
  • RelDN:“ 장면 그래프 구문 분석을 위한 그래픽 대비 손실 ”, CVPR2019
  • Gps-net장면 그래프 생성을 위한 그래프 속성 감지 네트워크,CVPR2020

결론적으로

  • 본 논문에서는 동적 장면 그래프 생성을 위한 STTran(spatial-temporal Transformer)을 제안하며, 인코더는 프레임 내 공간적 맥락을 추출하고 디코더는 프레임 간의 시간적 의존성을 포착한다.
  • 이전의 단일 라벨 손실과 달리 본 논문에서는 다중 라벨 손실을 활용하고 장면 그래프 생성을 위한 새로운 전략을 소개합니다.
  • 여러 실험에 따르면 시간적 맥락이 관계 예측에 긍정적인 영향을 미치는 것으로 나타났습니다.
  • Action Genome 데이터 세트에서 동적 장면 그래프 생성 작업이 SOTA 결과를 얻었습니다.
     

추천

출처blog.csdn.net/Mr___WQ/article/details/129692648