복잡한 이미지 및 텍스트 검색을 위한 신경 분할 정복 추론 프레임워크 | ACL 2023

파란색 글씨를 클릭하세요

49d106022ddfeb157e9f9fd4824c226d.jpeg

우리를 따르라

AI TIME은 모든 AI 애호가의 참여를 환영합니다!

간략한 소개:

사전 훈련된 시각적 언어 모델(VLM)은 텍스트 이미지 검색에서 놀라운 성능을 발휘합니다. 그러나 이해하기 힘든 언어적으로 복잡한 텍스트에 직면했을 때 그들의 성과는 극적으로 떨어졌습니다. 분할 정복 알고리즘과 이중 프로세스 이론에서 영감을 받은 본 논문은 언어적으로 복잡한 텍스트를 여러 개의 간단한 명제 문장으로 구성된 복합 명제 텍스트로 취급하고 종단 간 신경 분할 정복 추론 프레임워크를 제안합니다. NDCR이라고 합니다.

여기에는 세 가지 주요 구성 요소가 포함됩니다.

1) 분할: 복합 명제 텍스트를 간단한 명제 문장으로 분할하고 이에 상응하는 표현을 생성하는 언어 모델 기반 명제 생성기를 제안합니다.

2) 정복(Conquer): 사전 학습된 VLM 기반의 시각적 언어 상호작용기를 활용하여 간단한 명제 문장과 이미지 간의 상호 작용을 구현합니다.

 3) 조합: 신경 기호 추론기는 위의 하위 추론 상태를 결합하여 신경 논리 추론 방법을 통해 최종 솔루션을 얻습니다.

이중과정이론에 따르면 시각언어 상호작용자와 신경기호추론자는 유추추론체계 1과 논리추론체계 2로 볼 수 있다. 전체 시스템은 시각적 언어 모델의 지각 컴퓨팅 기능과 상위 계층 신경 기호 연산의 논리적 추론 기능을 통합합니다. 우리는 매우 까다로운 맥락 설명 이미지 검색 데이터 세트 IMAGECODE에 대해 광범위한 실험을 수행합니다.

실험 결과 및 분석에 따르면 NDCR은 복잡한 이미지-텍스트 추론 문제의 성능을 크게 향상시키며, 사전 훈련된 시각적 언어 모델을 기반으로 신경 기호 논리 연산을 도입하여 복잡한 이미지-텍스트 추론 문제를 해결하는 것이 실현 가능하고 효과적입니다.

논문 주소: https://arxiv.org/abs/2305.02265

코드 주소: https://github.com/YunxinLi/NDCR

01

 배경  

CLIP, Oscar 등과 같은 사전 학습된 시각적 언어 모델을 도입한 이후 이미지 및 텍스트 검색 작업의 성능이 크게 향상되었습니다. 아래 그림과 같이 복잡하고 긴 텍스트와 유사한 이미지를 접하게 되면 전체적인 성능이 급격히 저하됩니다. 기존의 사전 학습된 이미지 및 텍스트 검색 모델은 주로 대조 학습 및 언어 마스크 학습 방법을 통해 다수의 문장 수준 이미지 및 텍스트 쌍에 대해 학습되었습니다. 따라서 복잡한 언어로 긴 텍스트를 모델링하는 데 어려움을 겪습니다.

da60f858b173e98dce31a9df58458086.png

분할 정복: 복잡한 문제를 더 작은 하위 문제로 분해하고, 하위 문제를 해결하고, 이를 결합하여 원하는 결과를 얻는 학습 전략입니다. 이에 영감을 받아 복잡한 이미지 및 텍스트 검색 시나리오에 직면했을 때 복잡한 텍스트 내용을 분해하고 간단한 의미 정보를 추출하며 이미지 및 텍스트 추론 상태와 하위 의미 블록의 일치 결과를 계산하고 결합을 통해 최종 결과를 얻을 수 있습니다. .

인간 사고의 이중 과정 이론: 인간 두뇌의 사고 과정에는 두 가지 사고 시스템이 포함됩니다: 시스템 1은 유추에 능숙하고 시스템 2는 추상적 논리적 추론이 가능하며 복잡한 추론 문제에 적합합니다. 복잡한 그래픽 및 텍스트 장면에서 사전 훈련된 시각적 언어 모델은 간단한 그래픽 및 텍스트 표현, 정렬 및 융합에 능숙한 유추 추론 시스템으로 간주할 수 있습니다. 이를 기반으로 복잡한 이미지 및 텍스트 검색과 같은 복잡한 다중 모드 추론 문제를 해결하기 위해 논리 컴퓨팅 시스템을 도입하여 전체 시스템의 추론 능력을 더욱 향상시킬 수 있습니다.

fc5db79c19285a1db1f65b9b4a594d9a.png

위의 내용을 바탕으로 분할 정복 아이디어와 이중 프로세스 이론을 결합하고, 긴 텍스트를 복잡한 논리적 명제 텍스트로 처리하고, 이를 간단한 하위 명제로 분해하는 명제 생성기를 설계하고, 간단한 텍스트의 표현을 얻을 수 있습니다. 제안. 둘째, 사전 훈련된 시각 언어 모델은 지각 컴퓨팅 시스템 1로 사용되어 다양한 이미지에 대한 간단한 하위 제안의 추론 상태 및 매칭 결과를 얻습니다. 하위 명제 추론 결과의 결합 단계에서는 최종 논리 추론 결과를 얻기 위해 신경 기호 컴퓨팅 시스템 2를 도입합니다.

d755d1bd06b92d926965677f30db2323.png

02

방법 소개

명제 생성기 명제 생성기는 사전 훈련된 언어 모델 BART를 기반으로 하는 시퀀스-투-시퀀스 모델입니다. 그 목적은 복잡한 명제 텍스트를 간단한 명제 문장의 표현으로 분해하는 것입니다. 단순 명제 표현이 구체적으로 무엇을 나타내는지 설명하기 위해 BART의 디코더를 사용하여 인코딩된 표현을 기반으로 해당 문장을 생성합니다. 이 모듈은 먼저 문장 단순화 작업에서 미세 조정된 후 이 작업에 적용되며 모델 NDCR의 전체 학습 중에 매개변수가 업데이트되지 않습니다.

66ddd7377087f17be66cc40e2792ee09.png

시스템 1: 제안-이미지 상호 작용 시스템 이 모듈은 시스템 1과 유사하게 시각적 제안 정보 상호 작용을 수행하도록 설계되었습니다. 이 모듈은 훈련된 시각적 언어 모델 OFA를 기반으로 합니다. 이 모듈의 출력은 명제-이미지 일치 점수와 추론 상태입니다. 서로 다른 이미지 간의 정보 상호작용을 추론하기 위해 2계층 Transformer 구조를 소개합니다.

7dc78c12c00c36434290e65ae076d170.png

시스템 2: 신경 기호 추론기 이 모듈은 추론 상태와 간단한 명제의 결과를 통합하여 이미지의 복잡한 명제에 대한 최종 솔루션을 얻는 역할을 담당합니다. 부정 실행자와 결합 연산으로 구성됩니다. 부정 실행기는 추론 상태의 부정 추론 상태를 얻는 데 사용됩니다. 결합 연산은 결합된 긍정 및 부정 추론 상태를 기반으로 추론 결과를 얻는 역할을 담당합니다.

3298f46f81223d426f8b98c5c39145e0.png

구체적으로, System1을 통해 각 단순 명제의 추론 상태 H^{S_1}과 해당 이미지 명제 매칭 점수 P^{S_{1}}를 얻을 수 있습니다. 그런 다음, 명제 부정과 이미지의 추론 상태를 얻기 위해 신경 부정 실행기(ReLU 활성화 함수가 있는 2계층 MLP)를 도입합니다. 이는 각 단순 명제의 부정 추론 상태(H^{N})로 표시됩니다. . 이를 위해 우리는 H^{S_1}을 각 단순 명제의 긍정적 추론 상태로 처리하고 이를 부정적 실행기에 공급하여 부정적인 추론 상태 H^{N}을 얻습니다. 따라서 부정 실행기의 입력과 출력은 H^{S_1} 및 H^{N}입니다. H^{N}에 대해 시스템 1과 동일한 예측 헤드를 사용하여 부정적인 명제에 해당하는 일치 점수(P^{N})를 얻을 수도 있습니다. 중요한 것은 부정 계산을 수행할 수 있도록 설계된 손실 함수를 사용하여 부정 실행기를 로컬로 최적화해야 한다는 것입니다. 특히, 네거티브 실행기를 로컬로 최적화하기 위해 두 분포 P^{S_{1}} 및 P^{N} 사이의 KL Divergence를 특정 설정 값보다 크게 둡니다. 동시에, 부정적 추론 상태는 전체 신경기호 추론기의 최종 추론 상태를 얻기 위해 결합 연산 과정에 입력될 것이다. 신경 기호 추론기의 최종 매칭 손실과 로컬 손실은 부정 실행기를 공동으로 최적화합니다.

시스템 1과 시스템 2의 결합. 이 프로세스는 시스템 1과 시스템 2의 추론 결과를 최종 솔루션으로 통합하는 역할을 담당합니다. 시스템 1의 출력은 이미지에 대한 간단한 명제의 지각 계산으로 구성됩니다. 시스템 2의 출력은 전체 설명의 논리적 추론 결과입니다. 이를 통해 전체 시스템은 유추 시스템 1과 논리 시스템 2를 모두 활용합니다.

03

실험 결과

아래 그림 1과 같이 IMAGECODE 데이터 세트에 대한 실험 결과를 나타내었는데, NDCR은 다른 벤치마크 모델보다 좋은 성능을 보여줍니다. 또한 아래 그림 2와 같이 전체 모델에 대한 Ablation 실험도 수행하여 다양한 모듈의 성능을 검증했습니다. 실험 결과를 통해 신경기호추론 시스템이 실제로 모델의 전반적인 논리적 추론 능력을 향상시킬 수 있음을 확인할 수 있었다.

72988aa8e78b6bcf9e21b197c8c4f3f2.png

fc4b24932ffc8f061660e4c06c3a26d5.png

모델의 성능을 보여주기 위해 두 가지 예를 제시합니다. 그림에서 볼 수 있듯이 설계된 모델 NDCR은 일정한 프로세스 해석성을 갖고 있으며, 다양한 모듈의 계산 결과를 얻어 전체 시스템의 추론 능력 분석을 용이하게 할 수 있습니다.

f9440305813a735171aa82d3cae3cc24.png

d83819b35507846c9b477a7aa47d4c16.png

04

 결론적으로  

분할 정복 알고리즘과 이중 프로세스 이론에서 영감을 받은 이 논문에서는 언어적으로 복잡한 텍스트에서 이미지 검색이라는 까다로운 사례를 처리하기 위해 NDCR이라는 엔드투엔드 신경 분할 정복 추론 프레임워크를 소개합니다. NDCR에는 복합 명제 텍스트를 여러 개의 단순 명제 문장으로 나눈 다음 시각적 언어 인터랙터를 사용하여 단순 명제와 이미지 간의 상호 작용을 구현하는 명제 생성기가 포함되어 있습니다. 논리적 추론 능력을 향상시키기 위해 시각 언어 인터랙터의 출력을 기반으로 논리적 추론 결과를 얻을 수 있는 신경 기호 추론기를 설계했습니다. 이러한 방식으로 NDCR은 시스템 1(Visual Language Interactor)에서 유추적 지각 계산을 수행하고 시스템 2(Neural Symbolic Reasoner)에서 높은 수준의 논리적 추론을 수행합니다. 마지막으로 시스템 1과 2의 출력을 결합하여 최종 솔루션을 얻습니다.

제안된 NDCR 방법에는 다음과 같은 몇 가지 제한 사항이 있습니다.

1) 명제 생성기에서 생성된 단순 명제 문장의 표현은 이미지 인코딩과 다른 공간 분포에 있으며 이는 융합 표현의 성능에 영향을 미칩니다. 이 문제를 완화하기 위해 복합 명제 텍스트의 추론 정보를 도입하지만 사전 훈련된 VLM의 텍스트 이해 능력을 향상하여 이 문제를 해결하는 것을 선호합니다. 또한 VLM의 사전 훈련된 텍스트 인코더를 사용하여 명제 분해를 수행하는 것은 긴 텍스트의 담화 구조에 대한 이해가 부족하기 때문에 매우 비효율적입니다.

2) 비디오 프레임에서 파생된 이미지는 매우 유사하며 이러한 샘플에서 모델의 성능은 인간 수준보다 상당히 낮습니다. 앞으로는 이미지 차이 모델링의 관점에서 이를 개선할 수 있을 것입니다.

3) 실험 결과 우리의 방법은 중간 길이의 설명이 포함된 예에 대한 논리적 추론에 효과적이나 긴 설명에 대해서는 여전히 개선의 여지가 있음을 보여줍니다.

나르다

깨어 있는

00:41:05로 이동하려면 "원문 읽기"를 클릭하세요.

다시보기를 보실 수 있습니다!

지난 호의 추천 기사

4998c74f3d1f6dd03ab96d587e758bd2.jpeg

우리를 팔로우하는 것을 잊지 마세요! 매일 새로운 지식!

 AI타임 소개 

AI TIME은 과학적 추측의 정신을 계승하고, 각계각층의 사람들을 초대하여 인공 지능 이론, 알고리즘 및 시나리오 적용의 필수 문제를 탐구하고, 아이디어의 충돌을 강화하고, 글로벌 AI 학자들을 연결하는 것을 목표로 2019년에 시작되었습니다. 업계 전문가와 매니아들이 모여 토론 형식으로 인공지능과 인류의 미래 사이의 모순을 탐구하고, 인공지능 분야의 미래를 탐구합니다.

지금까지 AI TIME은 국내외 1,300명 이상의 연사를 초청하고, 600회 이상의 행사를 진행했으며, 600만 명 이상의 관객이 시청했다.

78fd05b7e02a5f3381c84e85984961af.png

나는 당신을 알고

들여다보다

~

ba7c30c283d5579ab4f3fbd8ee409aed.gif

원문을 읽고  다시보기를 보시려면 클릭하세요 !

추천

출처blog.csdn.net/AITIME_HY/article/details/132929705