교차 모달 검색 논문 읽기: (PTP)시각 언어 사전 훈련을 위한 위치 안내 텍스트 프롬프트

(PTP)시각 언어 사전 교육을 위한 위치 안내 텍스트 프롬프트시각
언어 사전 교육 위치 안내 텍스트 프롬프트

요약

VLP(시각적 언어 사전 훈련)는 이미지와 텍스트 쌍을 통합하여 다양한 교차 모달 학습 작업을 촉진하는 기능을 보여주었습니다. 그러나 VLP 모델에는 시각적 추론과 같은 많은 다운스트림 작업에 중요한 시각적 접지/위치 파악 기능이 부족한 경우가 많습니다. 본 연구에서는 VLP로 훈련된 크로스 모달 모델의 시각적 위치 파악 기능을 향상시키기 위한 새로운 위치 기반 텍스트 프롬프트(PTP) 패러다임을 제안합니다 . 구체적으로, VLP 단계에서 PTP는 이미지를 N×N 블록으로 나누고 VLP에서 널리 사용되는 객체 검출기를 통해 각 블록의 객체를 식별합니다. 그런 다음 모델이 주어진 블록의 목표를 예측하거나 목표가 있는 블록을 재정의하도록 장려하여 PTP가 주어진 빈칸 채우기 문제로 시각적 위치 파악 작업을 다시 공식화합니다(예: "[P]"를 입력). PTP 또는 "[O]", "블록 [P]에 [O]가 있습니다." 이 메커니즘은 VLP 모델의 시각적 현지화 기능을 향상시켜 다양한 다운스트림 작업을 더 잘 처리하도록 돕습니다. 여러 최첨단 VLP 프레임워크에 PTP를 도입함으로써 대표적인 교차 모달 학습 모델 아키텍처와 ViLT 기준선의 Flickr30K 검색(평균 재현율 + 4.8) 및 COCO 자막과 같은 여러 벤치마크에서 일관되고 중요한 개선이 관찰되었습니다. SOTABLIP 기준(CIDEr+5.3). 또한 PTP는 객체 감지기 기반 방법과 유사한 결과를 달성하며 PTP는 추론 시 객체 감지기를 삭제하지만 후자는 그렇지 않기 때문에 추론이 훨씬 빠릅니다.

1. 소개

CLIP, ALIGN, CoCa와 같은 비전 및 언어 사전 훈련(VLP) 모델은 시각적 질문 답변, 추론, 이미지 캡션과 같은 다양한 교차 모달 학습 작업에서 최첨단 성능을 크게 향상시켰습니다. 일반적으로 일반 교차 모달 모델은 더 나은 일반화 기능을 위해 충분한 데이터를 확인하기 위해 먼저 자체 감독 방식으로 대규모 이미지 캡션 데이터에 대해 사전 훈련된 다음 다운스트림 작업에서 수행됩니다. 놀라운 효과로 인해 사전 훈련을 통해 미세 조정된 VLP 모델 패러다임이 다중 모드 분야를 지배해 왔습니다.
여기에 이미지 설명을 삽입하세요.
그림 1. 세 가지 VLP 학습 프레임워크 및 성능 비교 (a) 지역 특징 기반 VLP(RF-VLP), 엔드투엔드 VLP(E2E-VLP) 및 위치 안내 텍스트 프롬프트 기반 VLP(PTP-VLP)의 비교. PTP-VLP에는 약 15ms의 추론 시간만 필요하며 이는 E2E-VLP와 동일하지만 RF-VLP보다 훨씬 빠릅니다. (b) 많은 다운스트림 작업에서 광범위하게 발생하는 위치 인식 문제에 대해 RFVLP와 PTP-VLP는 가려진 텍스트 및 이미지 입력의 경우 객체를 잘 예측할 수 있는 반면, E2E-VLP는 이미지에서 객체를 정확하게 지적할 수 없습니다. 개체의 정보입니다.

이전 연구에서 관찰된 것처럼 VLP에서는 시각적 기반이 많은 작업에 중요합니다. 위치 정보를 모델링하기 위해 기존 VLP 모델(그림 1(a)의 상단)은 1600 클래스 시각적 게놈에 대해 사전 훈련된 fast-rcnn을 채택하여 눈에 띄는 지역 특징과 경계 상자를 추출합니다. 그런 다음 이러한 모델은 경계 상자와 개체 기능을 모두 입력으로 사용합니다. 이러한 방식으로 이러한 모델은 돌출 영역에 어떤 객체가 포함되어 있는지뿐만 아니라 이러한 객체가 어디에 있는지도 학습할 수 있습니다. 그러나 지역 특성을 입력으로 사용하는 경우 모델은 경계 상자 내의 항목에 초점을 맞추고 경계 상자 외부의 상황별 데이터는 무시합니다. 더 심각한 것은 다운스트림 작업에서 이러한 방법은 여전히 ​​탐지기를 사용하여 객체를 추출해야 하므로 사람들의 추론 속도가 매우 느리다는 것입니다.

효율성을 높이기 위해 지역적 특징을 제거하기 위해 최근 연구(그림 1(a))에서는 지역적 특징 대신 원시 픽셀 이미지를 입력으로 채택하고 이미지-텍스트 일치 및 마스크된 언어 시뮬레이션 손실을 통해 모델을 엔드투엔드 훈련합니다. . 이러한 모델은 더 빠르지만 객체의 위치와 객체 간의 관계를 잘 학습하지 못합니다. 그림 1(b)에서 볼 수 있듯이 훈련된 ViLT 모델은 애니메이션의 개체가 무엇인지 매우 잘 알고 있음을 관찰할 수 있습니다. 하지만 이 모델은 물체의 위치를 ​​정확하게 학습하지 못합니다. 예를 들어, "개는 이 이미지의 오른쪽에 있습니다."라고 잘못 예측했습니다. 그러나 미세 조정 중에 다운스트림 작업에서는 이미지를 완전히 이해하기 위해 실제로 개체 위치 정보가 필요합니다.

이 작업에서 우리는 다운스트림 작업에 대한 빠른 추론 시간을 유지하면서 이러한 엔드투엔드 모델의 위치 누락 문제를 완화하는 것을 목표로 합니다. 최근의 큐 학습 방법에서 영감을 받아 우리는 크로스 모달 모델의 사전 학습을 위한 새롭고 효과적인 위치 안내 텍스트 프롬프트(PTP) 패러다임(그림 1(a) 하단)을 제안합니다. 핵심 통찰력은 이미지와 텍스트에 위치 기반 공통 참조 마커를 추가함으로써 시각적 위치 파악을 빈칸 채우기 문제로 재구성하여 객체 정보 학습을 최대한 단순화할 수 있다는 것입니다. 이미지 데이터의 자연어 표현을 확립하기 위해 PTP는 (1) 블록 라벨 생성, 이미지를 N×N 블록으로 나누고 각 블록의 개체 식별, (2) 쿼리를 입력하는 프롬프트 텍스트 생성의 두 부분으로 구성됩니다. 텍스트를 위치 기반 텍스트 쿼리 템플릿으로 변환합니다.

사전 훈련에 위치 정보를 도입함으로써 PTP는 VLP 모델이 강력한 비전 기반 기능을 갖도록 지원합니다. 동시에 다운스트림 작업에서는 객체 감지기를 사용하지 않기 때문에 빠른 추론 시간을 유지합니다. 실험 결과는 우리의 방법이 특히 제로 샷의 경우 유사한 방법보다 훨씬 더 나은 성능을 보인다는 것을 보여줍니다. 예를 들어, PTP-BLIP은 CoCa보다 적은 훈련 데이터(400만 대 3B)와 더 작은 모델(220만 대 21B)을 사용하여 coco 데이터 세트에서 제로 샷 검색 Recall@1을 달성합니다. 절대 정확도는 3.4%입니다. 달성되었습니다. 제로샷 작업 외에도 PTP가 객체 위치 기반 시각적 추론 및 시각적 질문 답변 및 이미지 캡션과 같은 기타 일반적인 VLP 작업에서 강력한 성능을 달성할 수 있음을 보여줍니다.

2. 관련 업무

2.1 시각적 언어 사전 학습 모델

기존 VLP 모델은 아키텍처에 따라 크게 단일 스트림 모델, 듀얼 스트림 모델, 듀얼 스트림 + 융합 인코더 모델의 세 가지 범주로 나눌 수 있습니다. 이 세 가지 아키텍처는 아래에 소개되어 있습니다.

  1. 그림 2(a)의 단일 스트림 모델(예: UNITER, ViLT)은 이미지와 텍스트 입력을 연결하여 작동합니다. 2) 그림 2(b)의 2-스트림 모델(예: CLIP)은 각 양식에 대해 별도이지만 동일한 비용의 변압기 인코더를 사용합니다. 두 모드는 입력 레이어에서 연결되지 않지만 이미지 벡터의 얕은 집합과 텍스트 벡터 사이에는 상호 작용이 있습니다. 3) 이중 스트림 및 융합 모델(예: BLIP) 그림 2(c)는 단일 스트림 모델과 이중 스트림 모델의 조합입니다.
    여기에 이미지 설명을 삽입하세요.
    그림 2. 널리 사용되는 세 가지 유형의 비전 및 언어 모델. 주요 차이점은 교차 모달 정보 융합이 발생하는 위치입니다. 단일 스트림 융합은 초기 단계에 있고, 이중 스트림 융합은 후기 단계에 있으며, 마지막 유형의 융합은 중간 단계에 있습니다.

이 작업에서는 일반성을 잃지 않고 편재성과 다양한 다운스트림 작업에 대한 적응성으로 인해 세 가지 VLP 모델을 모두 유도하는 데 중점을 둡니다.

2.2 컴퓨터 비전을 위한 힌트 학습

힌트 학습은 원래 특정 다운스트림 작업을 위해 사전 훈련된 언어 모델의 지식을 조사하도록 설계되었습니다. 최근 몇 년 동안 다중 모드 학습 및 이미지 이해와 같은 시각적 작업에 대한 큐 미세 조정에 대한 연구가 등장했습니다. 고급 색상 힌트는 시각적 기반을 위한 이미지 및 텍스트 색상 설명에 색상 힌트를 추가합니다. 우리 작업과 가장 관련이 있는 것은 VLPT 모델에 대한 다중 모드 프롬프트 조정을 제안하고 일부 시각적 언어 작업에서 유망한 결과를 달성하는 다중 모드 프롬프트입니다.

그러나 초기 NLP 연구와 마찬가지로 이러한 노력은 미세 조정의 큐 엔지니어링에 중점을 두고 사전 훈련 단계는 영향을 받지 않습니다. 대조적으로, 이 작업에서 힌트 디자인을 사용하는 목적은 모델이 아직 사전 훈련 단계에 있는 동안 더 미세한 수준에서 의미론적 개념을 이해할 수 있는 능력을 모델에 제공하는 것입니다.

2.3 VLP에서 위치정보 학습

현지화 기능은 다양한 크로스 모달 작업에 중요한 것으로 나타났습니다. 이 기능을 VLP 모델에 도입하기 위해 상향식, 하향식 및 후속 작업은 지역 특징과 경계 상자 벡터를 연결합니다. 그러나 객체 추출은 추론 다운스트림 작업에서 시간이 많이 걸립니다. 최근 일부 연구에서는 추가적인 객체 위치 파악 손실이나 청크 정렬 손실을 추가하여 VLP 모델을 학습시키는 방법을 제안했지만 이러한 모델은 특정 프레임워크용으로 특별히 설계되었기 때문에 확장이 어렵습니다. 대조적으로, 우리는 위치 정보를 학습하기 위한 일반적인 프레임워크를 제안하는 것을 목표로 합니다. 이를 위해 우리는 기존 프레임워크에 쉽게 삽입할 수 있는 간단한 텍스트 프롬프트를 제안합니다 .

3. 위치 안내를 위한 텍스트 프롬프트

이 섹션에서는 먼저 제안된 위치 안내 텍스트 프롬프트 패러다임(줄여서 PTP)에 대해 자세히 설명합니다. 그런 다음 클래식하고 인기 있는 VILT, CLIP 및 BLIP을 예로 들어 이를 현재 VLP(시각적 언어 사전 훈련) 프레임워크와 결합하여 시각적 기본 기능을 향상시키는 방법을 소개합니다.

3.1 PTP 패러다임

VLP로 훈련된 크로스 모달 모델의 시각적 기본 기능을 향상시키기 위해 크로스 모달 모델이 객체를 인식하고 이러한 객체를 관련 텍스트와 정렬하는 데 도움이 되는 새롭고 효과적인 위치 안내 텍스트 프롬프트(PTP)를 제안합니다. PTP는 대상 기능과 경계 상자를 입력으로 연결하여 대상과 관련 텍스트 사이의 정렬을 학습하는 전통적인 시각적 언어 정렬 방법과 다릅니다. 따라서 섹션 3.2에서 제시되고 논의된 것처럼 몇 가지 이점을 누릴 수 있는 대체 접근 방식을 제공합니다. 분파. 그림 3에서 볼 수 있듯이 PTP는 1) 블록 레이블 생성, 입력 이미지를 여러 블록으로 나누고 동시에 각 블록의 대상을 식별하는 두 단계로 구성됩니다. 2) 1단계에 따라 텍스트 프롬프트 생성) , 시각적 위치 파악 작업은 빈칸 채우기 문제로 재구성됩니다. 이러한 단계를 기반으로 PTP의 빈칸 채우기 문제를 해결하여 VLP 모델에 PTP를 쉽게 삽입할 수 있습니다. 아래에서 이 두 단계를 다루겠습니다.

3.1.1 블록 라벨 생성

여기에 이미지 설명을 삽입하세요.
그림 3. 전체 프레임워크. 모든 사전 훈련 프레임워크(그림 2의 단일 스트림, 듀얼 스트림, 듀얼 스트림 + 융합 인코더)와 대부분의 목표를 PTP와 통합할 수 있습니다. 점선은 모델이 존재하지 않을 수도 있음을 나타냅니다. 다운스트림 작업에 대한 텍스트 힌트를 제거하고 평소와 같이 모델을 평가합니다.

그림 3에서 볼 수 있듯이 훈련 단계의 각 이미지-텍스트 쌍에 대해 입력 이미지를 N×N 블록으로 균등하게 나눕니다. 그런 다음 다음 두 가지 방법 중 하나로 각 블록의 객체를 식별합니다.

(1) 표적 탐지기 . 먼저 VinVL에서 사용되는 강력한 Faster-rcnn을 채택하여 각 이미지의 모든 객체를 추출합니다. Faster-rcnn의 이 버전은 ResNeXt152를 기반으로 하며 1600 클래스 시각적 게놈에 대해 훈련되었습니다. 그런 다음 객체 K상위로 표시되는 예측 신뢰도가 가장 높은 선택 합니다 . 각 블록에 대해 영역 중심이 해당 블록에 있는 대상을 선택합니다. 마지막으로, 이 블록의 최종 라벨은 선택된 타겟의 q입니다. 이 작업에서는 객체 감지기를 사용하여 기본적으로 객체 라벨을 생성합니다.

(2) CLIP 모델 . CLIP 모델의 효율성과 효율성으로 인해 최근 일부 연구에서는 CLIP을 기반으로 지역 감독을 생성하려는 시도도 있습니다. 이러한 작업에서 영감을 받아 PTP는 CLIP(ViT-B) 모델을 통해 블록과 같은 대상 감시를 생성할 수도 있습니다. 먼저, 전체 텍스트 코퍼스에서 가장 일반적인 M(기본값 3000) 키워드/문구를 추출합니다. 이러한 키워드/문구는 우리의 어휘로 간주됩니다 V. 그런 다음 CLIP 텍스트 인코더를 통해 모든 M개의 키워드/문구 임베딩의 텍스트 특징 ei, i∈ [1, …, M]을 추출합니다.
또한 각 블록에서 이미지 임베딩 h를 추출하고 각 텍스트 특징 간의 유사성을 계산합니다. 유사성 점수가 가장 높은 키워드/문구가 이 특정 블록의 최종 대상 태그로 선택됩니다. 공식적으로 각 블록의 객체 레이블 인덱스는 다음과 같이 계산됩니다.
여기에 이미지 설명을 삽입하세요.
여기서 h는 선택한 블록의 시각적 특징 임베딩입니다. 물체 감지기와 비교하여 CLIP 모델은 두 가지 장점이 있습니다. 첫째, 미리 정의된 객체 카테고리에 비해 생성되는 객체 라벨이 더 다양합니다. 둘째, 블록 라벨 생성은 객체 감지기보다 훨씬 빠릅니다. 예를 들어 Faster-RCNN(ResNeXt152) 모델보다 40배 빠릅니다. 비교를 위해 섹션 4.3을 참조하십시오.

3.1.2 텍스트 프롬프트 생성

입력 이미지의 각 훈련 쌍에 대해 섹션 3.1.1에서 대상 레이블과 위치가 생성되었으며, 이를 통해 다음과 같은 간단한 텍스트 프롬프트를 디자인할 수 있습니다: "블록 [P]에는 [O]가 있습니다." 그

P ∈{1, …, N 2 }는 객체 위치를 나타내는 데 사용되는 선택된 블록의 인덱스를 나타내고, O는 블록 P에 대해 생성된 대상 레이블을 나타냅니다. 섹션 4.3에서 보다 신속한 설계 선택을 살펴봅니다. 일부 P의 경우 블록에 여러 개체가 포함될 수 있으므로 O에 대해 여러 선택 사항이 있을 수 있습니다. 이 경우에는 매번 무작위로 O를 선택합니다. 이러한 방식으로 PTP의 각 문장은 세분화된 개체 위치와 언어를 모델에 통합하여 개체와 관련 텍스트를 정렬하는 새로운 방법을 제공합니다.

3.2 PTP 사전 훈련

이 작업에서는 PTP를 주류 VLP 프레임워크에 통합하여 PTP-ViLT, PTP-CLIP 및 PTP-BLIP을 생성합니다. PTP를 받은 후 이러한 모델을 훈련할 수 있는 두 가지 옵션이 있습니다.

기존 작업에 통합합니다 . 텍스트 프롬프트를 사용하는 가장 쉬운 방법은 텍스트 입력을 변경하는 것입니다. 그림 3에서 볼 수 있듯이 프롬프트의 텍스트와 원래 제목은 단순히 함께 채워집니다. 공식적으로 메소드의 입력 제목 x는 다음과 같이 표시됩니다.
여기에 이미지 설명을 삽입하세요.
여기서 w는 텍스트이고 q는 생성된 텍스트 프롬프트입니다. 그런 다음 기존 목표를 사용하여 VLP 모델을 엔드 투 엔드로 교육합니다. 우리는 PTP-BLIP을 훈련하기 위해 언어 모델링(LM) 손실, 이미지-텍스트 매칭(ITM) 및 이미지-텍스트 비교(ITC) 손실을 채택하고, PTP-ViLT를 훈련하기 위해 ITM 및 마스크된 언어 모델링(MLM) 손실을 사용합니다. 우리는 PTP-CLIP을 훈련시키기 위해 ITC 손실만을 사용합니다. 이 방법의 성능이 좋기 때문에 모든 실험에서 기본 방법으로 사용합니다.

새로운 구실 작업으로 . 또한 추가 언어 모델링 작업으로 위치 예측을 탐구합니다. 공식적으로, D가 사전 훈련 데이터이고, y1, ..., yT가 우리가 생성한 텍스트 프롬프트 q에 대한 훈련 토큰 시퀀스라면, 시간 단계 t에서 확률 분포 p(t)를 예측하도록 모델을 설계합니다. ) = p (*|y1, … , yt-1). 그런 다음 점차적으로 올바른 마커가 될 확률을 최대화하려고 노력합니다. 목표 예측 손실은 다음과 같이 계산됩니다.
여기에 이미지 설명을 삽입하세요.

여기서 θ는 모델의 훈련 가능한 매개변수입니다. 이러한 방식으로 모델은 어떤 블록 P에 목표가 있는지, 그리고 이 블록에 목표 O가 무엇인지 예측하도록 요청됩니다.

토론 . 우리의 방법은 기본 네트워크를 수정할 필요가 없으며 멋진 내용 없이 모든 VLP 모델에 적용할 수 있다는 점은 주목할 가치가 있습니다. 이 모델은 원시 픽셀 이미지로부터 위치 정보를 학습하도록 설계되었습니다. 사전 훈련 단계에서만 목표의 위치 정보가 필요하지만 다운스트림 작업에서는 무거운 목표를 제거하기 위해 목표 정보 없이 일반적인 end-to-end 방식으로 모델을 평가합니다. 특징 추출.

4. 실험

이 섹션에서는 PTP의 여러 다운스트림 작업을 경험적으로 평가하고 포괄적인 연구를 제시합니다.

4.1 실험 설정

먼저 연구에 사용된 데이터 세트, 훈련 구성, 평가 절차 및 기본 모델을 포함하여 사전 훈련 실험 조건을 설명합니다.

데이터 세트 . 이전 연구와 마찬가지로 먼저 4개의 인기 있는 사전 훈련 데이터 세트(COCO, VG, SBU 및 CC3M)로 구성된 4M 설정을 사용합니다. 최근 작업에 이어 4M 데이터세트 외에 추가 CC12M(실제로는 10M 이미지만 사용 가능) 데이터세트를 포함하는 14M 설정도 살펴봅니다. 데이터 세트에 대한 자세한 내용은 독자에게 보충 자료를 참조하시기 바랍니다.

훈련 설정 . 우리 모델은 PyTorch에서 구현되었으며 8개의 NVIDIA A100 GPU에서 사전 훈련되었습니다. 옵티마이저 및 훈련 하이퍼파라미터의 경우 공정한 비교를 위해 기준 작업의 원래 구현을 따릅니다. 이미지 향상을 위해 RandAugment를 탐색하고 색상 정보가 중요하므로 색상 반전을 제외한 모든 독창적인 전략을 사용합니다. 회전과 같은 아핀 변환을 구현하기 위해 이미지와 동일한 방식으로 경계 상자를 확대합니다. 사전 훈련 중에 224×224 해상도의 이미지를 무작위로 샘플링하고 미세 조정을 위해 이미지 해상도를 384×384로 늘립니다.

기준선 . 우리는 단일 스트림 ViLT, 듀얼 인코더 CLIP 및 융합 인코더 BLIP를 포함하여 사전 훈련 프레임워크의 세 가지 변형을 평가하여 우수한 성능을 평가합니다. 공정한 비교를 위해 ViTB/16을 기본 시각적 인코더로 채택하고 동일한 데이터 세트를 사용합니다.

4.2 주요 결과

이 섹션에서는 PTP를 기존 네트워크에 통합하고 광범위한 시각적 언어 다운스트림 작업에 대한 기존 VLP 방법과 비교합니다. 그런 다음 각 작업과 미세 조정 전략을 소개합니다. 자세한 내용은 보충 자료에서 확인할 수 있습니다.

4.2.1 이미지-텍스트 검색

COCO 및 Flickr30K 벤치마크에서 PTP의 이미지-텍스트 검색(TR) 및 텍스트-이미지 검색(IR)을 평가합니다. PTP-BLIP의 경우 원래 구현에 따라 추가 재정렬 전략을 채택했습니다.

먼저 표 1의 이미지-텍스트 및 텍스트-이미지 설정에 대한 제로샷 검색 결과를 보고합니다. 1. PTP가 모든 지표의 기준을 크게 향상시키는 것으로 나타났습니다. 예를 들어, ViLT 기준의 경우 PTP는 MSCOCO의 이미지-텍스트 검색에 대한 Recall@1을 초과하는 13.8%(41.3%에서 55.1%)의 절대적인 개선을 가져옵니다. 또한 강력한 BLIP을 기반으로 하는 PTP-BLIP은 훨씬 적은 데이터로 MSCOCO의 대부분의 재현율에서 CoCa를 능가합니다.

여기에 이미지 설명을 삽입하세요.
표 1. Flickr30K 및 MSCOCO 데이터세트에 대한 제로샷 이미지-텍스트 검색 결과. 우리는 더 큰 말뭉치를 훈련하거나 더 큰 모델을 사용하는 방법을 제거합니다. †원래 데이터세트에 액세스할 수 없거나 이러한 샤드에 대해 교육받지 않았기 때문에 자체적으로 구현하고 동일한 데이터세트에서 교육한 모델을 나타냅니다. Avg는 모든 이미지-텍스트 회상 및 텍스트-이미지 회상의 평균입니다.

서로 다른 모델 간의 미세 조정 설정에 대한 요약 비교는 표 2.2에 나와 있으며, 이를 통해 다음을 확인할 수 있습니다. (1) PTP는 두 데이터 세트 모두에서 BLIP 및 ViLT 기준선을 크게 능가합니다. 예를 들어, PTP-ViLT는 MSCOCO TR의 R@1에 대해 인상적인 5.3% 개선을 달성했습니다. (2) 강력한 BLIP을 기본으로 PTPBLIP은 동일한 규모에서 최첨단 성능을 달성합니다. 기준선과 동일한 설정으로 PTP를 교육하고 최대 입력 텍스트 토큰을 늘리지 않기 때문에 교육 비용은 BLIP 기준선과 동일합니다. 유사한 프레임워크에서는 4M 설정과 ALBEF(14M 데이터) 사이의 격차도 줄일 수 있습니다.

여기에 이미지 설명을 삽입하세요.
표 2. COCO 및 Flickr30K에서 이미지-텍스트 검색 및 텍스트-이미지 검색에 대한 미세 조정 결과. UNITER, OSCAR 및 VinVL은 모두 경계 상자 및 대상 기능을 사용합니다. BeIT-3은 추가로 160GB의 텍스트 코퍼스를 사용합니다.

위의 결과를 보면 UNITER, OSCAR, VinV, ImageBERT 모두 우리처럼 fastr-cnn을 사용하고 있음을 알 수 있다. 그러나 우리 PTP의 결과는 이러한 관련 작업보다 훨씬 좋습니다. 또한 사전 훈련 단계에서만 객체 감지기를 사용합니다. 이는 물체 감지기가 성공의 비결이 아니며 위치 정보를 활용하는 방법이 VLP 모델에 중요하다는 것을 보여줍니다.

4.3 절제 및 설계 선택

이 섹션에서는 먼저 잘 알려진 세 가지 기준과 비교하여 4M 설정의 검색 작업에 대한 방법을 평가합니다. 그런 다음 CC3M에서 BLIP 모델을 기준으로 훈련하고 다양한 절제를 수행합니다.

4.3.1 아키텍처 변경

우리는 PTP의 영향을 탐색하기 위해 ViLT, CLIP 및 BLIP의 세 가지 기준을 사용하여 실험을 수행합니다. 표 6은 COCO 5K 테스트 세트의 성능을 보고합니다. 이러한 기본 실험의 결과를 비교하면 PTP가 i2t와 t2i의 성능을 크게 향상시키는 것으로 나타났습니다. 이는 PTP가 다재다능하다는 것을 보여줍니다.

추가적으로 런닝타임도 비교해봤습니다. 다운스트림 작업에서는 객체 감지기나 단서를 사용하지 않기 때문에 계산 비용은 기준 모델과 일관되게 유지되지만 객체 특징 기반 VinVL보다 20배 빠릅니다.

4.3.2 텍스트 프롬프트와 추가적인 Pretext 작업

새로운 Pretext 작업으로 PTP를 사용하는 효과를 연구합니다. 이러한 방식으로 Pretext 작업은 ITM 및 ITC와 같은 다른 사전 훈련 목표에 영향을 미치지 않지만 계산 비용을 증가시킵니다. 대조적으로, 프롬프트 디자인은 단순히 텍스트 입력을 수정하므로 모든 사전 훈련 목표에 영향을 미칩니다.

우리는 이 결과를 표 7에 보고합니다. 우리는 Pretext 및 Prompt 디자인이 네 가지 작업 모두에서 기준선을 향상시키는 것을 관찰했습니다. 그러나 힌트는 Pretext보다 훨씬 낫습니다. 특히 COCO 자막의 CIDER(127.2 vs 123.5)에서는 더욱 그렇습니다. 이 작업에서는 효율성 때문에 힌트를 기본으로 사용합니다.

4.3.3 기타 유형의 텍스트 프롬프트

표 8에 결과를 보고합니다. 우리는 정확한 위치가 블록보다 더 나은 결과를 산출하지 않는다는 것을 관찰했으며 그 이유는 정확한 위치를 배우기가 어렵기 때문일 수 있습니다.
또한 블록 ID(예: 0) 또는 명사(예: 왼쪽 상단)를 사용해도 여전히 비슷한 결과가 나오는 것으로 나타났습니다. 결국 우리는 하이브리드 버전이 최상의 결과를 내지 못했다는 것을 발견했습니다.

4.3.4 텍스트 프롬프트에서 위치의 중요성

이 실험에서는 위치 지정이 없는 경우와 같이 다양한 세부 수준에서 PTP의 정보에 신호를 보내는 효과를 연구했습니다. 프롬프트를 제거할 때는 [P]와 [O]만 사용합니다. 우리는 결과를 표 9에 나열합니다. 우리는 다음을 관찰합니다: 1. 흥미롭게도 각 구성 요소는 중요합니다. 구성 요소가 하나도 없으면 다운스트림 성능이 점차 저하됩니다. OSCAR에서는 개체 레이블을 보조 입력으로 사용하면 지역 특징을 입력으로 사용할 때 결과가 향상된다는 사실을 발견했지만 원시 픽셀 이미지를 사용할 때는 개체 레이블이 효과적이지 않다는 것을 보여주었습니다. 이는 객체 레이블과 이미지 영역 간의 일관성을 이해하기 위해 실행 가능한 단서를 설정해야 함을 보여줍니다.
여기에 이미지 설명을 삽입하세요.

4.3.5 블록 수

우리는 보다 정밀한 위치 정보가 PTP에 기여하는지 탐색합니다. 그림 4에서는 블록 수를 1×1(PTP에서 위치 정보 제거)에서 4×4로 변경하고 BLIP 및 ViLT 모델을 기반으로 상대적 성능을 보고합니다. 블록 수가 1을 초과하면 두 백본 네트워크의 결과가 모두 향상되는 것을 볼 수 있습니다. 그러나 일단 16개의 블록이 있으면 모든 하위 활동의 ​​성능이 상대적으로 감소합니다. 그 이유는 예측된 경계 상자가 실제 객체의 위치에서 벗어나 그리드가 너무 작아서 선택한 객체를 포함하지 않을 수 있기 때문일 수 있습니다. 따라서 정확도를 즐길 수 있는 3×3 블록을 사용하는 것이 좋습니다.

여기에 이미지 설명을 삽입하세요.그림 4. 블록 수와 상대 정확도 향상 간의 관계. 우리는 두 가지 기준을 탐색하고 네 가지 작업에 대한 개선 사항을 보여줍니다.

4.3.6 물체 감지기가 필요한가요?

이 작업에서 예측된 경계 상자 정보의 일부는 Faster-rcnn에서 나옵니다. 객체의 표현력을 검증하기 위해 우리는 두 가지 변경 사항도 고려했습니다. 1. 순수한 조각 유사성. 이러한 설계 선택은 주로 효율성을 고려하여 이루어졌습니다. 물체 감지기를 활용하는 것은 시간이 많이 걸리고 때로는 쉽게 사용할 수 없는 경우도 있습니다. 강력한 ResNext152 기반 개체 감지기 외에도 ResNet101을 백본으로 활용하는 더 작은 Faster-rcnn 네트워크도 사용합니다.

결과는 표 10에 보고되어 있으며, 8개의 NVIDIA V100 GPU에 대한 전체 특징 추출 시간도 보고되어 있습니다. 표에서 볼 수 있듯이 더 강력한 검출기를 사용하면 더 나은 결과를 얻을 수 있지만 동시에 엄청난 계산 비용이 발생한다는 것을 알 수 있습니다. 또한 CLIP 임베딩 결과가 Faster-rcnn(ResNeXt152)에 매우 가깝다는 것을 알 수 있습니다. 또한 각 그리드에 대한 의사 레이블을 추출하는 데 Faster-rcnn(ResNeXt152) 버전의 약 2.3% 시간만 소요됩니다. 우리는 Clipped CLIP 모델이 PTP의 물체 감지기에 좋은 선택이라고 결론을 내렸습니다.

여기에 이미지 설명을 삽입하세요.
표 10. 메시 의사 라벨을 얻기 위한 다양한 방법과 해당 실행 시간. 참고용으로 COCO 데이터세트에 대한 이미지-텍스트 검색 결과를 보고합니다.

4.4 시각화

PTP 프레임워크로 훈련된 모델이 실제로 위치 정보를 학습할 수 있는지 알아보기 위해 이 섹션에서는 빈칸 채우기 평가 실험을 설계했습니다. ViLT에 이어 일부 키워드를 차단하고 모델에 차단된 단어를 예측하고 해당 히트맵을 표시하도록 요청했습니다. 우리는 두 개의 텍스트 단서를 설계했습니다. 하나는 명사가 주어진 위치를 예측하고 다른 하나는 위치가 주어진 누락된 명사를 예측하는 것입니다. 상위 3개 예측 결과를 보여 주며, 보충 자료에서 더 많은 시각화를 찾을 수 있습니다.

결과는 그림 5에 나와 있습니다. 한편으로 우리는 PTP-ViLT가 패치의 위치 정보와 시각적 개념을 기반으로 정확한 목표 예측을 할 수 있음을 발견했습니다. 반면, 위치 정보만 마스킹하면 올바른 블록에 대한 높은 예측 확률 값을 목격하게 됩니다. 예를 들어, 그림 5의 하단에서 우리 모델은 "사람"처럼 보이는 모든 패치를 올바르게 찾았습니다. 이러한 실험과 그림 1을 기반으로 우리는 PTP가 기본 VLP 모델이 간단한 텍스트 단서를 기반으로 위치 정보를 잘 학습하는 데 도움이 될 수 있다는 결론을 내렸습니다.

여기에 이미지 설명을 삽입하세요.
그림 5. 빈칸 채우기 작업 평가. 주어진 블록에 어떤 객체가 포함되어 있는지 예측하고, 어떤 블록에 특정 객체가 포함되어 있는지 예측하도록 모델에 요청합니다.

또한 KMeans 알고리즘을 사용하여 ViLT 및 PTP-ViLT의 마커 수준 기능을 클러스터링합니다. 직관적으로 의미가 유사한 태그는 함께 클러스터링되어야 합니다. 시각화된 결과를 그림 6에 표시합니다. ViLT 기준선과 비교하여 우리의 방법이 유사한 패치를 더 정확하게 클러스터링할 수 있음을 발견했습니다. 이는 우리의 PTP가 의미 정보를 매우 정확하게 학습한다는 것을 보여줍니다.

여기에 이미지 설명을 삽입하세요.
그림 6. 토큰 클러스터링 시각화. CC3M 훈련 세트에서 ViT-B/32 모델을 사용하여 ViLT 및 PTPViLT를 훈련합니다. CC3M 테스트 세트에서 KMeans 알고리즘을 사용한 토큰 클러스터링 결과를 보여줍니다. PTP-ViLT는 대체 클러스터링을 보여줍니다.

5. 한계 및 결론

먼저 기존 객체 감지기/훈련 모델의 위치 정보를 활용하여 간단한 힌트 방식으로 VLP 모델을 구축하려고 합니다. 우리는 프롬프트 엔지니어링을 돕기 위해 성공적인 크로스 모달 프롬프트 설정 실습을 제공합니다. 엄격한 실험을 통해 PTP가 추가 계산 비용 없이 위치 정보 학습을 향상시키기 위한 일반적인 파이프라인으로 사용될 수 있음을 보여줍니다. 그러나 현재 PTP는 잘못된 개체 태그를 처리하는 방법을 고려하지 않습니다. 게다가 이 작업은 더 복잡한 단서를 완전히 탐색하지 못했습니다. 향후 연구에서는 다른 시각적 언어 작업에 대한 PTP의 성능도 조사할 것입니다.

추천

출처blog.csdn.net/zag666/article/details/131349371