UniIVAL: 이미지, 비디오, 오디오 및 텍스트 작업을 지원하는 최초의 통합 모델!

이미지, 비디오, 오디오-텍스트 작업을 지원할 수 있는 최초의 통합 모델 UniIVAL!

d4943f845327058559132726c5ad9b6e.png

NLP 그룹 가입 —> NLP 교환 그룹 가입

대규모 언어 모델(LLM)은 범용 에이전트에 대한 야심찬 탐구를 더 이상 환상이 아닌 것으로 만듭니다.

이러한 일반 모델을 구축하는 데 있어 주요 장애물은 작업 및 방식의 다양성과 이질성입니다.

유망한 솔루션 중 하나는 통합 프레임워크 내에서 수많은 작업과 모드를 지원할 수 있는 통합입니다.

대규모 데이터 세트에서 훈련된 Flamingo(Alayrac et al., 2022)와 같은 대형 모델은 2개 이상의 양식을 지원할 수 있지만 현재 중소형 통합 모델은 여전히 ​​2가지 양식(일반적으로 이미지-텍스트 또는 비디오-텍스트)으로 제한됩니다.

우리가 묻는 질문은 모든 방식을 지원할 수 있는 통합 모델을 효율적으로 구축하는 것이 가능한가입니다.

dbb0f44e1bf1448fd92284c8d1ce2d6b.png

이 질문에 답하기 위해 우리는 이 야심 찬 목표를 향한 한 걸음인 UniIVAL을 제안합니다 .

멋진 데이터 세트 크기나 모델 수십억 개의 매개변수에 의존하지 않고 ~0.25B 매개변수 UniVAL 모델은 두 양식을 초월하여 텍스트, 이미지, 비디오 및 오디오를 단일 모델로 통합합니다.

e7eb1ae61c5d6ace09f6487b46354f54.png

우리 모델은 작업 균형 조정 및 다중 모드 커리큘럼 학습을 기반으로 많은 작업에 대해 효과적으로 사전 훈련됩니다.

c68a815c841b62d9314ab7cac1437b13.png ec9850cb2ee66b0b16baaa5d4da6c736.png
MCL(Multimodal Curriculum Learning).
c1d11355089003091243a2bc20927399.png
다중 모드 태스크 밸런싱
af5db9370e9a0e8380c5a3b043d69bed.png
작업 및 데이터 간 지식 이전

UniIVAL은 이미지 및 비디오 텍스트 작업 전반에 걸쳐 기존 최첨단 방법의 경쟁력 있는 성능을 보여줍니다.

d6cad700f3d604e75fca0c9b8e4dc14d.png
RefCOCO, RefCOCO+ 및 RefCOCOg 데이터에 대한 시각적 현지화 작업 미세 조정
e9512f4da20559434446c9253f1542ae.png
이미지-텍스트 이해 및 생성 작업 데이터 미세 조정

이미지 및 비디오-텍스트 패턴에서 학습된 기능 표현을 통해 모델은 오디오에 대해 사전 교육을 받지 않았음에도 불구하고 오디오-텍스트 작업을 미세 조정할 때 경쟁력 있는 성능을 달성할 수 있습니다.

b651451ad0885287e257f383f6c26d7a.png
비디오 Q&A 스피너
7ffe246e51c8f951b0bd707c3dfbcc00.png
비디오 캡션 미세 조정
4705dcaf637869ba5e044b690aecb5df.png
음성-텍스트 미세 조정
a53dc58ef96c3832000f5fcf525500e4.png
미세 조정 없는 평가
162071be845eacd42695c037a8ae08c1.png
제로샷 평가

통합 모델의 이점을 활용하여 다양한 다중 모드 작업에 대해 훈련된 모델의 가중치 보간을 통해 다중 모드 모델 병합에 대한 새로운 연구를 제시하여 특히 분포 외 일반화에 대한 이점을 보여줍니다.

5168204bb184091341f9d35bb4a2bc02.png 67b87b4c615977dcaf1d972064405b3f.png

마지막으로 작업 간의 시너지 효과를 보여줌으로써 통합을 장려합니다.

요약하다

본 연구에서는 이미지, 비디오 및 오디오-텍스트 작업을 지원할 수 있는 최초의 통합 모델인 UniIVAL을 소개합니다.

상대적으로 작은 데이터 세트에 ~0.25B 매개변수가 있는 상대적으로 작은 모델로 이 작업을 수행합니다.

우리의 통합 시스템은 여러 이점을 가지고 미리 훈련된 다중 작업입니다. 서로 다른 작업과 양식 간의 시너지 효과를 활용하고 보다 효율적인 데이터 교육을 가능하게 하며 새로운 양식과 작업에 대한 강력한 일반화 능력을 보여줍니다.

우리 전략의 통합 측면은 서로 다른 다중 모드 작업에서 미세 조정된 모델을 병합하기 위한 흥미로운 기술을 위한 길을 열어줍니다. 다중 작업 사전 훈련 외에도 가중치 보간 병합을 통해 작업 다양성을 더욱 활용할 수 있음을 보여줍니다.

궁극적으로 우리는 우리의 작업이 연구 커뮤니티에 영감을 주고 방식에 독립적인 일반 보조 에이전트를 구축하는 과정을 가속화하기를 바랍니다.


4b29f5542c7919a9c16c3ef67da8b414.png

NLP 그룹 가입 —> NLP 교환 그룹 가입

추천

출처blog.csdn.net/qq_27590277/article/details/132095170