LISA: 대규모 언어 모델을 통한 추론 세분화

논문: https://arxiv.org/pdf/2308.00692

코드: GitHub - dvlab-research/LISA 

요약

인식 시스템은 최근 몇 년 동안 놀라운 발전을 이루었지만 여전히 시각적 인식 작업을 수행하기 전에 대상 개체 또는 범주를 식별하기 위해 명시적인 인간 지침에 의존합니다. 이러한 시스템은 암시적인 사용자 의도를 능동적으로 추론하고 이해할 수 있는 능력이 부족합니다. 이 작업에서는 새로운 분할 작업인 추론 분할을 제안합니다 . 이 작업의 목표는 복잡하고 암시적인 쿼리 텍스트가 주어졌을 때 분할 마스크를 출력하는 것입니다 . 또한 평가 목적으로 복잡한 추론과 세계 지식을 통합하여 천 개가 넘는 이미지 명령 쌍으로 구성된 벤치마크를 구축합니다 . 마지막으로 LISA: 다중 모드 대형 언어 모델(LLM)의 언어 생성 기능을 상속하는 동시에 분할 마스크를 생성할 수 있는 LISA: 대형 언어 지시 분할 도우미를 제안합니다 . 우리는 <SEG> 태그를 사용하여 원래 어휘를 확장하고 분할 기능을 잠금 해제하기 위한 마스킹 패러다임으로 임베딩을 제안합니다. 특히 LISA는 다음과 같은 상황을 처리할 수 있습니다: 1 ) 복잡한 추론, 2) 세계 지식, 3) 해석적 답변, 4) 다단계 대화 . 또한 비추론 데이터셋으로만 학습했을 때 강력한 제로샷 능력을 보여줍니다. 또한 239쌍의 추론 분할 이미지 명령만 사용하여 모델을 미세 조정하면 성능이 더욱 향상됩니다. 실험은 이 방법이 새로운 추론 분할 기능을 해제할 뿐만 아니라 복잡한 추론 분할 및 표준 참조 분할 작업 모두에 효과적이라는 것을 보여줍니다.

배경

이 작업에서는 복잡한 추론을 포함하는 암시적 쿼리 텍스트를 기반으로 이진 분할 마스크를 생성해야 하는 새로운 분할 작업인 추론 분할을 소개합니다.

특히, 쿼리 텍스트는 단순한 참조(예: "오렌지")에 국한되지 않고 복잡한 추론 또는 세계 지식을 포함하는 보다 복잡한 설명(예: "고품질 식품에는 비타민 C가 포함되어 있습니다")에 제한되지 않습니다. 이 작업을 수행하려면 모델에 1) 이미지와 함께 복잡하고 암시적인 텍스트 쿼리에 대한 추론, 2) 분할 마스크 생성이라는 두 가지 주요 기능이 있어야 합니다.

일부 연구에서는 시각적 입력을 위해 강력한 추론 기능을 다중 모달 LLM에 통합했지만 이러한 모델의 대부분은 주로 텍스트 생성 작업에 초점을 맞추고 세분화가 필요합니다. 세분화와 같은 출력 형식 작업은 여전히 ​​불충분합니다.

분할 마스크를 임베딩으로 표시함으로써 LISA는 분할 기능을 얻고 종단 간 교육의 이점을 얻습니다.

기여하다

1) 암시적 인간 지시에 기반한 추론이 필요한 추론 분할 작업을 소개합니다. 이 작업은 진정한 지능형 인식 시스템을 구축하는 데 중요한 자기 추론 능력의 중요성을 강조합니다.

2) 우리는 1,000개 이상의 이미지 명령어 쌍을 포함하는 추론 분할 벤치마크인 ReasonSeg를 구축합니다. 이 벤치마크는 커뮤니티가 새로운 기술을 개발하도록 평가하고 장려하는 데 중요합니다.

3) 새로운 세분화 기능을 통합하기 위해 마스킹 패러다임으로 임베딩을 사용하는 모델인 LISA를 제안합니다. 비추론 데이터 세트에 대해 교육을 받았을 때 LISA는 추론 분할 작업에서 강력한 제로 샷 기능을 보여주고 추론과 관련된 239개의 이미지 명령 쌍을 미세 조정하여 성능을 더욱 향상시킵니다. 우리는 LISA가 지각 지능의 개발을 촉진하고 이 방향에서 새로운 발전에 영감을 줄 것이라고 믿습니다.

관련된 일

이미지 분할 이미지 분할

시맨틱 분할의 목표는 이미지의 각 픽셀에 클래스 레이블을 할당하는 것입니다.

의미론적 정보를 효율적으로 부호화하기 위해 수많은 연구에서 다양한 설계(예: 인코더-디코더, 확장 컨벌루션, 피라미드 풀링 모듈, 비국소 연산자 등)를 제안했습니다.

인스턴스 분할 연구 및 전체 보기 분할은 DETR (Carion et al., 2020) 기반 구조, 마스크 어텐션동적 컨볼루션을 포함하여 인스턴스 수준 분할을 위한 다양한 아키텍처 혁신을 도입했습니다 .

보다 최근에 Kirillov et al.(2023)은 수십억 개의 고품질 마스크로 훈련된 SAM을 도입하여 바운딩 박스와 포인트를 큐로 지원하는 동시에 우수한 분할 품질을 보여주었습니다. X-Decoder (Zou et al., 2023a)는 비전과 언어를 연결하여 단일 모델에서 여러 작업을 통합합니다. SEEM (Zou et al., 2023b)은 텍스트, 오디오 및 낙서를 포함한 다양한 인간 상호 작용 방법을 추가로 지원합니다. 그러나 이러한 연구들은 주로 멀티태스킹 호환성과 통합에 초점을 맞추고 있으며, 새로운 기능의 주입을 무시하고 있습니다.

이 작업에서는 추론 분할 작업을 해결하고 자체 추론 기능으로 기존 시각적 분할기를 보강하기 위해 LISA를 제안합니다 .

다중 모달 대형 언어 모델 MULTI-MODAL LARGE LANGUAGE MODEL

LLM의 뛰어난 추론 기능에 동기를 부여받은 연구자들은 이러한 기능을 비전 영역으로 전환하여 다중 모드 LLM을 개발하는 방법을 모색하고 있습니다.

Flamingo (Alayrac, 2022)는 교차 주의 구조를 사용하여 시각적 컨텍스트에 집중하여 시각적 컨텍스트 학습을 가능하게 합니다.

BLIP-2 (Li et al., 2023b) 및 mPLUG-OWL (Ye et al., 2023)과 같은 모델은 시각적 인코더로 이미지 기능을 인코딩한 다음 텍스트 임베딩과 함께 LLM에 입력할 것을 제안합니다.

Otter (Li et al., 2023a)는 제안된 MIMIC-IT 데이터 세트에 대한 상황별 명령 조정을 통해 강력한 소수 샷 기능을 추가로 통합합니다. LLaVA (Liu et al., 2023b) 및 MiniGPT-4 (Zhu et al., 2023)는 먼저 이미지-텍스트 기능 정렬을 수행한 다음 명령 튜닝을 수행합니다.

또한 수많은 작업(Wu et al., 2023; Yang et al., 2023b; Shen et al., 2023; Liu et al., 2023c; Yang et al., 2023a)은 즉각적인 엔지니어링을 활용하여 API 호출을 통해 독립 모듈을 연결합니다. 하지만 종단 간 교육의 이점은 없습니다.

최근에는 시각 작업에서 LLM과 다중 양식 간의 교차점을 탐색하는 여러 연구가 있었습니다.

VisionLLM (Wang et al., 2023)은 명령 튜닝을 통해 여러 비전 중심 작업에 유연한 인터페이스를 제공하지만 복잡한 추론을 위해 LLM을 완전히 활용하지 못합니다.

Kosmos-2 (Peng et al., 2023)는 LLM 기반의 능력을 주입하여 이미지-텍스트 쌍을 기반으로 대규모 데이터를 구성합니다. GPT4RoI (Zhang et al., 2023)는 공간 상자를 입력으로 도입하고 영역-텍스트 쌍에 대해 모델을 교육합니다.

반대로 우리의 작업은 다음을 목표로 합니다.

1) 세분화 기능을 다중 모드 LLM에 효율적으로 주입

2) 현재 인식 시스템의 자기 추론 능력을 잠금 해제합니다.

추론 세분화 소개

문제 정의

 추론 분할 작업은 입력 이미지 ximg 및 암시적 쿼리 텍스트 명령 xtxt가 주어지면 이진 분할 maskM을 출력하는 것입니다.

간단한 구문(예: "휴지통") 대신 쿼리 텍스트에는 더 복잡한 표현(예: "쓰레기통에 넣어야 하는 것")이나 긴 문장(예: "요리 후 먹습니다. 남은 음식과 남은 음식?"), 복잡한 추론이나 세계 지식을 포함합니다.

벤치마크

정량적 평가가 없는 경우 추론 세분화 작업에 대한 벤치마크를 설정해야 합니다. 신뢰할 수 있는 평가를 보장하기 위해 OpenImages(Kuznetsova et al., 2020) 및 ScanNetv2(Dai et al., 2017)에서 다양한 이미지 집합을 수집하고 이를 암시적 텍스트 지침 및 고품질 개체 마스크와 쌍으로 주석 처리합니다. 캡션에는 그림 2와 같이 1) 짧은 문장, 2) 긴 문장의 두 가지 유형이 있습니다. 결과 ReasonSeg 벤치마크에는 총 1218개의 이미지 명령 쌍이 포함됩니다. 데이터 세트는 각각 239, 200 및 779 이미지 명령 쌍을 포함하는 train, val 및 test의 세 부분으로 나뉩니다. 벤치마크의 주요 목적은 평가이므로 유효성 검사 및 테스트 세트에는 더 많은 이미지 지침 샘플이 포함됩니다.

방법

모델 구조

 마스크로 포함

 VisionLLM (Wang et al., 2023)은 분할 마스크를 폴리곤 시퀀스로 구문 분석하여 일반 텍스트로 표현하는 것을 지원할 수 있으며 기존 다중 모달 LLM 프레임워크 내에서 종단 간 교육을 허용합니다. 그러나 폴리곤 시퀀스의 엔드투엔드 교육은 최적화 문제를 야기하고 광범위한 데이터 및 계산 리소스를 사용하지 않는 한 일반화를 손상시킬 수 있습니다. 예를 들어, 7B 모델을 교육하기 위해 VisionLLM은 4 × 8 NVIDIA 80G A100 GPU와 50 에포크가 필요하며 이는 계산적으로 금지되어 있습니다. 대조적으로 LISA-7B를 교육하는 데는 8개의 NVIDIA 24G 3090 GPU 에서 10,000단계 만 필요합니다.

 이를 위해 다중 모달 LLM에 새로운 세분화 기능을 주입하기 위한 마스킹 패러다임으로 임베딩을 제안합니다.

1 단계

텍스트

먼저 세그먼트 출력에 대한 요청을 나타내는 <SEG>라는 새 토큰으로 원래 LLM 어휘를 확장합니다. 텍스트 명령 xtxt와 입력 이미지 ximg가 주어지면 다중 모드 LLM F에 입력하고 텍스트 응답 ytxt를 출력합니다.

 LLM이 이진 분할 마스크를 생성하려는 경우 출력 ytxt에 <SEG> 토큰이 포함되어야 합니다.

그런 다음 <SEG> 토큰 hseg에 해당하는 마지막 레이어 임베딩을 추출하고 MLP 프로젝션 레이어 γ를 적용하여 hseg를 얻습니다 .

영상

한편 시각적 백본 신경망은 시각적 입력 이미지에서 시각적 임베딩을 추출합니다. 마지막으로 hseg와 f는 디코더 Fdec에 공급되어 최종 분할 마스크 M을 생성합니다. 디코더 Fdec의 상세한 구조는 Kirillov et al.(2023)을 참조한다. 이 과정은 다음과 같이 표현할 수 있습니다.

교육 목표

손실 함수

이 모델은 텍스트 생성 손실 Lxt분할 마스크 손실 Lmask를 사용하여 종단 간 훈련됩니다 . 총 목표 L은 λtxt 및 λmask에 의해 결정되는 이러한 손실의 가중 합입니다.

구체적으로 Ltxt는 텍스트 생성을 위한 자동회귀 교차 엔트로피 손실이고 Lmask는 마스크 손실로 모델이 고품질 분할 결과를 생성하도록 합니다. Lmask를 계산하기 위해 픽셀당 BCE(Binary Cross-Entropy) 손실과 DICE 손실의 조합을 각각 해당 손실 가중치 λbce 및 λdice와 함께 사용합니다. 실측 대상 ytxt 및 m이 주어지면 이러한 손실은 다음과 같이 표현될 수 있습니다.

 

훈련 데이터 공식 훈련 데이터 공식

학습 데이터는 널리 사용되는 공개 데이터 세트에서 파생된 세 부분으로 구성됩니다. 세부 사항은 다음과 같습니다

Semantic Segmentation Dataset 시맨틱 세분화 데이터셋

시맨틱 세분화 데이터 세트는 일반적으로 이미지와 해당 다중 클래스 레이블로 구성됩니다.

학습하는 동안 각 이미지에 대해 여러 범주를 무작위로 선택합니다. 시각적 질문과 답변의 형식에 맞는 데이터를 생성하기 위해 다음과 같은 질문과 답변 템플릿을 사용했습니다.

" 사용자: <IMAGE> 이 이미지에서 {CLASS NAME}을(를) 분할할 수 있습니까?" 어시스턴트: 예 <SEG>, 여기서 {CLASS NAME}은 선택한 범주이고 <IMAGE>는 이미지 패치 토큰의 자리 표시자를 나타냅니다.

마스크 손실 감독은 해당 이진 분할 마스크를 지상 실측으로 사용하여 제공됩니다. 교육 중에는 데이터 다양성을 보장하기 위해 다른 템플릿을 사용하여 QA 데이터를 생성하기도 합니다. 우리는 ADE20K , COCO-StuffLVIS-PACO 부품 분할 데이터 세트를 사용합니다.

바닐라 참조 세분화 데이터 세트 참조 세분화 데이터 세트

참조 분할 데이터 세트는 입력 이미지 및 대상 개체에 대한 명시적인 짧은 설명을 제공합니다.

따라서 "Can USER: <IMAGE> split {description} in this image?"와 같은 템플릿을 사용하여 질문-답변 쌍으로 쉽게 변환할 수 있습니다. 보조: 물론이죠, <SEG>, 여기서 {description}은 주어진 명시적 설명입니다. 이 섹션에서는 refCOCO , refCOCO+ , refCOCOgrefCLEF 데이터세트를 사용합니다.

시각적 질문 응답 데이터 세트 이미지 질문 응답 데이터 세트

다중 모달 LLM의 원래 VQA(시각적 질문 응답) 기능을 유지하기 위해 교육 중에 VQA 데이터 세트도 포함합니다. 우리는 GPT-4에서 생성된 llava-instruction-150k 데이터를 직접 사용합니다 (Liu et al., 2023b).

학습 가능한 매개변수

사전 훈련된 다중 모달 LLM F(즉, 실험에서 LLaVA)의 일반화 능력을 유지하기 위해 효율적인 미세 조정을 위해 LoRA (Hu et al., 2021)를 활용하고 시각적 백본을 완전히 동결합니다. 디코더 Fdec은 완전히 미세 조정됩니다. 또한 LLM의 단어 임베딩 및 프로젝션 레이어 γ 도 학습 가능합니다.

실험

실험 설정

네트워크 구조

달리 명시되지 않는 한 LLaVA-7B-v1-1 또는 LLaVA-13B-v1-1을 다중 모드 LLM F로 채택했습니다.

ViT-H SAM 백본 네트워크는 시각적 백본 네트워크로 사용됩니다 .

γ의 프로젝션 레이어는 채널 [256, 4096, 4096]이 있는 MLP 입니다 .

 

구현 세부 정보

NVIDIA 24G 3090 GPU 8개

학습 스크립트는 deepspeed(Rasley et al., 2020) 엔진을 기반으로 합니다. 우리는 AdamW (Loshchilov & Hutter, 2017) 옵티마이저를 학습률과 가중치 감쇠를 각각 0.0003과 0으로 설정하여 사용합니다 .

또한 워밍업 반복이 100으로 설정된 학습 속도 스케줄러로 WarmupDecayLR을 채택합니다 .

텍스트 생성 손실 λtxt gen마스크 손실 λmask 의 가중치는 각각 1.0 및 1.0으로 설정됩니다.

bce 손실 λbce주사위 손실 λdice 의 가중치는 각각 2.0 및 0.5로 설정됩니다.

또한 각 장치의 배치 크기는 2로 설정하고 기울기 누적 단계는 10으로 설정합니다. 학습하는 동안 시맨틱 분할 데이터 세트의 각 이미지에 대해 최대 3개의 범주를 선택합니다.

데이터 세트

시맨틱 분할 데이터 세트의 경우 ADE20K (Zhou et al., 2017) 및 COCO-Stuff (Caesar et al., 2018)를 사용합니다 . 또한 객체의 특정 부분에 대한 분할 결과를 향상시키기 위해 PACO-LVIS (Ramanathan et al., 2023), PartImageNet (He et al., 2022) 및 PASCAL-Part 를 포함한 부분 의미론적 분할 데이터 세트도 사용합니다. (Chen et al. People, 2014);

참조 세분화 데이터 세트의 경우 refCLEF , refCOCO , refCOCO+ (Kazemzadeh et al., 2014) 및 refCOCOg (Mao et al., 2016)를 사용합니다.

VQA(Visual Question Answering) 데이터 세트의 경우 llava-instruction-150k 데이터 세트를 사용합니다 (Liu et al., 2023b). 데이터 유출을 방지하기 위해 훈련 중에 이미지가 refCOCO(+/g) 검증 세트에 나타나는 COCO 샘플을 제외합니다.

게다가 우리는 놀랍게도 ReasonSeg 이미지 명령 쌍의 239개 샘플에 대해 모델을 미세 조정함으로써 모델의 성능을 더욱 향상시킬 수 있다는 것을 발견했습니다.

평가지표

참조 분할에 대한 대부분의 이전 작업을 따릅니다(Kazemzadeh et al., 2014;) gIoU는 모든 이미지당 교차 합집합(iou)의 평균으로 정의되는 반면 cIoU는 누적 교차 합집합으로 정의됩니다. cIoU는 면적이 큰 물체에 대한 편향이 크고 변동이 심하므로 gIoU 선호됩니다 .

실험 결과

추론 세분화

모델은 쿼리를 진정으로 이해하는 경우에만 좋은 작업을 수행할 수 있습니다. 기존 작업은 암시적 쿼리를 이해하기 위한 적절한 방법 없이 명시적 인용으로 제한되는 반면, 우리 모델은 이를 달성하기 위해 다중 모달 LLM을 활용합니다.

LISA-13B의 성능은 특히 긴 쿼리 시나리오에서 7B보다 훨씬 낫습니다. 이는 현재 성능 병목 현상이 여전히 쿼리 텍스트를 이해하는 데 있을 수 있으며 더 강력한 다중 모달 LLM이 더 나은 결과로 이어질 수 있음을 시사합니다. 

바닐라 참조 세분화

 

절제 실험

달리 명시되지 않는 한 검증 세트에서 LISA-7B에 대한 gIoU 및 cIoU 지표를 보고합니다.

 시각적 백본을 위한 디자인 선택

 시각적 백본에 대한 디자인 선택은 유연하며 SAM에 제한되지 않습니다.

SAM LoRA 미세 조정

 우리는 LoRA 조정 SAM 백본이 동결된 백본만큼 잘 수행되지 않는다는 것을 확인했습니다. 한 가지 가능한 이유는 미세 조정이 원래 SAM 모델의 일반화 능력을 약화시키기 때문입니다.

 

SAM 사전 훈련된 가중치

사전 훈련 가중치가 없으면 성능이 크게 떨어집니다!

MLP 대 선형 프로젝션 레이어

γ MLP를 만들면 gIoU에서는 약간의 성능 저하가 있지만 cIoU↑에서는 상대적으로 높은 성능을 보입니다.

모든 유형의 학습 데이터 기여

 실험 4에서는 시맨틱 분할 데이터 세트를 사용하지 않았고 성능이 많이 떨어졌다는 점은 주목할 가치가 있습니다. 하나의 다중 클래스 레이블이 여러 이진 마스크를 생성할 수 있기 때문에 시맨틱 분할 데이터 세트가 훈련을 위한 많은 수의 실측 이진 마스크를 제공한다고 추측합니다. 이것은 시맨틱 분할 데이터 세트가 훈련에 중요하다는 것을 보여줍니다.

GPT-3.5 명령 요약

추론 분할을 위해 이미지 명령 쌍을 미세 조정하는 과정에서 GPT-3.5를 사용하여 텍스트 명령을 다시 작성하고 무작위로 하나를 선택합니다. 표 4에서 실험 3과 실험 4를 비교하면 성능이 각각 2.2% 및 2.9% cIoU 향상됨을 알 수 있습니다. 이 결과는 이 데이터 증대 방법의 효율성을 검증합니다.

부록 - 몇 가지 실험 결과

 

 

추천

출처blog.csdn.net/Scabbards_/article/details/132142776