Chen Danqi ACL'23 튜토리얼 - 검색 기반 대규모 언어 모델에 대한 연구 노트

93b567b16ef2ba7524a5e141b01dbec7.png

Zhihu: Running Chai
원문: 원문을 읽으려면 본문 끝을 참조하세요.
편집: 딥러닝 자연어 처리 공식 계정

이 기사의 내용은 문제 설정, 아키텍처, 응용 및 과제의 관점에서 검색 향상의 언어 모델을 완전히 이해하기 위해 Chen Danqi 팀이 ACL'23 컨퍼런스에서 가져온 튜토리얼 의 연구 기록 입니다 . 후속 작업을 위한 준비와 시작이 모두에게 영감을 줄 수 있기를 바랍니다.

이 기사에는 각 방법에 대한 자세한 분석이 포함되어 있지 않습니다.보다 자세한 보고서를 보려면 https://acl2023-retrieval-lm.github.io를 방문하세요.

NLP 그룹 가입 —> NLP 교환 그룹 가입

1 简介:검색 기반 LM = 검색 + LM

우선, 기존(자동회귀) 언어 모델의 경우 작업 목표는 369877a459bfe1d868b4567c5728ac09.png계산 및 샘플링을 통해 문장의 다음 토큰을 예측하여 전체 문장의 생성을 완료하는 것입니다.

마스크된 언어 모델/인코더-디코더 언어 모델은 확률을 다르게 계산하지만 여기서는 너무 자세히 설명하지 않겠습니다.

검색 강화 언어 모델은 언어 모델이 생성되는 동안 외부 지식 베이스를 언어 모델에 첨부하고 지식 베이스에서 관련 문서를 검색하여 언어 모델 생성을 지원합니다.

70dda26713b0efab4238c8e70421462a.png
검색 기반 LM 개념도

그러나 기존(전체 매개변수) 대규모 언어 모델은 강력한 성능을 보여주었습니다. 검색 증강 언어 모델을 사용하는 이유는 무엇입니까? 그리고 검색 강화 언어 모델은 기존 언어 모델의 단점을 어떻게 해결할 수 있습니까?

1. LLM은 매개변수만으로는 모든 롱테일 지식을 기억할 수 없습니다.

소위 롱테일 지식은 대중적이지 않고 일반적으로 사용되지 않는 지식을 의미합니다(예: 2020년 허베이성 전체 인구는 얼마입니까). 기존 연구 [1] 에서도 모델 규모를 확장하기 위해 스케일링 법칙을 따르는 것만으로도 롱테일 지식에 대해서는 약간의 성능 향상만 제공할 수 있으며, 실제 성능 향상은 여전히 ​​더 일반적으로 사용되고 대중적인 지식에 의해 제공된다는 점을 지적했습니다. 이는 언어 모델 자체가 롱테일 지식의 기억력과 응용력이 아직 부족하다는 것을 증명하며, 이 '불량'은 모델의 크기와 직접적인 관련이 없습니다. 지식 기반을 검색함으로써 우리는 이 지식에 대해 더 나은 "기억" 효과를 얻을 수 있습니다.

4d9bdcdf0caa2feac561820d2b5d392a.png
덜 인기 있는 질문(파란색)에 대한 성과는 규모에 따라 향상되지 않습니다.

2. LLM이 매개변수를 통해 기억하는 지식은 쉽게 구식이 되고 업데이트하기 어렵습니다.

요즘 인터넷상의 정보는 폭발적으로 증가하고 지식 업데이트 속도도 매우 빠르지만, 매개변수를 통해 언어 모델에 의해 기억된 지식은 데이터 수집 당시의 최신 정보만 보장할 수 있을 뿐, 이를 따라잡을 수는 없습니다. 시대와 언어 모델 사전 훈련의 소비는 지식의 빈번한 업데이트를 완료하기에는 너무 큽니다. 기존의 일부 "지식 편집" 방법은 이 문제를 어느 정도 완화할 수 있지만 확장성은 좋지 않습니다. 검색 강화 언어 모델의 경우 이러한 문제를 해결하려면 외부 지식 베이스만 업데이트하면 되며, 지식 베이스를 업데이트하는 비용은 언어 모델을 재교육하는 것에 비해 미미하며, 외부 지식 베이스의 지식은 쉽게 규모를 확장할 수 있습니다.

63fb966de7efd379be3a2721f9a1c93f.png
검색 기반 LM은 외부 지식 기반을 업데이트하여 지식만 업데이트합니다.

3. LLM의 결과는 해석하고 검증하기 어렵습니다.

일반적으로 언어 모델이 제공하는 답변의 이유와 출처를 분석하는 것은 어렵습니다. 이는 언어 모델의 "블랙 박스" 내부에서 실제 작동 논리를 판단하기 어렵게 만들고, 완전히 수행할 수 없게 만듭니다. 그것이 답변을 제공하는 것을 믿으십시오(대개 그것이 사실이더라도 해석할 수는 없습니다). 검색 강화 언어 모델은 반환을 통해 검색된 외부 문서에 의존하며, 현재 콘텐츠를 생성하기 위해 모델이 어떤 텍스트 지식에 의존하고 있는지 쉽게 알 수 있으며, 검색된 관련 문서를 분석 및 검증하여 모델을 이해할 수 있습니다. 현재 내용.

80bbdfe7c33c4535520273bd5a7e4fe7.png
NewBing은 문서 소스의 예를 제공합니다.

4. LLM은 개인 교육 데이터를 쉽게 유출할 수 있습니다.

개인 데이터(예: 사용자 주소, 연락처 정보 등)가 언어 모델의 사전 훈련 단계에 추가되면 언어 모델을 사용하는 모든 사람이 데이터의 이 부분에 액세스할 수 있으며 이로 인해 유출이 발생할 수 있습니다. (OpenAI의 ChatGPT도 이러한 문제에 직면한 적이 있었습니다.) 이러한 문제는 명령어 미세 조정이나 선호도 정렬을 통해 완전히 해결하기 어렵습니다. 검색 강화 언어 모델을 사용하면 언어 모델 자체의 매개변수와는 아무런 관련이 없는 개인 데이터를 외부 지식 베이스에 저장할 수 있습니다. 지식 기반. , 개인 정보를 보호하는 동시에 개인화 능력도 향상시킬 수 있습니다.

273e5eedb5da5f7ede30e0da57d3cea.png
개인 데이터의 일부가 사전 학습 코퍼스에 포함됩니다.

5. LLM은 규모가 매우 크고 교육 및 운영 비용이 많이 듭니다.

대규모 언어 모델을 훈련하는 데 비용이 많이 들 뿐만 아니라 추론을 배포하고 실행하는 데에도 비용이 매우 많이 듭니다. 그리고 향상된 언어 모델을 검색하여 언어 모델 자체의 크기를 줄이려고 노력하고, 더 작은 언어 모델도 큰 언어 모델과 비슷한 성능을 얻을 수 있음을 깨달았습니다. 이는 분명히 더 경제적이며, 장기적으로는 학계와 소규모 기업 모두에게 더 친화적입니다. (기존 검색 강화 언어 모델 작업 [2] 은 25배의 매개변수 감소로 GPT-3과 일치하는 성능을 달성합니다.)

검색 강화 언어 모델은 현재 주요 연구 문제가 되었으며 추가 조사할 가치가 있습니다.

2 문제 정의: 테스트 단계에서 외부 지식 저장소를 사용하는 언어 모델

이 정의 는 1) 언어 모델, 2) 테스트 단계에서 외부 지식 저장소 사용의 두 부분으로 나누어 살펴볼 수 있습니다 .

1) 언어 모델 에 관해서는 현재 비교적 좋은 성능을 보이고 있는 Autoregressive Decoder-only 언어 모델인지, 2000년대에 거의 등장한 Encoder-only/Encoder-Decoder 언어 모델인지는 길게 설명할 필요가 없습니다. 같은 시간을 고려할 수 있습니다.

383d3b0b82b7e17644bda658f1955d58.png
다양한 디코딩 방법/아키텍처를 갖춘 언어 모델

사전 훈련 + 프롬프트는 현재 언어 모델에 대해 일반적으로 사용되고 매우 효과적인 훈련 패러다임으로, 언어 모델이 일반화 요구 사항을 충족하기 위해 더 많은 다운스트림 작업에 적응할 수 있도록 합니다. 적응할 수 있는 일반적인 다운스트림 작업은 아래 그림에 나와 있습니다(불완전) :

d49a4eccaf61269aedbc35812bacca59.png
프롬프트 후 언어 모델이 적응하는 다양한 공통 다운스트림 작업

그리고 훈련된 모델의 경우 일반적으로 당황(Perplexity)과 다운스트림 작업 정확도(Downstream Accuracy)라는 두 가지 평가 방법을 통해 모델의 성능을 판단할 수 있습니다.

948c480e2f45054fcd39ee23fb55c62c.png
두 가지 일반적인 평가 방법

그 중 Perplexity의 계산 방법은 다음과 같습니다. 5d15efb2ee40646af7f2bb6ac704fa34.png계산의 편의를 위해 언어 모델의 실제 평가 과정에서는 log-perplexity를 계산에 자주 사용합니다(위의 예와 동일). 즉, 하나의 로그만 필요합니다. 계산을 위해 c6c221003bfbc20cf0336c97b5712574.png.

또한 2) 테스트 단계에서 외부 지식 저장소를 사용하는 경우 구체적인 형식은 다음 그림과 같습니다.

11ba4172e97c18a91b7f223639b1bdf4.png
검색 기반 LM 추론 단계의 개략도

우선, Datastore의 경우 내부 구성은 대부분 원시 텍스트 코퍼스, 즉 최소 100억~100억 개의 토큰을 포함하는 라벨이 지정되지 않고 구조화되지 않은 데이터입니다(일부 기술 자료도 벡터 저장소 형식임). 위 그림의 Query는 검색에 사용되는 쿼리를 나타내며, 검색 쿼리 q는 입력 언어 모델 x와 반드시 동일할 필요는 없습니다. 인덱스는 검색 쿼리 q와 가장 유사한 지식 베이스 D에서 발견된 작은 부분(Top-k) 요소 하위 집합이며 지식 베이스의 쿼리 대상이기도 합니다.

여기에 유사성 계산이 포함되면 다양한 선택적인 유사성 측정 방법이 파생되는데, 이는 TF-IDF와 유사한 기존 계산 방법 또는 내장된 벡터 간의 포인트 곱 계산 방법 등이 될 수 있습니다. 동시에 검색 방법에는 정확한 검색/근사 검색도 포함되는데, 이는 검색 비용과 검색 정확도 간의 균형입니다.

72633a4c47983837499b3b07e09b6ee4.png
두 텍스트 간의 유사성을 계산하는 방법의 예

위의 모든 정의에 대해 우리는 추가 개발을 위해 대답해야 할 세 가지 질문을 제안합니다.

  • (언제) 검색 쿼리는 무엇이며 검색 작업은 언제 수행됩니까?

  • (What) 어떤 형태의 콘텐츠가 검색되나요?

  • (어떻게) 검색된 콘텐츠는 어떻게 사용하나요?

3 단계: 무엇을 & 어떻게 & 언제

626295108eb7ecc456fc5c62955fc1fb.png위 그림은 위에서 제기한 세 가지 질문에 대한 답변이며, 이를 다음 표로 요약할 수 있습니다.

3ca77e79ad8b0cb830874de4b2870a96.png

각 상황을 개별적으로 비교하고 논의함으로써 구체적인 성과와 경험을 통해 다음과 같은 결론을 도출할 수 있습니다.

1) "무엇을 검색할 것인가?":

청크를 직접 검색하면 검색 난이도를 줄일 수 있고(원본 코퍼스의 텍스트도 대부분 큰 문단 형태로 존재하기 때문) 공간 친화적입니다.

청크 검색에 비해 더 세분화된 토큰 검색은 희귀한 패턴(예: 토치 "토치"가 아닌 딥 러닝 알고리즘 패키지를 나타내는 "토치" 검색)과 도메인 외부 지식(OOD)을 더 잘 활용할 수 있으며 검색도 가능합니다. 매우 효율적이지만(kNN 검색 자체는 매우 효율적임) 데이터 저장에 더 많은 공간 오버헤드가 발생하고(예: Wikipedia: 청크-13M 대 토큰-4B) 언어 모델 출력과 검색 결과 사이에 교차 주의가 없습니다. 따라서 성능이 부분적으로 손상됩니다.

이 두 가지 외에 엔터티 멘션을 검색하는 것도 가능한 방법인데, 그 아이디어는 "엔티티 멘션당 하나의 벡터"로 요약할 수 있습니다. 엔터티 중심 토큰을 검색하는 것보다 작업 효율성이 높고 저장 공간 측면에서 더 친숙하지만 추가적인 엔터티 감지 작업이 필요합니다.

2) "검색 사용 방법"의 경우:

검색된 문서를 입력 레이어에 직접 추가하는 것은 분명히 매우 간단하고 직관적이지만, 빈번한 문서 검색 시나리오가 많이 발생하는 상황에서는 매우 비효율적입니다.

검색된 문서를 입력 계층에 직접 추가하는 것과 비교하여 중간 계층 애플리케이션에서 검색된 정보는 언어 모델의 더 많은 블록을 사용하여 더 빈번한 검색을 지원하고 계산을 더 효율적으로 만들 수 있지만 동시에 더 많은 복잡성이 도입됩니다. , 훈련 없이는 전체 모델을 직접 사용할 수 없습니다.

검색 정보를 출력 레이어에 적용하는 것은 언어 모델에서 예측한 토큰과 검색된 토큰 확률(kNN-LM으로 표현)을 가중치로 합산한 것이며, 훈련 없이 직접 사용할 수도 있습니다. 다양한 토큰을 저장하는 것이 핵심입니다. 공간 오버헤드 컨텍스트 시간 동안.

3) "검색 시기"의 경우:

위 표에 언급된 세 가지 검색 빈도는 응용 프로그램에서 나머지 두 가지 질문에 의해 결정된 구조에 따라 더 조정되지만 위 세 가지 옵션은 대부분의 경우 고정된 검색 빈도임을 알 수 있습니다. 현재 적응형 검색 빈도 개발에 대한 작업도 진행 중입니다. 즉, 언어 모델이 주어진 답변에 대해 높은 신뢰도를 갖는 경우 검색이 수행되지 않거나 검색 빈도가 감소하고, 그 반대의 경우 검색 작업이 수행됩니다. 더 자주 수행됩니다. 또는 출력 레이어에서 예측 토큰의 확률 가중치 집계를 수행할 때 각 구성 요소의 가중치를 입력 x에 대한 함수로 간주하여 최종 출력 결과에 대한 검색 및 언어 모델 예측 결과의 가중치를 동적으로 조정합니다. . 적응형 검색 빈도는 효율성을 향상시킬 수 있지만 최종 결과는 최적이 아닐 수 있습니다.

관련된 다양한 작업의 구현 세부 사항이 너무 많기 때문에 여기서는 확장하지 않으며 아래 요약 차트에 따라 해당 인덱스를 수행할 수 있습니다.

44a7f990a9ee7097d8327e7bbd48c9c3.png
현재 작업에서 채택한 다양한 아키텍처의 요약 다이어그램
831c030f7e1cbf5adee63fc70c04c8d9.png
현재 작업에서 채택한 다양한 아키텍처의 요약 테이블

위 표의 마지막 행에도 다른 유형의 검색 강화 언어 모델이 언급되어 있는데, 다른 유형과 비교하여 이 유형은 외부 지식 기반에서 정보를 검색하지 않고 자체적으로 생성된 기록 정보에서 정보를 검색합니다. 검색"은 매우 긴 텍스트를 처리하거나 자체 장기 기억을 실현하는 것입니다. 이러한 아키텍처 설계도 이러한 다운스트림 작업을 실현하도록 설계되었습니다.

4 训练:(훈련하고 훈련하는 방법) 훈련하지 않을 것인가

검색을 위한 강화된 언어 모델을 훈련하는 것도 가장 중요한 포인트인데, 단순히 언어 모델을 훈련하고 동시에 인덱스를 업데이트하는 것은 공간적, 시간적 측면에서 매우 복잡합니다. 기존 작업에서 검색 강화 언어 모델에 대한 입증된 비교 작업 훈련 방법은 다음 네 가지 범주로 나눌 수 있습니다.

  • 독립적 훈련 : 언어 모델과 검색자는 독립적으로 훈련됩니다.

  • 순차적 훈련 : 하나의 구성요소를 독립적으로 훈련하고 수정한 후, 이 구성요소 작업 목표에 따라 다른 구성요소를 훈련합니다.

  • 비동기 인덱스 업데이트를 통한 공동 훈련 : 인덱스는 "오래된" 것이 허용됩니다. 즉, 검색 인덱스는 T 단계마다 다시 업데이트됩니다.

  • 배치 내 근사를 사용한 공동 훈련 : 전체 지식 베이스의 전체 색인 대신 "배치 내 인덱싱"을 사용합니다.

위에 언급된 네 가지 유형의 훈련 방법에는 고유한 장점과 단점이 있습니다.

독립적 훈련: 기성 모델(대형 인덱스 및 강력한 LM)을 추가 훈련 없이 사용할 수 있고 각 부분을 독립적으로 개선할 수 있지만 언어 모델은 검색 사용법을 훈련하지 않았으며 검색 모델에는 작업이 없습니다. 언어 모델/도메인이 최적화되었습니다.

79cbb4e83ee1e4d1ffa632eb6aa26f37.png
독립적인 훈련

순차 훈련 : 기성 개별 구성 요소(대형 인덱스 또는 강력한 LM)를 사용할 수 있으며, 검색 결과를 보다 효율적으로 사용하도록 언어 모델을 훈련하거나, 언어에 도움이 되는 검색 결과를 더 잘 제공하도록 검색기를 훈련할 수 있습니다. 모델은 있지만 A 구성 요소는 훈련 없이도 여전히 고정되어 있습니다.

d5ad6fb456212ea877d747f781d86b1a.png
순차적 훈련

Joint training with asynchronous index update : 이 방법은 인덱스 업데이트 빈도를 선택하기가 어려우며, 빈도가 너무 높으면 오버헤드가 비싸고, 빈도가 너무 낮으면 인덱스가 "낡아" 영향을 미치게 됩니다. 성능.

6779aa06c3b91a7c9717f24bdaa1a0f5.png
비동기식 인덱스 업데이트를 통한 공동 훈련

일괄 근사화를 통한 공동 훈련 : 전체 지식 베이스에서 재인덱싱을 수행하면 엄청난 양의 컴퓨팅 오버헤드가 발생하므로 이 방법은 배치 내에서 재인덱싱 업데이트 계산만 수행하고 더 적은 계산으로 전체 재인덱싱을 근사화합니다. 오버헤드 효과.

!일괄 근사치를 사용한 공동 훈련

공동 훈련의 경우 더 나은 성능을 얻을 수 있지만 훈련이 더 복잡하고(비동기 업데이트, 컴퓨팅 오버헤드, 데이터 일괄 처리 등) 훈련과 테스트의 차이가 여전히 존재합니다.

전체적으로 위의 네 가지 유형의 훈련 방법은 모델의 설계 아키텍처와 직접적인 관련이 있을 뿐만 아니라 주로 훈련 비용과 모델 성능 간의 균형과 관련이 있습니다. 최고의 비용 대비 성능 균형을 찾기 위해 이 아이디어를 바탕으로 구축되었습니다. 위에서 언급한 네 가지 유형의 훈련 방법에 대한 모든 관련 정보는 다음 표에 요약되어 있습니다.

f9228092fc94521fc706fcca8c431317.png
훈련 방법의 장점/단점 요약표

5 용도: 무엇을 & 어떻게 & 언제

우선, 우리는 명확해야 합니다: 작업은 무엇입니까? 다음 그림을 통해 포괄적인 이해를 얻을 수 있습니다.

28a54b52777965aa47928db679e52f9c.png
향상된 언어 모델을 적용할 수 있는 다양한 다운스트림 작업 검색

첫 번째 행의 세 가지 작업은 지식 집약적 작업을 나타내고, 두 번째 행은 추가 세대 작업을 나타내며, 아래쪽 행은 추가 분류 작업을 나타냅니다.

우리는 또한 다음 질문에 답해야 합니다.

  • 검색 기반 LM을 작업에 어떻게 적용할 수 있나요?

  • 검색 기반 LM은 언제 사용해야 합니까?

How의 경우 현재 주요 솔루션 패러다임은 Fine-tuning, Reinforcement learning, Prompting으로 나눌 수 있으며, 이 세 가지가 동시에 나타나서 사용될 수 있으며, 구체적인 형태는 다음과 같습니다.

663763be2bf6b0079e97ebb1574003ee.png
검색 기반 LM을 작업에 어떻게 적용할 수 있나요?

RLHF(미세 조정 및 강화 학습)의 조합을 통해 언어 모델이 인간의 선호도에 더 잘 부합할 수 있지만 추가 교육 및 추가 선호도/정렬 데이터 수집이 필요합니다. 그러나 다운스트림 작업(예: 컴퓨팅 리소스 부족/독점적 비오픈 소스 언어 모델 등)에 대한 언어 모델을 훈련할 수 없는 경우 프롬프트에 의존해야 합니다. 이때 중간 계층에서는 개선할 수 없습니다. 대신 언어 모델의 입력/출력 레이어(입력 병합 검색 컨텍스트/출력 토큰 확률 보간 집계)만 작동할 수 있습니다.

62e7dcc5630487f639b6f58a8706f43e.png
다양한 모델 무엇을, 어떻게, 언제 분류 요약

요약하자면, 검색 기반 프롬프트는 구현이 매우 간단하고 교육이 필요하지 않지만 결과/성능에는 더 큰 차이가 있습니다. 미세 조정(+RL)에는 추가 교육이 필요하지만 결과/성능의 차이가 적고 더 많은 추가 데이터를 수집해야 합니다. 그리고 다운스트림 작업에 대해 검색자를 훈련시키는 것이 도움이 될 수 있습니다.

그리고 다양화될 수 있고 대략적으로 위키피디아, 훈련 데이터, 코드 문서로 나눌 수 있는 지식베이스의 유형을 명확히 해야 합니다. 그러나 OOD 검색에는 여전히 어려움이 있습니다.

When에 대해서는 다음 그림을 통해 요약할 수 있습니다.

570b0a80fb417cf949de9c60d5064f88.png
검색 기반 LM은 언제 사용해야 합니까?

그 중 위의 6가지 측면에 대한 개념도 이전 글에서 정리하였으므로 여기서는 반복하지 않겠다.

여기서 주목해야 할 점은 대부분의 작업에서 검색 강화 언어 모델이 MMLU 데이터 세트(객관식 NLU 작업)에서 잘 수행되지 않는다는 것을 확인했다는 점입니다. 이전 작업을 연상시키면서 벡터 유사성 계산이 표시되었습니다. 엔트리 리콜(Multi-Tag Recall) 작업이 잘 이루어지지 않는데, 다중 선택 작업에서 성능이 좋지 않은 이유도 이와 관련이 있을 것으로 저자는 추측하고 있으며, 아직 개선의 여지가 많다. 이 부분에서.

6개 확장: 다국어 및 다중 모드

이러한 확장은 모두 보다 다양한 지식 기반 형식을 지향하므로 언어 ​​모델은 더 많은 유형의 저장 형식에서 지식을 얻을 수 있습니다.

d5feab20f85e8bb088cf2b414e0c9998.png
무제한 검색 향상된 언어 모델

보고서에 소개된 대표적인 다국어 검색 강화 언어 모델 [3] 외에 더 많은 연구를 요약하면 다음과 같다.

35f46098ad28a9f5e592f0b38eb73014.png
다국어 검색을 위한 향상된 언어 모델 - 기존 작업

보고서에 제시된 Meta의 최근 다중 모드 검색 강화 언어 모델 작업 [4] 외에도 더 많은 작업이 아래에 요약되어 있습니다.

0d392341450c89c04c48637b969c6b09.png
다중 모드 검색을 위해 향상된 언어 모델 - 기존 작업

요약하자면, 다국어 검색으로 확장: 교차 언어 검색 및 생성을 통해 세계 여러 언어 의 데이터 저장 부족을 극복할 수 있으며 (예: 중국 인터넷 데이터에서 누락된 지식은 영어 인터넷 데이터로 보완할 수 있음), 확장 다중 모드 검색으로: 입력(출력)을 더 많은 양식에 적용하기 위해 모델을 다양한 다운스트림 작업에 보다 유연하고 보편적으로 배포할 수 있습니다.

7 요약, 과제 및 기회

架构:무엇을 & 어떻게 & 언제

  • 검색할 항목: 토큰, 텍스트 청크(블록), 엔터티 언급.

  • 검색 사용 방법: 입력 레이어, 중간 레이어, 출력 레이어.

  • 검색 시기: 한 번, n 토큰마다, 모든 토큰(고정 또는 적응형).

训练:(훈련하고 훈련하는 방법) 훈련하지 않을 것인지

  • 독립적인 훈련

  • 순차적 훈련

  • 비동기식 인덱스 업데이트를 통한 공동 훈련

  • 배치 내 근사치를 사용한 공동 훈련

용도: 무엇을, 어떻게, 언제

  • 어떤 작업: 지식 집약적인 NLP, 코드 생성, 분류 등

  • 적응 방법: 검색 기반 프롬프트, 미세 조정, 강화 학습.

  • 사용 시기: 롱테일, 지식 업데이트, 검증 가능성, 매개변수 효율성, 개인 정보 보호, OOD 적응.

확장: 다국어 및 다중 모드

  • 다국어: 데이터 저장소의 부족을 극복하기 위해 교차 언어로 검색하고 생성합니다.

  • 다중 모드: 새로운 형식을 위한 검색 기반 LM의 다중 모드 확장입니다.

과제 1: 검색 기반 LM 확장

  • 소규모 LM + 대규모 데이터 저장소 ≒ 대규모 매개변수 LM?

  • 스케일링 법칙?

  • 유사성 검색의 효율성? [5]

挑战 2: 애플리케이션을 위한 검색 기반 LM

  • 개방형 텍스트 생성? [6]

  • 복잡한 추론 [7] 작업 [8] ?

열린 질문: 함께 일합시다

  • 실제로 검색 증강 언어 모델을 위한 최고의 아키텍처/훈련 방법 은 무엇입니까 ?

  • 검색 증강 언어 모델을 대규모로 확장 하는 방법은 무엇입니까 ?

  • 다운스트림 작업 (예: 개방형 도메인 텍스트 생성, 복잡한 추론) 에서 더 많은 디코딩 또는 적응 방법을 탐색해야 할 수도 있습니다.


NLP 그룹 가입 —> NLP 교환 그룹 가입

참고자료

[1]

언어 모델을 신뢰하지 말아야 할 경우: 매개변수 및 비모수적 메모리의 효율성 조사: https://aclanthology.org/2023.acl-long.546/

[2]

수조 개의 토큰을 검색하여 언어 모델 개선: https://arxiv.org/abs/2112.04426

[삼]

다국어 밀집 구절 검색 기능을 갖춘 여러 언어에 대한 하나의 질문 응답 모델: https://arxiv.org/abs/2107.11976

[4]

검색 증강 다중 모드 언어 모델링: https://arxiv.org/abs/2211.12561

[5]

이방성 벡터 양자화를 통한 대규모 추론 가속화: https://arxiv.org/abs/1908.10396

[6]

kNN-LM은 개방형 텍스트 생성을 개선하지 않습니다: https://arxiv.org/abs/2305.14625

[7]

리트리버 증강 언어 모델이 추론할 수 있나요? 리트리버와 언어 모델 간의 비난 게임: https://arxiv.org/abs/2212.09146

[8]

시연-검색-예측: 지식 집약적 NLP를 위한 검색 및 언어 모델 구성: https://arxiv.org/abs/2212.14024

추천

출처blog.csdn.net/qq_27590277/article/details/132399887