[논문 정독] GPT-NER: 대규모 언어 모델을 통한 명명된 엔터티 인식

머리말

2023년 4월 26일 arxiv에 게시된 글은 LLM을 사용하여 NER 작업을 해결하는 것을 처음 본 글입니다. 사전 지식, 그것의 출현 능력은 항상 나를 놀라게 합니다.


추상적인

NER에서 LLM의 성능은 두 작업이 다르기 때문에 기준선보다 낮습니다. 전자는 텍스트 생성 작업이고 후자는 시퀀스 레이블 지정 작업입니다. GPT-NER는 시퀀스 라벨링 작업을 LLM의 생성 작업으로 전환하여 둘 사이의 격차를 해소합니다. 예를 들어 입력은 Columbus is a city, 출력 @@Columbus##은 도시, @@##은 추출할 엔터티의 태그입니다. LLM의 환각 문제, 즉 LLM은 NULL 출력을 엔터티로 자신 있게 취급하는 경향이 있으므로, LLM이 추출된 엔터티가 레이블이 지정된 엔터티 레이블에 속하는지 스스로 확인하도록 유도하는 자체 검증 전략 도 제안합니다. GPT-NER는 널리 사용되는 5개의 데이터 세트에서 완전히 감독된 기준선과 비슷한 성능을 달성하고 소수 장면 시나리오에서 감독된 모델보다 성능이 뛰어납니다.

1. 소개

LLM에는 간단한 예제만 필요하며 새로운 테스트 입력에 대한 결과를 생성할 수 있습니다. 상황 학습의 프레임워크에서 LLM은 번역, 질문 응답 및 관계 추출과 같은 다양한 NLP 작업에서 유망한 결과를 달성했습니다. 그러나 LLM과 NER의 작업이 다르기 때문에 NER에서 LLM의 성능은 기준선보다 훨씬 낮습니다. GPT-NER는 NER 작업을 텍스트 생성 작업으로 변환할 수 있습니다. 이 전략은 입력 시퀀스를 인코딩하는 레이블 정보 텍스트 생성의 어려움을 크게 줄일 수 있습니다. 실험 결과 이 ​​전략이 성능을 크게 향상시키는 것으로 나타났습니다.
LLM이 NULL 출력을 엔터티로 자신 있게 취급하는 경향이 있는 문제를 완화하기 위해 엔터티 추출 단계 뒤에 배치하고 LLM이 추출된 엔터티가 레이블이 지정된 엔터티 레이블에 속하는지 묻도록 유도하는 자체 검증 전략을 제안합니다. 이렇게 하면 환각 문제를 효과적으로 해결할 수 있고 성능을 크게 향상시킬 수 있습니다.
실험적인 부분은 Full Supervision과 동등한 성능을 달성하였으며, 또한 토큰 길이 제한(4096)으로 인해 성능이 안정되지 못하여 20K 길이 이상의 토큰을 가진 GPT-4를 사용하게 되면 반드시 향상.
GPT-NER는 자원이 적은 소규모 샘플 NER에서 감독 모델보다 성능이 뛰어납니다.

2. 관련 업무

2.1 개체명 인식

개체명 인식(NER)은 텍스트의 주요 정보를 식별하고 미리 정의된 범주 집합으로 분류하는 작업입니다.

2.2 대규모 언어 모델과 상황 내 학습

다운스트림 작업에 LLM을 사용하는 전략은 미세 조정 및 상황 학습이라는 두 가지 범주로 분류할 수 있습니다. 전자는 다운스트림 감독 데이터에 대한 매개변수를 계속 훈련하고 업데이트해야 하며 후자는 LLM이 작은 샘플 데모에서 텍스트를 생성하도록 합니다.더 나은 프롬프트와 데모는 상황 학습의 성능을 향상시킬 수 있습니다.

3. 배경

3.1 서열 라벨링으로서의 NER

NER을 해결하는 일반적인 방법은 시퀀스 레이블 지정 작업으로 처리하는 것입니다. 이 작업은 표현 추출 및 분류의 두 단계로 나눌 수 있습니다.
표현 추출: 입력 시퀀스 토큰의 고차원 표현을 얻고 입력 문장을 BERT와 같은 인코더 모델로 보낸 다음 임베딩의 마지막 레이어를 토큰 hi ∈ R m의 고차원 표현으로 사용하는 것을 목표로 합니다. × 1 h_i\in \mathbb{R }^{m \times 1}시간아르 자형m × 1 .
분류:포함된 각 고차원 벡터는 소프트맥스를 사용하여 분포를 생성하는 MLP에 공급됩니다.

4. 지피티너

GPT-NER는 상황 학습의 일반적인 패러다임을 따르고 세 단계로 나눌 수 있는 NER 작업을 해결하기 위해 LLM을 사용합니다.

  1. 프롬프트를 작성하고 각 입력 문장에 대한 프롬프트를 작성하십시오.
  2. 구성된 프롬프트를 LLM에 공급하여 생성된 텍스트 시퀀스를 얻습니다.
  3. 텍스트 시퀀스를 엔터티 레이블로 변환합니다.

다음은 LLM을 NER 작업에 적용하기 위한 전략을 설명합니다.

4.1 신속한 시공

이미지.png
위의 그림은 세 부분으로 구성된 GPT-NER의 예입니다.

4.1.1 작업 설명

작업 설명은 세 부분으로 더 나눌 수 있습니다.

  1. 첫 번째 문장은 언어 지식을 사용하여 출력을 생성하도록 LLM에 지시하는 작업에 대한 설명입니다.
  2. 추출할 엔터티의 범주를 나타냅니다.각 입력 문장에 대해 엔터티 유형에 해당하는 N개의 프롬프트를 구성하고 N개의 이진 분류 작업으로 이해할 수 있으며 토큰의 길이에 의해 제한됩니다.
  3. 작은 샘플 데모의 위치를 ​​설명합니다.

4.1.2 퓨샷 시연

태그가 지정된 각 문장의 형식은 다음을 충족해야 합니다.

  1. 일련의 엔터티 유형으로 쉽게 변환할 수 있는 각 단어 레이블에 대한 정보를 포함합니다.
  2. LLM에서 성공적으로 생성할 수 있습니다.

예를 들어, "Columbus is a city"라는 문장은 "LOC OO O"를 생성하고, 조건 1은 충족하기 쉽지만 시퀀스 생성을 위해 LLM은 텍스트 정렬을 학습해야 하므로 작업 생성의 어려움이 증가하며 저자는 다음을 발견했습니다. GPT-3는 입력과 동일한 길이의 문장을 생성하기 어렵습니다. 이 문제를 해결하기 위해 저자는 아래와 같이 엔터티를 둘러싸는 특수 기호를 디자인했습니다.
이미지.png
이 방법은 텍스트 생성의 어려움을 크게 줄입니다.

4.1.3 문장 입력

이 부분은 현재 입력 문장을 LLM에 공급하고 LLM이 섹션 4.1.2에 정의된 형식에 따라 출력 시퀀스를 생성할 것으로 기대합니다.

4.2 퓨샷 데모 검색

4.2.1 무작위 검색

가장 간단한 전략은 훈련 세트에서 K개의 샘플을 무작위로 선택하는 것이지만 검색된 예가 의미상 입력에 가깝다고 보장할 수는 없습니다.

4.2.2 kNN 기반 검색

임의 검색 상관 문제를 해결하기 위해 훈련 세트에서 입력 시퀀스의 K개의 최근접 이웃을 검색할 수 있습니다.먼저 모든 훈련 샘플의 표현을 계산하고 이를 기반으로 입력 시퀀스의 k개의 최근접 얻을 수 있습니다.
**문장 수준 표현에 기반한 kNN: **텍스트 유사성 모델을 사용하여 교육 예제의 문장 수준 표현과 kNN을 찾기 위한 코사인 유사성을 계산하기 위한 입력 시퀀스를 얻습니다. NER은 토큰 수준의 작업이며 로컬 영역에 더 많은 관심을 기울입니다.찾을 수 있는 예제에는 NER이 포함되어 있지 않습니다.
엔터티 수준 임베딩: 먼저 미세 조정된 NER 태깅 모델을 사용하여 모든 토큰의 엔터티 수준 표현을 추출합니다. 주어진 길이 N의 입력 시퀀스에 대해 먼저 시퀀스의 모든 토큰을 순회하여 각 토큰에 대한 kNN을 찾고 K를 얻습니다. × N 검색 도착 마크. 다음으로 검색된 K×N 토큰에서 상위 k 토큰을 선택하고 관련 문장을 데모로 사용합니다.

4.3 자체 검증

LLM은 아래와 같이 환각이나 과예측 문제가 있다.
이미지.png
Hendrix가 위치 정보로 식별되는 부분은 명백히 잘못된 것으로, 저자는 이에 대한 자가 검증 전략을 제안한다. LLM에서 추출한 엔터티가 주어지면 LLM에 추출된 엔터티가 올바른지 추가로 확인하고 예 또는 아니요로 답하도록 요청합니다.
이미지.png
다시 말하지만, 위의 그림에서 노란색 상자로 표시된 것처럼 자체 유효성 검사기의 정확도를 개선하기 위해 적은 수의 데모가 필요합니다.
선택 예: 작은 샘플로 자체 검증을 위해 데모를 선택해야 합니다. 자체 검증의 핵심은 추출된 엔터티가 특정 엔터티 유형인지 묻는 것이므로 추출된 엔터티로 훈련 예제를 선택해야 합니다.
따라서 문장 수준 표현 대신 kNN 데모 검색을 위해 엔터티 수준 임베딩이 선택됩니다.

  1. 먼저 미세 조정된 NER 모델을 통해 모든 교육 토큰에 대한 엔터티 수준 표현을 추출합니다.
  2. 동일한 모델을 사용하여 쿼리 용어의 표현을 추출합니다.
  3. 마지막으로, 쿼리 용어의 표현을 사용하여 데이터 저장소에서 k개의 예를 퓨샷 데모로 선택합니다.

5. 실험

GPT-3로 실험하십시오.

5.1 전체 훈련 세트에 대한 결과

5.1.1 플랫 NER에 대한 결과

평면 NER의 경우 엔티티가 서로 겹칠 수 없습니다. 실험은 CoNLL2003 및 OntoNotes5.0에서 수행됩니다. 전자는 위치, 조직, 개인 및 기타의 네 가지 유형의 명명된 엔터티를 포함합니다. 후자는 18가지 유형의 명명된 엔터티, 11가지 유형(사람, 조직) 및 7가지 값(데이터, 백분율)을 포함합니다.
이미지.png
주요 결과 위의 표는 플랫 NER의 부분 및 전체 테스트 세트의 결과를 각각 보여줍니다. 관찰 결과는 다음과 같습니다.

  1. kNN 검색은 NER 작업에 중요합니다.
  2. 토큰 수준 임베딩은 성능을 크게 향상시킵니다.
  3. 자체 검증을 추가하면 성능이 더욱 향상됩니다.
  4. LLM 기반 시스템은 기준선과 동일한 성능을 달성합니다.

5.1.2 중첩된 NER에 대한 결과

중첩된 NER을 사용하면 각 문장의 엔터티가 서로 겹칠 수 있습니다. 저자는 널리 사용되는 세 가지 중첩 NER 데이터 세트인 ACE2004 및 ACE2005와 GENIA에 대해 실험을 수행합니다. 전자는 8:1:1로 훈련 세트, 검증 세트, 테스트 세트로 구분되는 7가지 유형의 엔티티를 포함하고, 후자는 5가지 엔티티 유형을 포함하는 분자 생물학 분야의 중첩된 NER 데이터 세트입니다.
이미지.png
주요 결과 결과는 위의 표에 나와 있으며 다음과 같이 관찰됩니다.

  1. kNN 검색은 NER 작업에 중요합니다.
  2. 토큰 수준 임베딩은 성능을 크게 향상시킵니다.
  3. 자체 검증을 추가하면 성능이 더욱 향상됩니다.

SOTA와 SOTA 사이의 차이는 다음과 같은 이유로 플랫 NER보다 큽니다.

  1. 중첩된 NER에는 더 유사한 엔터티가 포함되어 있습니다.
  2. 세 개의 중첩된 NER 데이터 세트에 대한 주석 지침은 더 복잡하고 덜 간단합니다.

5.2 저자원 시나리오 결과

저자원 시나리오에서의 NER 실험은 CoNLL2003에서 수행되었습니다. 리소스가 적은 시나리오를 모방하기 위해 훈련 세트의 하위 집합, 8개의 훈련 문장, 100개의 훈련 문장 및 10,000개의 훈련 문장을 무작위로 선택합니다. 8개의 학습 문장을 설정하면 각 엔터티 유형에 하나의 긍정 예제와 하나의 부정 예제가 포함됩니다.

5.2.1 결과

이미지.png
결과는 다음과 같은 관찰과 함께 위의 그림에 표시됩니다.

  1. 훈련 세트 크기가 작을 때 감독 모델의 성능은 GPT-3보다 훨씬 낮습니다.
  2. 학습 데이터가 증가함에 따라 kNN 검색 성능은 무작위 검색보다 빠릅니다.
  3. 데이터 양이 10%에 도달하면 훈련 데이터 양이 증가함에 따라 감독 모델의 성능이 크게 향상되는 반면 GPT-3의 결과는 약간 향상됩니다.

6. 절제 연구

6.1 LLM 출력 형식 변경

다음 두 가지 출력 형식을 비교하십시오:
이미지.png이미지.png
BMES: 각 토큰의 시작, 중간, 결과 및 O를 직접 출력
Entity+Position: 문장에서 엔터티와 위치를 출력하도록 LLM에 요청합니다.
유사 비교를 위해 세 가지 출력 형식과 동일한 설정을 사용하여 100개 샘플 CoNLL 2003 데이터 세트에서 32개의 작은 샘플로 실험을 수행합니다. 결과는 각각 92.68(##@@전략), 29.75, 38.73입니다. BMES는 토큰과 레이블 사이의 정렬을 학습해야 하고, 동일한 길이의 문자열을 출력하고 입력하는 것이 어렵다는 분석일 수 있습니다. 엔터티 + 위치 전략의 경우 LLM은 위치 인덱스를 혼동하여 잘못된 엔터티 위치를 생성합니다.

6.2 퓨샷 시연 횟수

이미지.png
위의 그래프를 보면 k가 증가함에 따라 세 가지 결과가 모두 계속 증가하는 것을 볼 수 있습니다. 즉, 더 많은 시연이 허용된다면 성능은 여전히 ​​향상될 것입니다.
흥미로운 현상은 데모의 수가 적을 때 KNN 전략이 임의 검색 전략보다 열등하다는 것입니다. 아마도 KNN은 입력 문장과 매우 ​​유사한 데모를 선택하는 경향이 있고 입력 문장에 엔터티가 포함되어 있지 않은 경우 , 검색된 데모의 대부분에는 엔터티가 포함되어 있지 않습니다. 다음과 같이:
이미지.png

7. 결론

이 논문은 LLM을 NER 작업에 적용하기 위해 GPT-NER를 제안합니다. 저자는 LLM이 엔터티 태그를 생성하도록 유도하는 프롬프트를 설계하고, LLM이 더 나은 출력을 생성할 수 있도록 데모 부분에 KNN과 토큰 임베딩을 설계하고, LLM의 환각 문제를 완화하기 위한 자체 검증 전략을 제안합니다. 최종 모델 성능은 기준선과 비슷하며 리소스가 적은 시나리오에서 상당한 이점이 있습니다.

요약 읽기

2023년 4월 26일에 arxiv에만 올라온 글이 NER 작업을 해결하기 위해 LLM을 사용한 첫 번째 글이었습니다. 현재의 GPT-4로 대체한다면 결과는 상상도 못할 수준입니다 제 생각에는 LLM이 NER 작업에 가장 적합하다고 생각합니다 복잡한 시퀀스 라벨링 문제와 같은 솔루션은 마법을 물리치기 위해 정말 마법이 필요합니다 비교 학습 방법과 메타 -이전에 본 학습법은 LLM에 정말 취약할 수 있습니다.물론 계속 조사하겠습니다.

추천

출처blog.csdn.net/HERODING23/article/details/130476395