BioGPT: 생물 의학 텍스트 생성 및 마이닝을 위한 생성적 사전 훈련된 변환기

BioGPT: 생물 의학 텍스트 생성 및 마이닝을 위한 생성적 사전 훈련된 변환기

论文题目:BioGPT: 생물 의학 텍스트 생성 및 마이닝을 위한 생성적 사전 훈련된 변환기

论文地址:BioGPT: 생물 의학 텍스트 생성 및 마이닝을 위한 생성적 사전 훈련된 변환기 | 생물정보학 브리핑 | 옥스퍼드 아카데믹(oup.com)

코드: microsoft/BioGPT(github.com)

저널: 생물정보학 브리핑

접수일: 2022년 6월 16일. 수정일: 2022년 8월 5일. 승인일: 2022년 8월 23일

요약

사전 훈련된 언어 모델은 일반 자연어 분야에서의 큰 성공에 영감을 받아 생의학 분야에서 점점 더 많은 주목을 받고 있습니다. 자연어 분야의 사전 훈련된 언어 모델의 두 가지 주요 분야인 BERT(및 그 변형)와 GPT(및 그 변형) 중에서 첫 번째 분기는 BioBERT 및 PubMedBERT와 같은 생물 의학 분야에서 널리 연구되었습니다. . 다양한 차별적인 다운스트림 생물의학 작업에서 큰 성공을 거두었지만 생성 능력이 부족하여 적용 범위가 제한됩니다. 이 기사에서는 대규모 생물의학 문헌에 대해 사전 훈련된 도메인별 생성 Transformer 언어 모델인 BioGPT를 제안합니다.이 기사는 6가지 생물의학 자연어 처리 작업에서 BioGPT를 평가하고 기사의 모델이 대부분의 작업에서 이전 모델보다 성능이 우수함을 보여줍니다.. BC5CDR, KD-DTI, DDI 엔드투엔드 관계 추출 작업에서 각각 F1 점수 44.98%, 38.42%, 40.76%를 달성했고, PubMedQA에서는 정확도 78.2%를 달성하며 신기록을 세웠다. 텍스트 생성에 관한 사례 연구는 생물의학 문헌에서 BioGPT의 장점을 더욱 입증합니다.

1. 소개

사전 훈련된 언어 모델에는 BERT 유사 모델과 GPT 유사 모델이라는 두 가지 주요 유형이 있습니다.

  • BERT 유사 모델: 주로 서열 분류서열 주석 에 사용됩니다.

  • GPT와 유사한 모델: 주로 요약 생성지식 삼중 생성 과 같은 생성 작업에 사용됩니다.

일반 도메인 nlp 모델을 생물학 분야에 직접 적용하면 모델 성능이 저하되므로 생물학 분야에 대해 사전 훈련된 모델을 훈련시키는 경우가 많습니다., BioBERT 및 PubMedBERT와 같은. 그러나 이전 연구에서는 주로 생성 작업보다는 작업을 이해하는 데 더 적합한 BERT 모델에 중점을 두었습니다. 대조적으로, GPT 모델은 생성 작업에 대한 능력을 보여주지만 생물의학 영역에 직접 적용할 때 성능이 저하됩니다.

BioGPT는 Transformer 언어 모델 백본을 따르며 1,500만 개의 PubMed 초록을 바탕으로 처음부터 사전 학습되었습니다.

저자는 BioGPT를 적용하여6가지 생물의학 NLP 작업: BC5CDR, KD-DTI, DDI에 대한 End-to-End 관계 추출, PubMedQA Q&A, HoC 문서 분류, 텍스트 생성 등을 수행합니다.

다운스트림 작업에 적응하기 위해 저자는 더 나은 모델 작업을 위한 표적 서열 형식과 단서를 신중하게 설계하고 분석했습니다 .

2. 관련 업무

생물학 분야의 사전 훈련된 모델

  • 바이오버트

  • 블루 벤치마크[생의학적 자연어 처리의 전이 학습: 10가지 벤치마킹 데이터 세트에 대한 BERT 및 ELMo 평가] 논문의 모델은 BERT를 기반으로 하는 PubMed 텍스트 및 MIMIC-III 임상 노트에 대해 사전 훈련되었습니다.

  • 사이버트[SciBERT: 과학 텍스트를 위한 사전 훈련된 언어 모델]은 BERT를 기반으로 한 추가 사전 훈련을 사용하지 않고 대규모 과학 문헌(주로 생물학 및 컴퓨터 문헌)을 처음부터 훈련합니다.

  • PubMedBERT[생의학 자연어 처리를 위한 도메인별 언어 모델 사전 훈련] 14M PubMed 초록에 직접 사전 훈련하는 것은 어휘가 생물의학 분야에 더 적합한 도메인별 데이터에 대해 처음부터 사전 훈련하는 것이 더 나은 전략임을 증명합니다 .

이러한 모든 연구는 광범위한 생물의학 문헌 언어 처리 작업에서 원래 BERT에 비해 개선된 점을 보여 주지만 생물의학 생성 작업을 위한 것은 없습니다.

다운스트림 작업

6개의 다운스트림 작업은 모두 텍스트 생성/마이닝 작업 으로 공식화될 수 있습니다 .

이미지-20230923221452223

관계 추출

고전적인 파이프라인 기반 방법 [23, 33, 34]은 작업을 추가 중간 주석 및 정보가 필요한 여러 개의 독립적인 하위 작업으로 분해하며, 이는 중간 주석 데이터 부족 및 오류 누적으로 인해 어려움을 겪을 수 있습니다.

공동 추출 방법의 목적은 텍스트에서 엔터티와 해당 관계를 공동으로 추출하는 것입니다.

시퀀스 주석 방법은 언급된 모든 엔터티에 레이블을 지정하기 위해 텍스트의 단어에 다른 레이블을 지정하고 분류기를 통해 이들 사이의 관계를 분류함으로써 이 작업을 해결합니다. [35-38]

테이블 채우기 방법은 작업을 자신의 데카르트 곱으로 구성된 테이블로 공식화하고 주석 쌍 간의 관계를 예측합니다 [39-41]

이러한 방법은 이전 라벨링 프로세스와 힘든 중간 주석(즉, 명명된 엔터티 인식)으로 인해 오류가 누적될 수 있습니다.

그러나 많은 공동 추출 방법 에는 여전히 추가 엔터티 정보가 필요합니다.저자는 엔드투엔드 관계 추출 에 중점을 두고 작업을 텍스트 생성 작업으로 공식화하고 텍스트만 입력으로 사용하며 추가 중간 주석 없이 엔드투엔드 방식으로 관계 트리플을 생성합니다.

질문 답변

일반적인 접근 방식은 원본 텍스트의 일부를 답변으로 예측하거나 더 간단한 작업에 대한 레이블(예: 예 또는 아니요)을 예측하고 범주형 답변을 미리 정의하는 것입니다.

문서분류 문서분류

파일 분류는 파일을 미리 정해진 카테고리(단일 레이블 또는 다중 레이블)로 분류하는 것입니다.

3. 사전 훈련 방법

데이터 세트, 어휘, 모델의 세 가지 관점에서 BioGPT를 설명합니다.

데이터세트

이는 [생의학적 자연어 처리를 위한 도메인 특정 언어 모델 사전 훈련] 논문에서 지적되고 있습니다.특정 도메인의 경우 도메인 데이터에 대한 처음부터 교육이 중요합니다.. 작가도메인 내의 데이터만 고려되었습니다., 특히 PubMed 웹사이트의 2021년 이전 데이터입니다.

어휘

논문 [생의학적 자연어 처리를 위한 도메인 특정 언어 모델 사전 훈련]에서도 다음과 같이 지적하고 있습니다.도메인 내 어휘가 중요합니다., 저자는 수집된 도메인 내 말뭉치에서 단어 목록을 학습합니다.

모델

백본으로서의 GPT-2

실제로 저자는 GPT - 2 Medium GPT\text{-}2_{medium}을 사용합니다.GPT - 2_ _백본 네트워크로서 24개의 레이어, 1024개의 히든 레이어 크기 및 16개의 어텐션 헤드가 있으며 총 355M 매개변수가 있습니다. 반면 BioGPT에는 347M 매개변수가 있습니다(차이는 다양한 어휘 크기와 출력 투영 크기로 인한 임베딩 크기의 차이에서만 발생함)

훈련 기준

D = { xi } i D=\{x_{i}\}_{i}={ x}시퀀스 집합을 나타냅니다. 시퀀스 xi x_{i}엑스시유 ni n_{i}N토큰으로 구성됩니다. 즉, xi = (s 1 , s 2 , ... sni ) x_{i}=(s_1,s_2,...s_{n_{i}})엑스=( 1,에스2,... N) 훈련 목표는 음성 샘플의 로그 우도 함수를 최소화하는 것입니다.
min − 1 ∣ D ∣ ∑ i = 1 ∣ D ∣ ∑ j = 1 ni log ⁡ P ( sj ∣ sj − 1 , sj − 2 , ⋯ , s 1 ) \mathrm{min~}-\frac1{|\ mathcal{D}|}\sum_{i=1}^{|\mathcal{D}|}\sum_{j=1}^{n_i}\log P(s_j|s_{j-1},s_{j -2},\cdots,s_1). -1나는 = 1j = 1N로그 _P ( jj 1,에스j 2,,에스1) .

4. 미세 조정 방법

이 섹션에서는 사전 훈련된 BioGPT를 엔드투엔드 관계 추출, 질문 답변, 문서 분류 등 다운스트림 작업에 적용하는 방법을 설명합니다. 이러한 작업에 대한 입력은 모두 시퀀스이지만 출력 형식이 다릅니다. 이러한 작업에 BioGPT를 사용하려면 라벨을 시퀀스로 변환해야 합니다.

저자는 다른 작업에서 탐색된 특별히 주석이 달린 구조화된 형식을 사용하는 대신 레이블을 자연어 시퀀스로 변환합니다.

엔드투엔드 관계 추출

텍스트에서 <head 엔터티, tail 엔터티, 관계> 트리플을 모두 찾습니다. 예를 들어 약물-표적 상호작용, 화학-질병-관계, 약물-약물 상호작용 추출이 포함됩니다.

저자는 트리플에 대해 세 가지 간단한 자연어 시퀀스 스타일을 설계했습니다.

  • 각각 머리 엔터티, 관계 및 꼬리 엔터티에 해당하는 '주어 동사 객체'( svo )
  • 'subject는 object의 rel.noun입니다'( is-of ), rel.noun은 관계의 명사 형식입니다.
  • '주어와 객체의 관계는 rel.noun'( rel-is )

입력 파일에 여러 관계 트리플이 있는 경우 파일에 나타나는 순서에 따라 정렬하고 세미콜론을 사용하여 연결합니다 .

자연어 처리 형태의 문장은 정규식을 사용하여 다시 트리플로 변환할 수 있으며, 사용자는 작업에 따라 형식을 맞춤 설정할 수도 있습니다.

Q&A

작업 설명 : 질문, 참조 컨텍스트 및 답변이 주어지면 목표는 질문에 대한 답변이 참조 컨텍스트에서 추론될 수 있는지 여부를 결정하는 것입니다. 라벨은 예, 아니요, 어쩌면 카테고리로 분류됩니다.

특정 형식 :

  • 출처: 질문: 질문 텍스트. 컨텍스트: 컨텍스트 텍스트입니다. 답변: 답변 텍스트.
  • target: 주어진 상황에서 질문에 대한 대답은 '예'입니다.

문서 분류

문서 텍스트가 주어지면 목표는 문서 유형을 분류하는 것입니다.

대상 시퀀스는 '이 문서의 유형은 레이블입니다' 형식을 사용합니다.

팁 기반 미세 조정

GPT-3는 하드 힌트(수동으로 설계된 개별 언어 문구)를 사용하여 다양한 작업을 생성합니다. 하드 단서는 만족스러운 성능을 달성할 수 있지만 작업별 단서를 디자인하는 것은 힘들고 다양한 단서가 다른 성능으로 이어지는 것으로 밝혀졌습니다.

저자는 소프트 팁을 사용합니다 .연속 임베딩(가상 토큰)은 사전 훈련된 언어 모델을 안내하는 데 사용되며 여러 가상 토큰은 프롬프트로 텍스트 앞에 직접 추가됩니다. 이 연속 임베딩은 작업별 결과를 얻기 위해 다운스트림 작업에서 무작위로 초기화되고 엔드투엔드 학습됩니다.. 소프트 프롬프트는 소스 입력 바로 앞에 추가되지 않고 소스와 대상 사이에 추가됩니다.

여기에 이미지 설명을 삽입하세요.

질문: 그림 왼쪽 훈련 부분의 입력 시퀀스 마지막에 타겟이 있는 이유는 무엇인가요?

5. 실험적인 부분

평가는 4개 작업에 대한 6개 데이터 세트에 대해 수행됩니다.

  • 엔드 투 엔드 관계 추출: BC5CDR, KD-DTI, DDI

  • 질문 답변: PubMedQA

  • 문서 분류: HOC

  • 텍스트 생성: 자체 생성 데이터세트

GPT - 2 중간 GPT\text{-}2_{medium}GPT - 2_ _모델의 핵심으로서

GPT를 사용하는 대신 BPE를 사용하여 토큰을 배우고 어휘력을 쌓으세요. - 2 GPT\text{-}2GPT - 어휘 2 개

8개의 NVIDIA V100 GPU로 사전 훈련됨

단일 NVIDIA V100 GPU에서의 미세 조정 실험

추론 과정에서 텍스트 생성 작업에는 == 빔 검색 == 전략(beam=5)이 사용되는 반면, 다른 작업에는 == 탐욕 검색 == 전략이 사용됩니다.

엔드투엔드 관계 추출

이 모델은 텍스트를 입력으로 받아 트리플을 직접 생성하는데, 주로 REBEL (seq2seq 모델 기반의 엔드 투 엔드 트리플 추출 방법)과 비교됩니다.

BC5CDR

BC5CDR:화학적-질병-관계 추출

이미지-20230924203801347

반란군 pt REBEL_{pt}레베 포인트Wikipedia에서 생성된 추가 대규모 관계형 트리플 데이터 세트에 대해 사전 훈련된 REBEL 모델의 향상된 기능입니다.

seq2rel 역시 end-to-end 관계 추출 방법으로 훈련 및 검증 머신에서 훈련되는 반면, 훈련 및 검증 세트에서 훈련된 BioGPT는 B io GPT pt BioGPT_{pt} 로 기록됩니다.바이오 GP T _ _포인트

GLRE는 파이프라인 방식을 이용한 관계 추출 모델로, 중간 주석으로 NER 정보가 필요합니다. (gt+pred)는 훈련 중에 필요한 엔터티 정보가 실제이고 추론 중에 오픈 소스 NER 도구를 사용하여 생성되었음을 의미하고, (pred+pred)는 훈련 및 추론 중에 오픈 소스 NER 도구가 사용된다는 의미입니다.

두 가지 조사 결과가 있습니다

  • 실제 상황과 일치하는 Ground Truth NER 대신 NER라는 오픈 소스 도구를 사용할 때 파이프라인 기반 방법 GLRE가 크게 저하됩니다.
  • REBEL과 비교하여 BioGPT는 8.28% 증가하여 크게 개선되었습니다.
KD-DTI

KD-DTI: 약물-표적-상호작용

이미지-20230924210845690

DDI

DDI: 약물-약물-상호작용

이미지-20230924211156946

Q&A

PubMedQA, 작업 목표는 예/아니요/아마도를 제공하는 것입니다.

분류 정확도만 평가되었습니다.

이미지-20230924211638372

문서 분류

HoC(암 코퍼스의 특징)

이미지-20230924211748772

텍스트 생성

저자는 또한 생물의학 분야에서 사전 훈련된 BioGPT의 텍스트 생성 기능과 일반 도메인 GPT-2가 생물의학 분야에서 어떻게 수행되는지 궁금합니다.

저자는 KD-DTI 테스트 세트에서 삼중 항목의 모든 엔터티를 추출한 다음 각 약물/표적 이름에 대해 이를 언어 모델에 접두사로 제공하고 모델이 이를 조건으로 하는 텍스트를 생성하도록 합니다. 그런 다음 생성된 텍스트가 의미 있고 유창한지 조사합니다.

  • 입력으로 상대적으로 일반적인 이름이 주어지면 GPT-2는 해당 단어 및 생물 의학과 관련된 의미 있고 유창한 텍스트를 생성할 수 있는 반면 BioGPT는 보다 구체적이고 전문적인 설명을 생성합니다.
  • 특이한 이름이 주어지면 GPT2는 의미 있는 설명을 생성할 수 없지만 BioGPT는 여전히 구체적인 설명을 생성할 수 있습니다.
  • 매우 일반적이지 않거나 도메인별 이름이 주어지면 GPT-2는 유익한 텍스트를 생성할 수 없지만 BioGPT는 여전히 관련성이 높은 설명을 생성할 수 있습니다.

또한, 텍스트 생성을 위해 몇 가지 흥미로운 키워드도 입력해 보았는데, GPT-2와 BioGPT를 비교해 보았는데, BioGPT도 더 좋은 성능을 보였습니다.

일반적으로,다양한 생물의학 NLP 작업 전반에 걸쳐 도메인 내 생물의학 문헌에 대해 처음부터 사전 훈련된 BioGPT는 일반 도메인에서 GPT-2보다 더 나은 성능을 발휘하고 해당 작업에서 대부분의 이전 방법보다 뛰어난 성능을 발휘합니다. 네 가지 임무의 예술 수준

6. 절제 실험

== 태그 에 대한 팁 디자인그리고표적 서열 형식 == 절제 연구가 수행되었습니다.

타겟 시퀀스 형식타겟 시퀀스 형식

구조화된 표현의 이전 사용

이미지-20230924214000932

<triple>, <subj>, <obj>는 각각 헤드 엔터티, 테일 엔터티 및 관계의 시작을 나타내는 세 가지 특수 표시입니다. 인코더-디코더 프레임워크를 사용할 때 입력을 처리하고(인코더에 의해) 응답을 생성하기 위해(디코더에 의해) 두 개의 별도 모듈이 사용됩니다. 이 두 모듈은 서로 다른 두 가지 유형의 시퀀스(자연어 시퀀스 및 구조화된 시퀀스)에 적응하도록 훈련될 수 있습니다.

BioGPT에서는 통합 모듈을 사용하여 컨텍스트를 인코딩하고 답변을 생성합니다. 직관적으로 입력과 답변 간의 형식 일관성을 유지하는 것이 더 좋습니다.

이에 비해 자연어 형식은 구조화된 형식보다 낫습니다. 모든 형식 중에서 rel-is 형식은 F1 측면에서 가장 성능이 뛰어나 의미상 더 부드럽고 명확한 설명을 제공합니다.

이미지-20230924214744102

신속한 디자인 신속한 디자인

이미지-20230924215338290

KD-DTI 추출 작업에 대해 수동으로 설계된 하드 큐와 지속적으로 포함된 소프트 큐 간의 비교 실험을 수행했습니다. 최고의 성능은 13개의 가상 토큰 길이를 연속적으로 삽입하는 것입니다.

  • 인위적으로 설계된 다른 하드 프롬프트는 다른 성능으로 이어지며, 더 유익하고 유익한 프롬프트는 더 나은 성능을 달성합니다.
  • 지속적으로 포함된 소프트 큐가 하드 큐보다 낫습니다.
  • 소프트 프롬프트 성능은 길이와 거의 무관합니다.

요약하다

저자는 GPT-2를 백본으로 사용하여 BioGPT를 제안하고 15M PubMed 코퍼스에서 처음부터 사전 훈련했습니다 .

저자는 다운스트림 작업을 위해 큐와 타겟 시퀀스 형식을 신중하게 설계하고 비교했습니다 .

저자는 엔드투엔드 관계 추출 작업, 질의응답 작업, 문서 분류 작업, 텍스트 생성 작업에 BioGPT를 사용하는데, 전반적으로 BioGPT의 성능이 더 좋습니다.

관련 논문

추천

출처blog.csdn.net/jinniulema/article/details/133254368