변환기 이전의 텍스트 생성

1. Transformer 이전에 텍스트 생성

생성 알고리즘은 새로운 것이 아니라는 점에 유의하는 것이 중요합니다. 이전 언어 모델은 순환 신경망(RNN)이라는 아키텍처를 사용했습니다. 당시에는 강력했지만 RNN은 여기에 이미지 설명을 삽입하세요
생성 작업을 잘 수행하는 데 필요한 많은 양의 계산과 메모리로 인해 기능이 제한되었습니다. 간단한 다음 단어 예측 생성 작업을 수행하는 RNN의 예를 살펴보겠습니다.

모델은 이전 단어를 하나만 보았으므로 예측이 매우 좋을 수 없습니다. 텍스트에서 더 많은 이전 단어를 볼 수 있도록 RNN 구현을 확장하는 경우 모델에서 사용하는 리소스를 대폭 확장해야 합니다. 예측에 관해서는 모델이 여기서 실패합니다.
여기에 이미지 설명을 삽입하세요

모델을 확장하더라도 여전히 좋은 예측을 할 만큼 입력이 충분하지 않습니다. 다음 단어를 성공적으로 예측하려면 모델이 이전 단어보다 더 많은 것을 볼 필요가 있습니다. 모델은 전체 문장 또는 전체 문서를 이해해야 합니다. 여기서 문제는 언어가 복잡하다는 것입니다.

많은 언어에서 하나의 단어는 두 가지 이상의 의미를 가질 수 있습니다. 이것들은 동음어입니다. 이 경우에는 문장의 맥락을 통해서만 그 은행이 어떤 유형인지 알 수 있습니다.
여기에 이미지 설명을 삽입하세요

문장 구조의 단어는 모호할 수 있거나 구문적 모호성이라고 부를 수 있습니다. 예를 들어, 다음 문장을 살펴보겠습니다: "선생님은 책으로 학생들을 가르칩니다." 선생님이 책으로 가르치나요, 아니면 학생이 책을 가지고 있나요, 아니면 둘 다인가요? 때때로 우리 자신이 인간의 언어를 이해할 수 없다면 알고리즘은 어떻게 그것을 이해할 수 있습니까?
여기에 이미지 설명을 삽입하세요

2017년 Google과 토론토 대학이 "Attention is All You Need"라는 논문을 발표한 후 모든 것이 바뀌었습니다. 트랜스포머 아키텍처가 도착했습니다.
여기에 이미지 설명을 삽입하세요

이 새로운 접근 방식은 오늘날 우리가 볼 수 있는 생성 AI의 발전을 가능하게 했습니다. 멀티 코어 GPU를 사용하여 효율적으로 확장되고, 입력 데이터를 병렬로 처리할 수 있으며, 더 큰 교육 데이터 세트를 사용할 수 있으며, 결정적으로 처리 중인 단어의 의미에 주의를 기울이는 방법을 배울 수 있습니다. 그리고 당신에게 필요한 것은 관심뿐입니다. 그게 제목이에요.
여기에 이미지 설명을 삽입하세요

참고

https://www.coursera.org/learn/generative-ai-with-llms/lecture/vSAdg/text- Generation-before-transformers

추천

출처blog.csdn.net/zgpeace/article/details/132379860