1. Transformer 이전에 텍스트 생성
생성 알고리즘은 새로운 것이 아니라는 점에 유의하는 것이 중요합니다. 이전 언어 모델은 순환 신경망(RNN)이라는 아키텍처를 사용했습니다. 당시에는 강력했지만 RNN은
생성 작업을 잘 수행하는 데 필요한 많은 양의 계산과 메모리로 인해 기능이 제한되었습니다. 간단한 다음 단어 예측 생성 작업을 수행하는 RNN의 예를 살펴보겠습니다.
모델은 이전 단어를 하나만 보았으므로 예측이 매우 좋을 수 없습니다. 텍스트에서 더 많은 이전 단어를 볼 수 있도록 RNN 구현을 확장하는 경우 모델에서 사용하는 리소스를 대폭 확장해야 합니다. 예측에 관해서는 모델이 여기서 실패합니다.
모델을 확장하더라도 여전히 좋은 예측을 할 만큼 입력이 충분하지 않습니다. 다음 단어를 성공적으로 예측하려면 모델이 이전 단어보다 더 많은 것을 볼 필요가 있습니다. 모델은 전체 문장 또는 전체 문서를 이해해야 합니다. 여기서 문제는 언어가 복잡하다는 것입니다.
많은 언어에서 하나의 단어는 두 가지 이상의 의미를 가질 수 있습니다. 이것들은 동음어입니다. 이 경우에는 문장의 맥락을 통해서만 그 은행이 어떤 유형인지 알 수 있습니다.
문장 구조의 단어는 모호할 수 있거나 구문적 모호성이라고 부를 수 있습니다. 예를 들어, 다음 문장을 살펴보겠습니다: "선생님은 책으로 학생들을 가르칩니다." 선생님이 책으로 가르치나요, 아니면 학생이 책을 가지고 있나요, 아니면 둘 다인가요? 때때로 우리 자신이 인간의 언어를 이해할 수 없다면 알고리즘은 어떻게 그것을 이해할 수 있습니까?
2017년 Google과 토론토 대학이 "Attention is All You Need"라는 논문을 발표한 후 모든 것이 바뀌었습니다. 트랜스포머 아키텍처가 도착했습니다.
이 새로운 접근 방식은 오늘날 우리가 볼 수 있는 생성 AI의 발전을 가능하게 했습니다. 멀티 코어 GPU를 사용하여 효율적으로 확장되고, 입력 데이터를 병렬로 처리할 수 있으며, 더 큰 교육 데이터 세트를 사용할 수 있으며, 결정적으로 처리 중인 단어의 의미에 주의를 기울이는 방법을 배울 수 있습니다. 그리고 당신에게 필요한 것은 관심뿐입니다. 그게 제목이에요.
참고
https://www.coursera.org/learn/generative-ai-with-llms/lecture/vSAdg/text- Generation-before-transformers