빅 언어 모델: AI 시대의 문자 그대로 계산기?

오픈소스 중국 커뮤니티 팀이 공유라는 이름으로 오픈소스 중국 커뮤니티의 뒷이야기를 전하는 첫 생방송을 진행했습니다."

편집자 주: 현재 자연어 처리 분야에서는 대규모 언어 모델이 화제가 되고 있습니다. LLM은 정말 "똑똑"한가요? 그들은 우리에게 어떤 영감을 주었나요? 이러한 질문에 대한 답으로 Darveen Vijayan은 생각을 자극하는 다음 기사를 제공합니다.

저자는 주로 두 가지 사항을 설명합니다. 첫째, LLM은 다음 단어를 예측하여 작동하는 단어 계산기로 간주되어야 하며, 현 단계에서 "지능형"으로 분류되어서는 안 됩니다. 둘째, 현재의 한계에도 불구하고 LLM은 인간 지능의 본질에 대해 성찰할 수 있는 기회를 제공합니다. 우리는 열린 마음을 갖고 끊임없이 새로운 지식과 지식에 대한 새로운 이해를 추구하며, 타인과 적극적으로 소통하여 인지적 경계를 확장해야 합니다.

LLM이 똑똑한지 아닌지는 여전히 논란의 여지가 있습니다. 그러나 한 가지 확실한 점은 자연어 처리 분야에 혁신을 가져왔고 인간 지능의 본질에 대한 새로운 차원의 사고를 제공했다는 것입니다. 이 기사는 모든 대형 모델 도구 사용자와 AI 실무자가 주의 깊게 읽고 읽어 볼 가치가 있습니다.

저자 다빈 비자얀

편집됨 | 양유에

17세기 초, Edmund Gaunt라는 수학자 겸 천문학자는 전례 없는 천문학적 도전에 직면했습니다. 행성의 복잡한 움직임을 계산하고 일식을 예측하려면 천문학자들은 직관뿐만 아니라 마스터 복합 로그 연산 및 삼각법에도 의존해야 했습니다. 방정식. 그래서 다른 훌륭한 혁신가처럼 Gunter도 아날로그 컴퓨팅 장치를 발명하기로 결정했습니다! 그가 만든 장치는 결국 슬라이드 자[1]로 알려지게 되었습니다.

계산자는 고정된 프레임과 슬라이딩 부분으로 구성된 길이 30cm의 직사각형 나무 블록입니다. 고정 프레임에는 고정된 로그 스케일이 있고, 슬라이딩 부분에는 이동식 스케일이 있습니다. 계산자를 사용하려면 로그의 기본 원리와 곱셈, 나눗셈 및 기타 수학 연산의 척도를 정렬하는 방법을 이해해야 합니다. 숫자가 정렬되도록 가동부를 슬라이드한 후 결과를 읽고 소수점 위치에 주의해야 합니다. 아, 정말 너무 복잡해요!

규칙을 비껴나 가다

약 300년 후인 1961년에 Bell Punch Company는 최초의 데스크탑 전자 계산기인 "ANITA Mk VII"를 출시했습니다. 그 후 수십 년 동안 전자 계산기는 점점 더 복잡해졌고 점점 더 많은 기능을 갖게 되었습니다. 이전에는 수동 계산이 필요했던 작업에 소요되는 시간이 줄어들어 직원들이 보다 분석적이고 창의적인 작업에 집중할 수 있습니다. 따라서 현대 전자 계산기는 작업을 더욱 효율적으로 만들 뿐만 아니라 사람들이 문제를 더 잘 해결할 수 있도록 해줍니다.

계산기는 수학을 수행하는 방식에 큰 변화를 가져왔습니다. 하지만 언어는 어떻습니까?

문장을 어떻게 구성하는지 생각해 보세요. 먼저, 아이디어(이 문장이 무엇을 의미하는지)가 필요합니다. 다음으로, 당신은 많은 어휘를 마스터해야 합니다(충분한 어휘를 가지고 있어야 합니다). 그런 다음 이러한 단어를 문장에 올바르게 넣을 수 있어야 합니다(문법 필요). 아, 아직도 너무 복잡해요!

50,000년 전, 현대 호모 사피엔스가 처음으로 언어를 창조했을 때, 우리가 언어에 대한 단어를 생성하는 방식은 크게 변하지 않았습니다.

틀림없이 우리는 문장을 구성할 때 계산자를 사용하는 Gunter와 같습니다!

우리는 여전히 문장을 생성할 때 계산자를 사용하는 Gunther의 시대에 있다고 말하는 것이 타당합니다!

생각해 보면 적절한 어휘와 올바른 문법을 사용하는 것이 언어의 규칙을 따르는 것입니다.

수학과 비슷합니다. 수학은 규칙으로 가득 차 있어서 1+1=2와 계산기 작동 방식을 알아낼 수 있습니다!

단어 계산기가 필요해요!

우리에게 필요한 것은 계산기이지만 단어입니다!

예, 다른 언어는 다른 규칙을 따라야 하지만 언어의 규칙을 준수해야만 언어를 이해할 수 있습니다. 언어와 수학의 한 가지 분명한 차이점은 수학에는 고정된 답과 확실한 답이 있는 반면, 문장에 맞는 합리적인 단어가 많이 있을 수 있다는 것입니다.

다음 문장을 채워 보세요. 나는 _________을 먹었습니다. (나는 _________을 먹었습니다.) 다음에 올 단어를 상상해 보세요. 영어에는 약 1백만 개의 단어가 있습니다. 여기에는 많은 단어가 사용될 수 있지만 전부는 아닙니다.

"블랙홀"이라고 대답하는 것은 2+2=5라고 말하는 것과 같습니다. 또한 "사과"라고 대답하는 것은 정확하지 않습니다. 왜? 문법적 제약 때문에!

지난 몇 달 동안 LLM(Large Language Models)[2]이 전 세계를 휩쓸었습니다. 어떤 사람들은 이를 자연어 처리 분야의 획기적인 발전이라고 부르기도 하고, 다른 사람들은 인공지능(AI)의 새로운 시대의 서막을 열었다고 보기도 합니다.

LLM은 인간과 유사한 텍스트를 생성하는 데 매우 능숙하다는 것이 입증되었으며, 이는 언어 기반 AI 애플리케이션의 기준을 높입니다. 방대한 지식 기반과 탁월한 상황 이해를 바탕으로 LLM은 언어 번역 및 콘텐츠 생성부터 고객 지원을 위한 가상 비서 및 챗봇에 이르기까지 다양한 분야에 적용될 수 있습니다.

지금 우리는 1960년대 전자계산기 시대와 비슷한 전환점에 와 있는 걸까요?

이 질문에 답하기 전에 LLM의 작동 방식을 이해해 볼까요? LLM은 Transformer 신경망을 기반으로 하며 문장에서 다음으로 가장 적합한 단어를 계산하고 예측하는 데 사용됩니다. 강력한 Transformer 신경망을 구축하려면 대량의 텍스트 데이터에 대한 학습이 필요합니다. 이것이 "다음 단어 또는 토큰 예측" 접근 방식이 매우 효과적인 이유입니다. 쉽게 사용할 수 있는 훈련 데이터가 많기 때문입니다. LLM은 전체 단어 시퀀스를 입력으로 사용하여 다음으로 가능성이 가장 높은 단어를 예측합니다. 가장 가능성이 높은 다음 단어를 배우기 위해 그들은 모든 Wikipedia 데이터를 탐독하고, 책 더미를 탐독하고, 마침내 전체 인터넷을 탐독함으로써 준비를 마쳤습니다.

우리는 언어에 규칙과 패턴이 포함되어 있다는 것을 앞서 밝혔습니다. 모델은 다음 단어를 예측하는 작업을 완료하기 위해 모든 문장을 통해 이러한 규칙을 암시적으로 학습합니다.

심층 신경망

단수 명사 뒤에는 다음 단어에서 "s"로 끝나는 동사가 나올 확률이 높아집니다. 마찬가지로 셰익스피어의 작품을 읽을 때 'doth', 'wherefore' 같은 단어가 나올 확률이 높아진다.

훈련 중에 모델은 이러한 언어 패턴을 학습하고 결국 언어 전문가가 됩니다!

하지만 충분합니까? 단순히 언어의 규칙을 배우는 것으로 충분합니까?

하지만 그것으로 충분합니까? 언어 규칙을 배우는 것으로 충분합니까?

언어는 복잡하며, 단어는 문맥에 따라 여러 의미를 가질 수 있습니다.

그러므로 자기주의가 필요합니다. 간단히 말해서, self-attention은 언어 학습자가 문장이나 기사에서 서로 다른 단어 간의 관계를 이해하기 위해 사용하는 기술입니다. 이야기를 이해하기 위해 이야기의 다른 부분에 집중하는 것처럼 self attention을 사용하면 LLM이 정보를 처리할 때 문장의 특정 단어에 더 중점을 둘 수 있습니다. 이렇게 하면 모델은 언어 규칙에만 기초하여 다음 단어를 맹목적으로 예측하는 대신 텍스트의 전반적인 의미와 맥락을 더 잘 이해할 수 있습니다.

자기 주의 메커니즘

빅 언어 모델을 단순히 다음 단어를 예측하는 단어 계산기로 생각한다면 이 모델이 어떻게 내 모든 질문에 답할 수 있을까요?

LLM이 단지 다음 단어를 예측하는 단어 계산기라면 어떻게 모든 질문에 답할 수 있을까요?

생각이 필요한 작업을 처리하도록 대규모 언어 모델에 요청하고 성공하는 경우 이는 수천 개의 예에서 제공한 작업을 보았기 때문일 가능성이 높습니다. 다음과 같은 매우 독특한 요구 사항이 있는 경우에도 마찬가지입니다.

"치킨을 먹는 범고래에 대한 시를 써보세요"

닭을 먹는 범고래에 대한 시를 써주세요

대규모 언어 모델은 할당된 작업을 성공적으로 완료할 수도 있습니다.

파도 속에서 보이지 않는 광경, 범고래는 빠르고 예리하게 사냥한다. 바다의 영역에서는 춤이 시작된다. 닭의 운명처럼 범고래가 승리한다.

강력한 턱으로 먹이를 공격하고, 깃털이 떠서 표류하며, 자연의 방식대로 이야기가 흘러나오며, 삶과 죽음이 하나가 되는 곳.

~ 채팅GPT

나쁘지 않죠? 이는 관련 정보를 효과적으로 융합하고 일치시켜 합리적이고 일관된 답변을 구성할 수 있는 Self-Attention 메커니즘 덕분입니다.

훈련 중에 LLM(대형 언어 모델)은 데이터에 있는 단어(및 구) 간의 패턴, 연관성 및 관계를 식별하는 방법을 학습합니다. 광범위한 교육과 미세 조정을 거친 후 LLM은 언어 번역, 요약 생성, 질문 답변, 심지어 창의적인 글쓰기와 같은 새로운 기능을 선보일 수 있습니다. 모델이 특정 작업이나 기술을 직접 가르치지는 않지만, 많은 양의 데이터를 학습하고 훈련함으로써 모델은 기대 이상의 능력을 발휘하고 매우 좋은 성능을 발휘할 수 있습니다.

그렇다면 대규모 언어 모델은 지능적일까요?

대규모 언어 모델은 지능적입니까?

전자 계산기는 60년 이상 사용되어 왔습니다. 이 도구는 기술의 "도약" 발전을 이루었지만 결코 스마트하다고 간주되지 않았습니다. 왜?

튜링 테스트는 기계에 인간 지능이 있는지 확인하는 간단한 방법입니다. 기계가 인간과 구별할 수 없는 방식으로 대화할 수 있으면 인간 지능이 있는 것으로 간주됩니다.

계산기는 인간과 동일한 언어를 사용하지 않고 수학적 언어만을 사용하여 의사소통하기 때문에 튜링 테스트를 거친 적이 없습니다[3]. 그러나 대규모 언어 모델은 인간 언어를 생성합니다. 전체 훈련 과정은 인간의 말을 모방하는 것을 중심으로 이루어집니다. 그러므로 그것이 "인간을 구별할 수 없게 만드는 방식으로 인간과 대화할 수 있다"는 것은 놀라운 일이 아닙니다.

따라서 대규모 언어 모델을 설명하기 위해 "지능형"이라는 용어를 사용하는 것은 약간 까다롭습니다. 지능의 진정한 정의에 대한 명확한 합의가 없기 때문입니다. 어떤 것이 지능적인지 판단하는 한 가지 방법은 그것이 흥미롭고 유용하며 일정 수준의 복잡성이나 창의성을 가지고 수행할 수 있는지 여부입니다. 대규모 언어 모델은 확실히 이 정의에 적합합니다. 그러나 나는 이 해석에 전적으로 동의하지 않는다.

나는 지능을 지식의 경계를 확장하는 능력으로 정의합니다.

나는 지능을 지식의 한계를 확장하는 능력으로 정의합니다.

이 글을 쓰는 시점에서 다음 토큰/단어를 예측하여 작동하는 기계는 여전히 지식의 경계를 확장할 수 없습니다.

다만, 기존 데이터를 기반으로 추론하고 채울 수는 있다. 단어 뒤에 숨은 논리를 명확하게 이해할 수 없으며 기존 지식 체계도 이해할 수 없습니다. 혁신적인 아이디어나 깊은 통찰력을 창출할 수 없습니다. 상대적으로 일반적인 답변만 제공할 수 있을 뿐 획기적인 아이디어를 창출할 수는 없습니다.

혁신적인 사고와 심층적인 통찰력을 생성하는 기계의 무능력에 직면하여, 그것이 우리 인간에게 어떤 영향이나 영향을 미치나요?

그렇다면 이것이 우리 인간에게 무엇을 의미합니까?

우리는 LLM(대형 언어 모델)을 단어 계산기로 생각해야 합니다. 우리의 사고 과정은 큰 모델에 전적으로 의존해서는 안 되며, 대체물이 아니라 우리의 사고와 표현을 돕는 것으로 간주되어야 합니다.

동시에, 이러한 대형 모델의 매개변수 수가 기하급수적으로 증가함에 따라 우리는 점점 더 압도당하고 깊이가 없다는 느낌을 받을 수 있습니다. 이에 대한 나의 조언은 관련없어 보이는 아이디어에 대해 항상 호기심을 유지하라는 것입니다. 때로 우리는 겉보기에 관련이 없거나 모순되는 생각을 접하기도 하지만, 관찰, 인식, 경험, 학습 및 타인과의 소통을 통해 이러한 생각 사이에 어떤 연관성이 있을 수도 있고, 이러한 생각이 합리적일 수도 있음을 발견할 수 있습니다. (번역자 주: 이러한 연결은 사물에 대한 우리의 관찰, 이해 및 해석에서 비롯될 수도 있고, 다른 분야의 지식과 개념을 상호 연관시켜 파생되는 새로운 아이디어에서 나올 수도 있습니다. 우리는 열린 마음을 유지해야 합니다. 피상적인 직관에 국한되지 않고 관찰하고 인식해야 합니다. , 경험하고, 배우고, 다른 사람들과 소통하여 더 깊은 의미와 연결을 발견합니다. 우리는 알려진 영역에 머무르는 데 만족하지 말고, 인지적 경계를 지속적으로 확장하면서 새로운 분야를 적극적으로 탐색해야 합니다. 또한 우리는 끊임없이 새로운 지식이나 이미 획득한 지식에 대한 새로운 이해를 추구하고 이를 기존 지식과 결합하여 새로운 통찰력과 아이디어를 창출해야 합니다.

내가 설명하는 대로 생각하고 행동할 수 있다면 계산기든 대규모 언어 모델이든 모든 형태의 기술은 걱정해야 할 실존적 위협이 아니라 활용할 수 있는 도구가 될 것입니다.

끝

참고자료

[1] https://www.whipplemuseum.cam.ac.uk/explore-whipple-collections/calculated-devices/slide-rules#:~:text=The%20slide%20rule%27s%20origins%20can,logarithmic% 20스케일%20%20물리적%20악기용 .

[2] https://en.wikipedia.org/wiki/Large_언어_model #:~:text=Large%20언어%20models%20(LLMs)%20are,MassiveText%2C%20Wikipedia%2C%20and% 20GitHub.

[3] https://en.wikipedia.org/wiki/Turing_test

이 기사는 Baihai IDP가 원저자의 승인을 받아 편집한 것입니다. 번역물을 재인쇄해야 하는 경우 당사에 연락하여 승인을 받으시기 바랍니다.

원본 링크:

https://medium.com/the-modern-scientist/large-언어-models-a-calculator-for-words-7ab4099d0cc9

빅 언어 모델: AI 시대의 문자 그대로 계산기?

추천