르쿤이 또 찬물을 끼얹다: 책만 읽을 수 있는 언어 모델은 결코 '인간과 같은 지능'을 달성할 수 없다

그림

시샤오야오의 기술 공유
소스 | Xinzhiyuan

문제는 언어 모델의 학습 알고리즘이 아니라 언어 자체의 본질적인 한계입니다. 다중 방식이 차세대 AI 폭발을 이끌 것입니다!

지난해 ChatGPT 출시 이후 업계 안팎에서 대규모 언어 모델에 대한 열풍이 일고 있으며, 구글 직원들조차 회사 내부 언어 모델에 인지도가 있다고 주장한 바 있다.

 대형모델연구 시험포탈

GPT-4 포털(벽이 없으며 고급 브라우저 경고 지점이 나타나면 직접 테스트 가능/계속 방문):
안녕하세요, GPT4!

최근 뉴욕대학교 교수이자 튜링상을 수상한 메타(Meta)의 수석 AI 과학자인 얀 르쿤(Yann LeCun), 뉴욕대학교 컴퓨터과학과 박사후 연구원인 제이콥 브라우닝(Jacob Browning)이 장문의 논문을 발표했다. 언어 자체의 한계로 인해 LLM의 지능이 향상되지 않습니다.

그림

언어 모델이 더욱 일반화되고 강력해지는 반면, 모델의 사고 과정을 이해하는 능력은 점점 더 떨어지고 있습니다.

모델은 다양한 상식 추론 벤치마크에서 매우 높은 정확도를 달성할 수 있지만 왜 여전히 말도 안 되는 말을 하고 위험한 조언을 제공합니까?

즉, 언어 모델은 왜 그렇게 똑똑하면서도 제한적인가?

연구자들은 문제가 전혀 AI 알고리즘이 아니라 언어의 한계라고 생각합니다. 일단 "언어는 생각이다"라는 가정을 버리면 LLM이 잘 수행되지만 결코 지능 수준에 도달하지 못한다는 것을 알게 될 것입니다. 인간에 가깝습니다.

도대체 언어 모델이 뭐죠?

19세기와 20세기의 철학적, 과학적 연구에서 주류 이해는 "언어학으로서의 지식", 즉 무언가를 안다는 것은 단순히 올바른 문장을 생각하고 알려진 실제 네트워크와 어떻게 관련되는지 아는 것을 의미하며 다른 문장을 연결합니다.

이 논리에 따르면 이상적인 언어 형태는 엄격한 추론 규칙에 따라 연결된 임의의 기호로 구성된 순전히 형식적이고 논리-수학적인 형태여야 하지만, 자연어에는 의미의 명확성과 부정확성이 필요할 수도 있습니다.

오스트리아 철학자 비트겐슈타인은 참된 명제들의 총합은 자연과학 전체라고 말한 적이 있습니다.

인지지도와 정신적 이미지 분야에서는 여전히 논란이 있지만 20세기에 확립된 언어학적 기반은 상징주의이다.

그림

이 관점은 지금까지 많은 사람들이 받아들였습니다. 백과사전이 알려진 모든 내용을 포함할 수 있다면 책을 모두 읽는 한 세상을 포괄적으로 이해할 수 있다는 것입니다.

인공 지능에 대한 초기 연구도 이 아이디어를 따랐으며, 논리적 규칙에 따라 다양한 방식으로 언어 기호를 함께 묶는 기호 연산을 정의했습니다.

당시 연구자들의 경우, 인공지능에 대한 지식은 인공논리로 연결된 실제 문장들로 구성된 거대한 데이터베이스에 저장되어 있었으며, 인공지능 시스템이 적시에 올바른 문장을 뱉어낸다면 적절한 기호 조작을 수행할 수 있었다. 방식이라면 지능형 시스템이라고 볼 수 있다.

이 아이디어는 튜링 테스트의 기초이기도 합니다. 기계가 알고 있는 내용을 적시에 말할 수 있다면 이는 자신이 말하는 내용과 지식을 적용할 시기를 안다는 의미입니다.

그림

그러나 반대자들은 기계가 채팅을 할 수 있다고 해서 그것이 대화의 구체적인 내용을 이해할 수 있다는 것을 의미하지는 않는다고 믿습니다. 왜냐하면 언어는 지식을 고갈시킬 수 없기 때문입니다. 반대로 언어는 지식을 매우 구체적이고 매우 제한적으로 표현하는 것일 뿐입니다.

프로그래밍 언어, 기호 논리, 음성 언어 등 모든 언어는 개별 개체와 속성, 그리고 이들의 상호 관계를 극도로 높은 수준의 추상화로 표현하기 위한 특정 유형의 표현 스키마일 뿐입니다.

그럼에도 불구하고 악보를 읽는 것과 음악을 듣는 것 사이에는 큰 차이가 있고, 연주 기술 사이에는 훨씬 더 큰 차이가 있습니다.

언어적 표현은 불규칙한 모양, 물체의 움직임, 복잡한 메커니즘의 기능 등을 설명하는 것과 같은 특정 특정 정보를 압축하는 것과 비슷합니다. 다른 비언어적 표현도 이미지, 녹음, 그래프와 같이 이해할 수 있는 방식으로 정보를 전달할 수 있습니다. , 등.

언어 제한

언어는 매우 낮은 대역폭으로 전송되며, 고립된 단어나 문장은 문맥에서 벗어난 정보를 거의 전달하지 않으며, 동음이의어와 대명사의 수가 많아 의미상 모호한 문장이 많습니다.

Chomsky는 수십 년 전에 언어가 명확하고 모호하지 않은 의사소통 도구가 아니라고 제안했습니다.

그러나 인간에게는 완벽한 의사소통 도구가 필요하지 않으며, 문장에 대한 우리의 이해는 일반적으로 문장이 문장의 의미를 추론하는 것처럼 보이는 맥락에 따라 달라집니다.

대부분의 경우, 우리는 진행 중인 축구 경기와 같이 우리 앞에 놓인 일에 대해 논의하거나, 웨이터에게 음식을 주문하고, 몇 가지 명확한 목표를 전달하는 등 특정 사회적 역할에 직면하고 있습니다.

그림

짧은 글을 읽을 때 주된 관심사는 텍스트를 이해하기 위해 일반적인 독해 전략을 사용하는 것이지만, 연구에 따르면 어린이가 주제에 대해 가지고 있는 배경 지식의 양이 실제로 독해에 영향을 미치는 핵심 요소인 것으로 나타났습니다.

이러한 시스템은 우리가 인간에게서 볼 수 있는 온전한 사고에 결코 접근하지 못할 얕은 이해를 하게 될 운명이라는 것이 분명합니다.

AI 시스템은 세상에 대한 피상적인 이해에만 그칠 뿐, 인간이 갖고 있는 포괄적인 사고에는 결코 접근할 수 없다는 것은 분명합니다.

단어와 문장의 고유한 문맥적 특성은 LLM의 작동 방식을 이해하는 데 중요합니다.

신경망은 일반적으로 지식을 노하우로 표현합니다. 즉, 맥락에 매우 민감하고 구체적이고 추상적인 규칙을 동시에 찾을 수 있어 작업 관련 입력을 세밀하게 처리할 수 있습니다.

LLM의 전체 프로세스에는 기존 텍스트의 여러 수준에서 패턴을 식별하는 시스템이 포함됩니다. 즉, 개별 단어가 단락에서 어떻게 연결되어 있는지 또는 문장이 어떻게 연결되어 더 큰 담화 단락을 구성하는지 확인하는 것입니다.

결과적으로 LLM의 언어 이해는 확실히 맥락화되어 단어를 사전적 의미가 아닌 다양한 문장 집합에서 수행하는 역할의 관점에서 이해합니다.

더욱이 carbonizer, menu, debug, electronic 등과 같은 많은 단어의 사용은 거의 특정 분야에서만 사용되며, 고립된 문장에서도 그 단어는 문맥적 의미를 가지게 됩니다.

그림

간단히 말해서, LLM의 훈련 과정은 각 문장의 배경 지식을 학습하고, 주변 단어와 문장을 찾아 문맥을 연결하여 모델이 다양한 문장이나 구의 무한한 가능성을 입력으로 받아들일 수 있도록 하는 것입니다. 대화를 계속하거나 기사를 계속하는 등의 합리적인 방법

인간이 작성한 모든 텍스트에 대해 훈련된 시스템은 대화에 필요한 일반적인 이해를 개발할 수 있어야 합니다.

LLM이 배우는 것은 피상적인 지식일 뿐이다.

어떤 사람들은 LLM이 초기의 "이해" 능력이나 소위 "지능"을 가지고 있다고 생각하지 않습니다. 비평가들은 LLM의 언어 이해가 여전히 매우 피상적이기 때문에 이러한 시스템을 더 잘 모방할 수 있다고 생각합니다. 실제로 자신이 무슨 말을 하는지 모르는 학생들은 무의식적으로 교수나 교재를 모방하고 있을 뿐입니다.

LLM은 모든 것에 대해 이러한 피상적인 이해를 가지고 있습니다. GPT-3과 같은 시스템은 문장이나 구절에서 미래의 단어를 가리고 기계가 가장 가능성이 높은 단어를 추측하도록 한 다음 잘못된 추측을 수정하는 방식으로 훈련됩니다. 시스템은 결국 가장 가능성이 높은 단어를 능숙하게 추측할 수 있게 되었고, 이를 효과적인 예측 시스템으로 만들었습니다.

그림

예를 들어 GPT-3에서는 모델이 특정 단어를 추측하고 문장에서 특정 단어를 마스킹하여 수정한 후 최종적으로 예측 시스템이 되도록 훈련하기만 하면 됩니다.

그러나 이 접근 방식은 또한 우리가 언어를 더 잘 이해할 수 있도록 돕습니다. 실제로 어떤 질문이나 퍼즐에는 일반적으로 몇 가지 정답만 있고 잘못된 답은 무한히 많습니다.

농담, 단어, 논리적 퍼즐 등의 특정 언어 능력의 경우 실제로 질문에 대한 정답을 예측하고 이를 통해 기계는 약어, 다시 쓰기, 의역 및 언어 이해가 필요한 기타 작업을 수행할 수 있습니다. .

상징적 AI에서 예상되는 것처럼 지식의 표현은 상황에 따라 달라지며 전제가 주어지면 그럴듯한 문장을 출력합니다.

모든 지식이 언어적이라는 관점을 버리면 우리 지식 중 얼마나 많은 부분이 비언어적인지 깨닫게 됩니다
.

그러나 개념을 말로 설명하는 능력은 실제로 그것을 사용하는 능력과 동일하지 않습니다.

예를 들어, 언어 시스템은 알고리즘을 실행하는 방법을 설명할 수 있지만 실행할 수 있는 능력은 없습니다. 또한 어떤 단어가 공격적이지만 사용할 수 없는지 설명할 수도 있습니다.

추가 분석을 통해 언어 모델의 주의력과 기억력은 짧은 시간 동안만 유지되며 처음 두 문장이나 다음 문장에 더 집중하는 경향이 있음을 알 수 있습니다.

적극적인 듣기, 이전 대화를 회상하고 다시 방문하기, 방해 요소를 피하면서 특정 요점을 설명하기 위해 주제를 고수하는 등 복잡한 대화 기술에 관해서는 언어 모델의 기억력 결핍이 노출되어 몇 분 동안 채팅합니다. 전면 구경과 후면 구경의 불일치와 같은 문제를 발견합니다.

너무 많이 철회하면 시스템이 재부팅되고, 새로운 관점을 받아들이거나, 당신이 말하는 모든 것을 믿는다는 것을 인정하고, 일관된 세계관을 형성하는 데 필요한 이해는 언어 모델에 대한 지식을 훨씬 뛰어넘습니다.

언어 그 이상

책에는 압축을 풀어 사용할 수 있는 많은 정보가 포함되어 있지만 다른 형식의 정보도 중요합니다. 예를 들어 IKEA의 사용 설명서에는 그림만 있고 텍스트가 없습니다. 연구자들은 종종 종이에 있는 다이어그램을 먼저 읽은 다음 텍스트를 찾아봅니다. 종이의 구조를 파악한 후 관광객은 지도의 빨간색 선이나 녹색 선을 따라 도시 지역 등을 탐색할 수 있습니다.

인간은 세상을 탐험하는 과정에서 많은 것을 배웠고, 언어 훈련만 받아들이는 시스템은 지금부터 우주 끝까지 훈련을 한다고 해도 인간에 가까운 지능을 가질 수는 없을 것이다.

언어는 작은 형식으로 많은 양의 정보를 전달하는 능력 때문에 중요합니다. 특히 인쇄기와 인터넷이 발명된 이후에는 쉽게 복제하고 대규모로 적용할 수 있습니다.

그러나 언어 정보를 압축하는 것은 무료가 아닙니다. 모호한 텍스트를 해독하려면 많은 노력이 필요합니다.

인문학 과정에는 과외 독서가 많이 필요할 수 있는데, 이는 언어로 훈련된 기계가 왜 그토록 많은 것을 알 수 있고 그토록 적게 알 수 있는지 설명해줍니다.

인간의 모든 지식에 접근할 수 있지만 책의 모든 문장에는 많은 정보가 포함되어 있어 여전히 이해하기 어렵습니다.

언어 모델에는 유령이 없습니다

물론, 언어 모델의 결함이 기계가 멍청하다는 것을 의미하는 것은 아니며, 단지 기계가 얼마나 지능적일 수 있는지에 본질적인 한계가 있다는 것을 의미합니다.

많은 경우 실제로 인간과 같은 에이전트가 필요하지 않습니다. 예를 들어 다른 인간에게 Turing 테스트를 적용하지 않고 다른 사람들에게 여러 자리 곱셈을 강요하지도 않습니다. 대부분의 대화는 그냥 채팅입니다. .

언어는 우리가 세상을 탐구하는 데 유용한 도구일 수 있지만, 언어가 지능의 전부는 아닙니다. 깊은 '비언어적 이해' 능력은 언어를 이해하는 기초이며, 이는 세상에 대한 우리의 이해를 심화시키고 이해하게 해줍니다. 다른 사람들은 뭐라는데 뭐.

이러한 종류의 비언어적이고 상황에 민감하며 생물학적으로 관련되고 구체화된 지식은 AI 연구자들이 언어학보다 더 관심을 갖는 부분입니다.

대규모 언어모형은 세상을 인지할 수 있는 안정적인 신체나 오래 지속되는 주의력이 없으며, 언어로만 학습할 수 있는 세계는 매우 제한적이므로 학습되는 상식은 항상 피상적이다.

추천

출처blog.csdn.net/xixiaoyaoww/article/details/132622698