Sequoia American AI Summit에서 AI 에이전트 동향에 대한 Andrew Ng의 통찰력

소개

최근 미국 세쿼이아 AI 서밋(Sequoia AI Summit)에서 인공지능 분야의 권위자인 앤드류 응(Andrew Ng) 교수가 AI 에이전트(AI Agent)에 대한 최신 트렌드와 심오한 통찰을 발표했다. 그는 기존의 대규모 언어 모델(LLM) 애플리케이션에 비해 에이전트 워크플로가 더 반복적이고 대화적인 특성을 보여 AI 애플리케이션 개발 분야에서 우리에게 새로운 아이디어를 열어준다고 지적했습니다.

이번 서밋에서 Ng Enda 교수는 모든 AI 개발자와 연구자들에게 흥미로운 주제인 AI Agent의 개발 전망에 대해 심도 있게 논의했습니다. 그는 에이전트 워크플로의 핵심 특징을 설명했습니다. 즉각적인 피드백을 추구하기보다는 더 나은 결과를 얻기 위해 지속적인 커뮤니케이션과 반복 프로세스를 통해 작업을 전달하는 것을 옹호합니다.

상담사 워크플로의 특징

기존 LLM 사용은 일회성 입력 및 출력과 유사하지만 에이전트 워크플로는 지속적인 대화와 유사하여 여러 반복을 통해 출력 결과를 최적화합니다. 이 접근 방식을 사용하려면 AI와 상호 작용하는 방식을 바꾸고, 에이전트에 작업을 더 많이 위임하고, 에이전트가 제공하는 결과를 인내심 있게 기다려야 합니다.에이전트_워크플로

네 가지 주요 에이전트 디자인 패턴

Ng Enda 교수는 네 가지 주요 에이전트 설계 패턴을 소개했는데, 각 패턴은 AI 기능을 향상시킬 수 있는 잠재력을 보여줍니다.

Agentic_reasoning_design_patterns

  1. 반사

    • 에이전트는 자체 검토 및 출력 수정을 통해 결과의 품질을 향상시킵니다. 예를 들어, 코드 작성 시 에이전트는 오류를 자체적으로 반성하고 수정하여 더 나은 코드를 생성할 수 있습니다.

Agent Reflection은 많은 사람들이 사용하는 도구이며 실제로 작동하는 도구입니다. 나는 그것이 더 널리 인식되고 실제로 꽤 잘 작동한다고 생각합니다. 나는 이것이 매우 강력한 기술이라고 생각합니다. 이를 사용할 때 거의 항상 계획 및 다중 에이전트 협업이 잘 실행됩니다.

저는 이 분야가 신흥 분야에 가깝다고 생각하며, 사용했을 때 성능이 얼마나 좋은지 가끔 놀라곤 합니다. 하지만 적어도 현재로서는 항상 안정적으로 작동할 수는 없다고 생각합니다. 이 네 가지 디자인 패턴을 여러 측면에서 설명하겠습니다. 여러분 중 일부가 돌아가서 이것을 직접 시도하거나 엔지니어에게 이를 사용하도록 하면 생산성이 꽤 빨리 향상될 것이라고 생각합니다.

Reflection에 관한 예는 다음과 같습니다. 주어진 작업을 완료하기 위해 코드를 작성하도록 시스템에 요청한다고 가정해 보겠습니다. 그리고 코딩 에이전트가 있는데, 이는 "이봐, doTask를 정의하고, 이와 같은 함수를 작성해줘"와 같은 코드를 작성하라는 메시지를 표시하는 LLM일 뿐입니다.

자기 성찰의 예로는 다음과 같이 LLM에 요청하는 경우가 있습니다. "여기 작업을 수행하기 위한 코드가 있습니다. 방금 생성한 코드와 정확히 동일한 코드를 제공하고 코드가 올바른지 다시 확인하세요. 효율적이고 잘 구성되었나요? 이렇게 힌트를 써보세요.”

코드 작성을 요청한 동일한 LLM이 5행에서 이와 같은 오류를 찾아 어떻게든 수정할 수 있을 수도 있습니다. 이제 피드백을 제공하고 다시 요청하면 첫 번째 버전보다 더 잘 작동할 수 있는 두 번째 버전의 코드가 나올 수 있습니다.

보장할 수는 없지만 많은 응용 프로그램에서 시도해 볼 가치가 있을 만큼 잘 작동하는 경우가 많습니다. 단위 테스트를 실행하도록 놔두면 좋은 징조입니다. 단위 테스트에 실패하면 단위 테스트에 실패하는 이유는 무엇입니까? 그 대화를 통해 단위 테스트가 실패한 이유를 어느 정도 밝힐 수 있습니다. 그러니 몇 가지 사항을 변경해 보고 버전 3을 얻으세요.

그런데 이러한 기술에 대해 더 자세히 알고 싶은 분들을 위해 이 기술에 대해 매우 기대하고 있습니다. 네 부분 각각에 대해 하단에 더 많은 참고 자료가 포함된 권장 도서 섹션이 있습니다.

다시 말하지만, 다중 에이전트 시스템에서는 자신과 대화하라는 메시지를 표시하는 단일 코드 에이전트에 대해 설명합니다. 이 아이디어의 자연스러운 발전은 단일 코드 에이전트 대신 두 개의 에이전트를 가질 수 있다는 것입니다. 그 중 하나는 코드 에이전트이고 다른 하나는 비판 에이전트입니다. 이는 동일한 기본 LLM일 수 있지만 다른 방식으로 표시됩니다. 예를 들어, 당신은 전문 코드 작성자입니다. 그렇죠? 코드를 작성하세요. 또 다른 사람은 당신이 전문 코드 검토자이므로 이 코드를 검토하라고 말했습니다.

이 워크플로는 실제로 구현하기 쉽습니다. 나는 이것이 많은 작업 흐름에 매우 다재다능한 기술이라고 생각합니다. 이는 LLM의 성능을 크게 향상시킵니다.

  1. 도구 사용

    • LLM은 코드를 생성하고 API를 호출하여 실제 작업을 수행할 수 있으므로 응용 범위가 확장됩니다. 이 모드에서 LLM은 텍스트를 생성할 수 있을 뿐만 아니라 외부 도구 및 인터페이스와도 상호 작용할 수 있습니다.

도구 사용

두 번째 디자인 패턴은 많은 사람들이 LLM 기반 시스템에서 사용하는 것을 본 것입니다. 왼쪽은 Copilot의 스크린샷입니다. 오른쪽은 GPT-4에서 가져온 것인데 오늘의 LLM에서는 온라인 검색에서 가장 좋은 커피 머신이 무엇인지 묻는다면 특정 질문에 대해 LLM이 코드를 생성하고 실행합니다. 분석, 정보 수집, 행동 및 개인 생산성을 위해 다양한 사람들이 사용하는 다양한 도구가 있다는 것이 밝혀졌습니다.

초기 작업은 원래 컴퓨터 비전 커뮤니티에서 사용되기 시작했습니다. LLM 이전에는 이미지를 처리할 수 없었기 때문입니다. 따라서 유일한 옵션은 이미지 생성이나 객체 감지 등과 같이 이미지를 조작할 수 있는 함수 호출을 생성하는 것입니다. 실제로 문헌을 보면 사용법에 관한 많은 작업이 비전 영역에서 시작된 것 같다는 점이 흥미롭습니다. 왜냐하면 GPT-4 등 이전에는 LLM이 이미지에 눈이 멀었고 그것이 사용법이고 LLM을 확장하기 때문입니다. 할 수 있는 일.

  1. 계획

    • 에이전트는 복잡한 작업을 세분화하고 계획대로 실행할 수 있어 복잡한 문제를 처리하는 AI의 능력을 입증합니다. 계획 알고리즘을 통해 상담원은 작업을 보다 효율적으로 관리하고 완료할 수 있습니다.

계획

그리고 계획, 계획 알고리즘을 많이 다루지 않은 사람들을 위해 많은 사람들이 ChatGPT 순간에 대해 이야기하는 것처럼 느껴집니다. 와, 이런 건 본 적이 없습니다. 아직 계획 알고리즘을 사용하고 있지 않은 것 같습니다. 많은 분들이 AI Agent에 놀라실 겁니다.

AI 에이전트가 이 작업을 잘 수행할 것이라고는 상상할 수 없습니다. 라이브 데모를 해봤는데 그 중 일부는 실패했고 AI 에이전트는 이러한 실패를 우회했습니다. 나는 실제로 내 AI 시스템이 자동으로 그런 일을 했다는 것을 믿을 수 없는 상황에 꽤 많이 부딪혔습니다.

하지만 HuggingGPT 논문에서 채택한 예에서는 이미지 예 dot jpeg에서 소년과 같은 자세로 책을 읽고 있는 소녀의 사진을 생성하고 새 이미지를 음성으로 설명해달라고 말씀하셨습니다. 예를 들어, 오늘날 AI 에이전트가 있는데 가장 먼저 해야 할 일은 소년의 자세를 결정하는 것이라고 결정할 수 있습니다. 그런 다음 올바른 모델을 찾고 HuggingFace에서 포즈를 추출할 수 있습니다. 다음으로, 소녀 사진을 합성하기 위한 포즈 이미지 모델을 찾고 지침을 따라야 합니다. 그런 다음 이미지 감지를 사용하고 마지막으로 텍스트 음성 변환을 사용합니다.

오늘날 실제로 에이전트가 있습니다. 그들이 안정적으로 작동한다고 말하고 싶지는 않습니다. 그들은 약간 까다롭습니다. 항상 작동하는 것은 아니지만 작동하면 실제로는 매우 놀랍습니다. 하지만 Agent Sex Loops를 사용하면 때로는 초기 실패에서도 복구할 수 있습니다. 그래서 나는 이미 Research Agent를 사용하고 있다는 것을 알게 되었습니다. 그래서 내 작업과 연구의 일부는 하지만 직접 Google에 가서 오랜 시간을 보내고 싶지는 않습니다. 연구 대리인에게 보내고 몇 분 후에 다시 돌아와서 무엇을 발견했는지 확인하기로 되어 있는데 때로는 효과가 있고 때로는 그렇지 않지만 이미 내 개인 작업 흐름의 일부입니다.

  1. 다중 에이전트 협업

    • 여러 에이전트가 서로 다른 역할을 수행하고 협력하여 작업을 완료함으로써 실제 작업 환경에서 협업을 시뮬레이션합니다. 이 접근 방식의 장점은 LLM이 단일 작업을 수행하는 도구가 아니라 복잡한 문제와 작업 흐름을 처리할 수 있는 협업 시스템이 될 수 있다는 것입니다.

다중 에이전트_협업

마지막 디자인 패턴인 다중 에이전트 협력은 흥미롭게 들리지만 생각보다 훨씬 더 잘 작동합니다. 왼쪽에는 완전한 오픈 소스, 실제로는 오픈 소스인 ChatDev라는 논문의 스크린샷이 있습니다. 많은 분들이 보신 것처럼 샤이닝소셜은

ChatDev 미디어에서 공개한 데모는 오픈 소스이며 내 노트북에서 실행됩니다. ChatDev는 LLM이 때로는 소프트웨어 엔지니어링 회사의 CEO, 때로는 디자이너, 때로는 제품 관리자, 때로는 테스터처럼 행동하도록 유도할 수 있는 다중 에이전트 시스템의 예입니다.

LLM에게 이제 당신은 CEO이고 이제는 소프트웨어 엔지니어라고 말하도록 함으로써 그들은 협력하고 당신이 게임을 개발하세요, 멀티플레이어 게임을 개발하라고 하면 그들은 그렇게 할 정도로 확장된 대화를 나눕니다. 실제로 몇 분 동안 코드를 작성하고, 테스트하고, 반복하고 나면 놀랍도록 복잡한 프로그램이 완성됩니다.

이러한 종류의 다중 에이전트 협업은 다소 환상적으로 들릴 수도 있지만 실제로는 상상하는 것보다 더 잘 작동합니다. 이는 이들 에이전트 간의 협력이 더욱 풍부하고 다양한 입력을 가져올 수 있을 뿐만 아니라, 서로 다른 역할과 전문 지식을 가진 사람들이 공통의 목표를 향해 일하는 실제 작업 환경에 더 가까운 시나리오를 시뮬레이션할 수 있기 때문입니다. 이 접근 방식의 장점은 LLM이 단일 작업을 수행하는 도구가 아니라 복잡한 문제와 작업 흐름을 처리할 수 있는 협업 시스템이 될 수 있다는 것입니다.

이 접근 방식의 잠재적 가치는 엄청납니다. 워크플로우를 자동화하고 더욱 효율적으로 만드는 새로운 가능성을 열어주기 때문입니다. 예를 들어, 소프트웨어 개발 팀의 다양한 역할을 시뮬레이션함으로써 기업은 특정 개발 작업을 자동화하여 프로젝트 속도를 높이고 오류를 줄일 수 있습니다. 마찬가지로, 이러한 다중 에이전트 협력 방법은 콘텐츠 제작, 교육 및 훈련, 전략 기획 등 다른 분야에도 적용될 수 있어 다양한 산업 분야에서 LLM의 적용 범위를 더욱 넓힐 수 있습니다.

상담사 워크플로의 잠재력과 과제

이러한 상담사 워크플로는 잠재력이 풍부하지만 빠르게 발전하는 동시에 몇 가지 과제도 있습니다. 일부 디자인 패턴은 상대적으로 성숙하고 신뢰할 수 있는 반면, 다른 디자인 패턴은 여전히 ​​불확실합니다. 또한 낮은 품질의 LLM을 기반으로 하더라도 좋은 결과를 얻을 수 있고 빠른 반복을 통해 새로운 토큰을 생성할 수 있기 때문에 빠른 토큰 생성의 중요성은 무시할 수 없습니다.

사례 연구 및 실제 적용

Ng Enda 교수는 사례 연구와 실제 적용을 통해 에이전트 워크플로의 효율성을 자세히 설명했습니다. 예를 들어 Human Eval Benchmark를 사용한 코딩 분석과 GPT-3.5와 GPT-4 간의 성능 비교는 모두 에이전트 워크플로의 우수성을 보여줍니다. 특히 소프트웨어 개발 분야에서는 Multi-Agent 시스템의 적용 사례를 통해 실제 업무 환경에서 다양한 역할을 시뮬레이션하여 개발 효율성을 높이고 오류를 줄이는 방법을 보여줍니다.

미래 전망

Ng Enda 교수는 AI 에이전트의 기능이 크게 확장될 것이며 AI 에이전트를 사용하는 새로운 방법을 배워야 한다고 믿습니다. 빠른 반복과 초기 모델의 잠재력은 AI가 다양한 분야에 더욱 광범위하고 깊이 적용될 것임을 나타냅니다.

요약하다

결론

에이전트 반영, 계획 및 다중 에이전트 협력과 같은 설계 패턴을 통해 LLM의 성능을 향상시킬 수 있을 뿐만 아니라 적용 영역을 확장하고 더욱 강력하고 유연한 도구로 만들 수 있습니다. 이러한 기술이 지속적으로 개발되고 개선됨에 따라 AI 에이전트가 앞으로 더 많은 시나리오에서 핵심 역할을 수행하여 사람들에게 더욱 지능적이고 효율적인 솔루션을 제공할 수 있기를 기대합니다.

항상 작동하는 것은 아닙니다. 나는 그것을 사용했다. 때로는 작동하지 않을 때도 있고 때로는 놀라울 때도 있지만 기술은 확실히 좋아지고 있습니다. 디자인 패턴도 있는데, 다중 에이전트 토론, 즉 서로 다른 에이전트 간의 토론이 가능하다는 것이 밝혀졌습니다. 예를 들어 ChatGPT와 Gemini가 서로 토론하게 하면 실제로 더 나은 성능으로 이어질 수 있습니다.

따라서 여러 개의 시뮬레이션된 공기 에이전트를 함께 작동시키는 것도 강력한 디자인 패턴입니다. 요약하자면, 이것이 제가 본 패턴이라고 생각합니다. 이러한 패턴을 사용할 수 있다면 많은 사람들이 실질적인 개선을 매우 빠르게 달성할 수 있을 것이라고 생각합니다. Agent 추론 디자인 패턴이 중요할 것 같아요.

여기 내 짧은 요약 슬라이드가 있습니다. 올해는 에이전트 워크플로로 인해 AI가 수행할 수 있는 작업이 크게 확대될 것으로 예상됩니다. 실제로 익숙해지기 어려운 점 중 하나는 LLM에 프롬프트를 보낼 때 즉각적인 응답을 기대한다는 것입니다. 사실, 10년 전 제가 Google에서 빅박스 검색(big box search)이라고 부르는 것에 대해 이야기했을 때 긴 프롬프트의 이유 중 하나이자 제가 푸시에 성공하지 못한 이유 중 하나는 웹 검색을 할 때 절반의 시간 안에 검색하고 싶죠? 이것이 바로 인간의 본성, 즉각적인 포착, 즉각적인 피드백입니다.

많은 에이전트 워크플로의 경우 AI 에이전트에 작업을 위임하고 응답을 위해 몇 분 또는 몇 시간 동안 참을성 있게 기다리는 방법을 배워야 한다고 생각합니다. 그러나 많은 초보 관리자가 누군가에게 작업을 위임한 후 5분 후에 검사하는 것을 본 것처럼 똑같지, 그렇지? 이것은 생산적이지 않습니다.

어렵긴 하지만 일부 AI 에이전트를 사용해 그렇게 하는 방법도 배워야 한다고 생각합니다. 나는 약간의 손실을 들었다고 생각했습니다. 그리고 중요한 추세는 이러한 에이전트 워크플로우에서 지속적으로 반복되기 때문에 빠른 토큰 생성기가 중요하다는 것입니다. 그래서 LLM은 LLM을 위한 토큰을 생성하는데, 누구나 읽을 수 있는 것보다 훨씬 빠르게 토큰을 생성할 수 있다는 점이 좋습니다.

약간 낮은 품질의 LLM에서도 더 많은 토큰을 빠르게 생성하는 것이 더 나은 LLM에서 느린 토큰에 비해 좋은 결과를 줄 수 있다고 생각합니다. 이것은 GPDC의 첫 번째 슬라이드와 에이전트 아키텍처의 결과에서 보여준 것과 같이 원을 더 많이 돌게 만들 수 있기 때문에 약간 논란의 여지가 있을 수 있습니다.

솔직히 저는 Claude5와 Claude4, GPT-5와 Gemini 2.0 그리고 여러분이 만들고 있는 이 모든 멋진 모델을 정말 기대하고 있습니다. GPT-5에서 제로샷으로 작업을 실행하려는 경우 실제로 에이전트 추론으로 생각하는 것보다 일부 애플리케이션에서 해당 성능 수준에 더 가까워질 수 있을 것 같지만 초기 모델에서는 나는 이것이 중요한 추세라고 생각한다.

솔직히 AGI로 가는 길은 목적지라기보다는 하나의 여정처럼 느껴지지만, 에이전트 워크플로가 이 긴 여정에서 작은 발걸음을 내딛는 데 도움이 될 수 있다고 생각합니다.

이 글은 Heng Xiaopai 글을 재인쇄한 글 이며, 저작권은 원저자에게 있습니다. 이 기사를 다시 인쇄하려면 원문을 방문하는 것이 좋습니다.

Linus는 커널 개발자가 탭을 공백으로 대체하는 것을 막기 위해 문제를 직접 해결했습니다. 그의 아버지는 코드를 작성할 수 있는 몇 안 되는 리더 중 한 명이고, 둘째 아들은 오픈 소스 기술 부서의 책임자이며, 막내 아들은 핵심입니다. Huawei: 일반적으로 사용되는 모바일 애플리케이션 5,000개를 변환하는 데 1년이 걸렸습니다. Hongmeng으로의 포괄적인 마이그레이션 Java는 타사 취약점에 가장 취약한 언어입니다. Hongmeng의 아버지인 Wang Chenglu: 오픈 소스 Hongmeng은 유일한 아키텍처 혁신입니다. 중국 기초 소프트웨어 분야의 마화텅(Ma Huateng)과 저우홍이(Zhou Hongyi)가 악수를 하며 "원한을 풀다" 전 마이크로소프트 개발자: 윈도우 11 성능은 "터무니없을 정도로 나쁘다" 라오샹지가 오픈소스인 것은 코드는 아니지만 그 이유는 다음과 같다. Google이 대규모 구조 조정을 발표 했습니다 .
{{o.이름}}
{{이름}}

추천

출처my.oschina.net/u/6851747/blog/11054421