AI 에이전트에 대한 심층 분석: 잠재력과 과제를 모두 갖춘 새로운 지능형 세계

기사 추천

GPT-4o가 출시되었고 사용자들은 즉시 이를 검토했습니다. OpenAI에 과장된 부분이 있나요?

개미들이 함께 즐거운 시간을 보내고 있어요! 앤트의 '510명의 친척과 친구의 날' AI 희망찬 여행

OpenAI 라이브 방송 카운트다운, GPT-5가 없는 것으로 확인, GPT-3.5에서 5로, AI 진화의 큰 차이를 기사 하나로 이해하세요!

이 글은 Ant의 Wu Jun이 작년에 QCon에 참가한 후 요약한 내용으로, AI Agent에 초점을 맞춰 AI Agent의 현재 적용과 과제에 대해 중점적으로 설명합니다. 다음은 원본 텍스트입니다.

**저자 소개:** Ant Group 에어 덕트 기술부 AI 엔지니어링 팀의 TL Wu Jun(Yide)은 현재 에어 덕트의 대형 모델 응용 엔지니어링을 담당하고 있으며, 공기 덕트의 일부 비즈니스 시나리오에 대한 모델 평가 및 대규모 모델 추론. 대규모 모델 애플리케이션의 최적화 및 구현.

이번 QCon의 중요한 주인공은 의심할 여지 없이 대형 모델입니다. 이틀 동안 진행된 대형 모델의 세 가지 측면은 현재 대형 모델 아키텍처의 고전적인 계층화, 즉 애플리케이션 계층, 도구 계층 및 AI 인프라에 해당할 수도 있습니다.

  • **애플리케이션 레이어 - 대형 모델 애플리케이션: ** RAG&AI Agent의 1세대 모델에서 주로 공개됩니다. 주요 구현 시나리오에는 생성 BI인 내부 데이터 분석-GBI, R&D 보조 효율성 향상-생성 코드 및 외부 사용자가 포함됩니다. 2. ChatPDF와 같은 지식 기반 Q&A;
  • **도구 계층 - 애플리케이션 구축 기능: ** 주로 자신의 시나리오에 대한 대규모 모델 애플리케이션을 효율적이고 빠르게 구축하는 방법을 소개합니다(AI 에이전트 구축에 중점). 애플리케이션 구축 도구인 LangChain, 다음과 같은 에이전트 개발 프레임워크가 있습니다. MetaGPT 및 Amazon Bedrock용 ModelScop-Agent&Agents 등의 MaaS 플랫폼;
  • **모델 및 인프라 계층 - 대규모 모델 최적화 가속화: **모델 추론 가속화에 대한 코어의 탐색은 향후 제한된 컴퓨팅 성능 하에서 대규모 모델 애플리케이션의 대규모 생산에 대한 성능 및 보안 요구 사항을 충족할 것입니다. 또한 획기적인 핵심 포인트를 탐색하기 위해 경쟁합니다.

AI 에이전트란?

AI 에이전트의 정의

AI 에이전트(AI Agent)는 인공지능 에이전트(Artificial Intelligence Agent)의 개념으로, 환경을 인지하고 의사결정을 내리고 행동을 수행하는 지능적인 개체로, 주로 머신러닝과 인공지능 기술을 기반으로 자율적으로 학습하고 개선하는 능력을 갖추고 있습니다. 작업이나 도메인에서 . 보다 완전한 에이전트는 환경과 완전히 상호 작용해야 합니다. 에이전트는 두 부분으로 구성됩니다. 하나는 에이전트 부분이고 다른 하나는 환경 부분입니다 . 이 순간 에이전트는 물리적 세계의 '인간'과 같고, 물리적 세계는 인간의 '외부 환경'이다.

AI Agent의 주요 구성요소

LLM 기반 자율 에이전트 시스템(LLM 에이전트)에서 LLM은 에이전트의 두뇌 역할을 하며 여러 주요 구성 요소와 협력합니다.

계획

  • 하위 목표 분해: 에이전트는 복잡한 작업을 효과적으로 처리할 수 있도록 대규모 작업을 관리 가능한 작은 하위 목표로 분할합니다.
  • 반성 및 개선: 에이전트는 과거의 행위에 대해 자기 비판 및 반성을 할 수 있으며, 실수로부터 배우고 후속 단계에서 개선하여 최종 결과의 품질을 향상시킬 수 있습니다.

메모리

  • 단기 기억: 상황별 학습은 모델을 사용한 단기 기억 학습입니다.
  • 장기 기억: 일반적으로 외부 벡터 저장 및 검색을 사용하여 구현되는 장기 정보를 유지하고 회상하는 기능을 에이전트에 제공합니다.

도구 사용

  • 모델 가중치에서 손실된 정보의 경우 에이전트는 외부 API를 호출하여 현재 정보, 코드 실행 기능, 독점 정보 소스에 대한 액세스 등을 포함한 추가 정보를 얻는 방법을 학습합니다.

행동

  • 작업 모듈은 실제로 결정이나 응답을 수행하는 에이전트의 일부입니다. 다양한 작업에 직면한 에이전트 시스템은 완전한 작업 전략 세트를 갖추고 있으며 잘 알려진 메모리 검색, 추론, 학습, 프로그래밍 등과 같은 결정을 내릴 때 수행할 작업을 선택할 수 있습니다.

인간-기계 협업 모드

대형 모델을 기반으로 하는 에이전트는 모든 사람이 향상된 기능을 갖춘 전용 지능형 비서를 보유할 수 있게 할 뿐만 아니라 인간-기계 협업 모델을 바꾸고 더 광범위한 인간-기계 통합을 가져올 것입니다. 생성 AI의 지능형 혁명은 지금까지 발전해 왔으며 인간-기계 협업의 세 가지 모드가 등장했습니다.

임베디드 모드:

사용자는 언어 소통을 통해 AI와 협력하고, 프롬프트 단어를 사용하여 목표를 설정하고, AI가 작업 완료를 지원합니다. 예를 들어 사용자는 생성 AI를 사용하여 소설, 음악 작품, 3D 콘텐츠 등을 만듭니다. 이 모드에서는 AI가 명령을 실행하고 인간이 의사결정자이자 지휘관이 됩니다.

부조종사 모드:

인간과 AI는 파트너이며 워크플로에 함께 참여합니다. AI는 프로그래머를 위한 코드 작성, 오류 감지, 소프트웨어 개발 성능 최적화 등의 작업에 대한 제안과 지원을 제공합니다. AI는 단순한 도구가 아닌 지식을 갖춘 파트너입니다.

에이전트 모드:

인간은 목표를 설정하고 자원을 제공하고, AI는 대부분의 작업을 독립적으로 수행하며, 인간은 프로세스를 감독하고 결과를 평가합니다. AI는 자율성과 적응성을 구현하여 독립적인 행위자에게 접근하고, 인간은 감독자 및 평가자 역할을 합니다. 에이전트 모드는 임베디드 모드와 부조종사 모드보다 더 효율적이며 향후 인간-기계 협업의 주요 모드가 될 수 있습니다.

지능형 에이전트의 인간-기계 협업 모드에서는 모든 일반 개인이 자체 AI 팀과 자동화된 작업 흐름을 갖춘 슈퍼 개인이 될 수 있는 잠재력을 갖습니다. 그들은 다른 초개인과 더욱 지능적이고 자동화된 협력 관계를 구축할 수 있습니다. 업계에는 이미 이 모델을 적극적으로 모색하고 있는 1인 기업과 슈퍼 개인이 있습니다.

AI 에이전트 애플리케이션

현재 AI Agent는 대규모 언어 모델을 구현하는 효과적인 방법 중 하나로 인식되고 있으며 이를 통해 더 많은 사람들이 대규모 언어 모델 창업의 방향과 LLM, Agent 및 기존의 통합 및 적용에 대한 전망을 명확하게 볼 수 있습니다. 산업 기술. 현재 대규모 언어 모델 에이전트는 코드 생성, 데이터 분석, 일반 질문 답변, 과학 연구 등 다양한 분야에서 수많은 오픈 소스 또는 폐쇄 소스 프로젝트를 보유하고 있어 얼마나 인기가 있는지 알 수 있습니다.

산업 관련 AI Agent 예시

AI 에이전트 애플리케이션

이 기사에서는 세 가지 유형의 애플리케이션 또는 시나리오, 즉 ABI/GBI 생성 BI 또는 데이터 분석, 코드 에이전트 코드 도우미 및 RAG 기술 기반 지식 질문 및 답변에 중점을 둡니다.

01. BI(데이터 분석) 에이전트 - Generative BI

금융 정보 응용 연구 및 개발에 대한 LLM의 실무 경험과 탐구

생성 BI(데이터 에이전트) 측면에서는 이날 특별 연설에서 Tencent Cloud의 기술 이사가 공유한 주제를 들었습니다. 그는 txt2SQL 지능형 질문 및 답변 시스템의 설계를 공유했으며 전반적인 정확성은 다음과 같습니다. 놀라운 99%에 도달합니다(순수한 대규모 모델 생성 및 복잡성이 낮은 SQL의 정확도는 약 80%+입니다). 그러나 본질적으로 그들의 솔루션은 주로 엔지니어링 기능에 의존하고 대규모 모델의 NL2SQL 생성 기능을 완전히 사용하지 않습니다. 대신 RAG를 결합하고 Query를 사용하여 RAG의 일반적인 쿼리 문제와 해당 SQL 예제를 일치시킨 다음 검색된 SQL이 데이터 소스에 연결됩니다.

대규모 디지털 모델인 SwiftAgent를 비즈니스 분석 분야에 적용

Shushi Technology/Financial Digital Products General Manager가 공유하는 유사한 DataAgent 제품 -swiftAgent는 대화형 지표 조회, 지능형 통찰력 속성을 포함하여 언어(LUI) 모드 기반의 대규모 모델을 통해 기존 BI 매뉴얼 전체 프로세스 제품(GUI)을 재구성합니다. , 분석 보고서 자동 생성, 지표의 전체 수명주기 관리 및 기타 기능.

AIGC와 데이터 분석의 통합으로 새로운 데이터 소비 모델이 탄생합니다.

NetEase Shufan의 빅데이터 솔루션 전문가들이 NetEase의 Data Agent 작업을 공유했습니다. 대형 모델에서 오류가 발생하면 신뢰성의 방향에 중점을 두고 NL2SQL에서 쿼리한 데이터가 신뢰할 수 있는지 확인하기 위해 제품 상호 작용에 많은 작업을 수행했습니다.

  • 자체 개발한 NL2SQL 전용 대형 모델을 통해 동일 연도/체인 간/그룹 정렬 기능 등 관련 데이터 관련 기능이 향상되었습니다.
  • 프로세스는 검증 가능합니다. 대화형 인터페이스에서 자연어로 쿼리 설명을 생성함으로써 사용자는 모델 생성 프로세스의 옳고 그름을 쉽게 식별하여 생성 프로세스의 신뢰성을 보장할 수 있습니다.
  • 사용자 개입 가능: 쿼리 설명을 기반으로 사용자는 쿼리 결과의 쿼리 조건을 수동으로 조정하고 결정론적 수단으로 올바른 결과를 얻을 수 있습니다.
  • 운영 결과: 실시간 라벨링과 정확하고 잘못된 결과에 대한 피드백을 통해 대규모 모델 생성의 정확성을 지속적으로 최적화합니다.

또한 일부 회사에서는 NL2SQL과 관련된 시나리오를 시도한 바 있으므로 여기서는 하나씩 나열하지는 않겠습니다.

02. 코딩 에이전트

초기 단계에서 Github Copilot, codeGeex, CodeFuse 등에 대한 심층적인 경험을 갖고 있기 때문에 핵심 기능은 프로그래머에게 코드 생성, 코드 최적화, 코드 감지 및 기타 연구 개발 지원을 지원하여 효율성을 향상시키는 것입니다. 시나리오에서 핵심 초점은 코드 보안 문제에 있습니다. 여기서는 자세한 내용을 다루지 않겠습니다. 관련 공유 및 PPT 다운로드 링크는 다음과 같습니다.

  • 기업의 aiXcoder 코드 모델 적용 사례:

https://qcon.infoq.cn/2023/shanghai/presentation/5683

  • CodeFuse를 기반으로 한 차세대 R&D 탐색:

https://qcon.infoq.cn/2023/shanghai/presentation/5681

  • 코드 도우미 시나리오에 대규모 모델을 구현하는 탐색 및 실습:

https://qcon.infoq.cn/2023/shanghai/presentation/5690

  • Baidu 대형 모델 기반 지능형 코드 도우미 효율성 개선 사례:

https://qcon.infoq.cn/2023/shanghai/presentation/5679

03. RAG 기반 지식 질문과 답변

공간 제약으로 인해 RAG 관련 대형 모델 애플리케이션은 다른 기사에서 자세히 설명하고 분해할 예정입니다.

도전

기술적인 관점에서 볼 때 AI Agent의 개발은 여전히 ​​느리고 대부분의 애플리케이션은 아직 POC 또는 이론적 실험 단계에 있습니다. 현재 복잡한 도메인 시나리오에서 완전히 자율적일 수 있는 대규모 AI 에이전트 애플리케이션을 보는 것은 거의 드뭅니다. 가장 큰 이유는 AI Agent의 두뇌 역할을 하는 LLM 모델이 아직 충분히 강력하지 않기 때문입니다. 가장 강력한 GPT4라도 적용하면 여전히 몇 가지 문제에 직면합니다.

1. 컨텍스트 길이가 제한되어 기록 정보, 자세한 설명, API 호출 컨텍스트 및 응답의 포함이 제한됩니다.

2. 장기 계획 및 작업 분해는 여전히 어려운 과제입니다.

3. 현재 에이전트 시스템은 외부 구성 요소와의 인터페이스로 자연어에 의존하지만 모델 출력의 신뢰성은 의심스럽습니다.

또한 AI Agent의 비용은 상대적으로 높으며, 특히 다중 에이전트 시스템에서는 더욱 그렇습니다. 많은 시나리오에서 Copilot 모드와 비교하여 AI Agent 사용 효과가 크게 향상되지 않거나 증가된 비용을 감당할 수 없습니다. 대부분의 AI Agent 기술은 아직 연구 단계에 있습니다. 마지막으로 AI Agent는 보안 및 개인 정보 보호, 윤리 및 책임, 경제적 및 사회적 고용 영향 등과 같은 많은 문제에 직면할 수 있습니다.

"Trusted AI Progress" 공식 계정은 대규모 그래프 학습, 인과 추론, 지식 그래프, 대형 모델 및 기타 기술 분야를 다루는 신뢰할 수 있는 최신 인공 지능 기술의 보급과 오픈 소스 기술 육성에 전념하고 있습니다. QR 코드를 스캔하여 팔로우하고 더 많은 AI 정보를 잠금해제하세요~

Microsoft의 중국 AI 팀은 수백 명의 사람들을 모아 미국으로갔습니다. 알려지지 않은 오픈 소스 프로젝트는 얼마나 많은 수익을 가져올 수 있습니까? Huawei는 공식적으로 Yu Chengdong의 위치가 화중 과학 기술 대학의 오픈 소스 미러 스테이션 으로 조정되었다고 발표했습니다. 사기꾼들이 TeamViewer를 사용해 외부 네트워크 접속을 공식적으로 개시했습니다 ! 원격 데스크톱 공급업체는 무엇을 해야 합니까? 최초의 프런트 엔드 시각화 라이브러리이자 Baidu의 유명한 오픈 소스 프로젝트 ECharts의 창립자 - "바다에 나간" 유명한 오픈 소스 회사의 전직 직원이 소식을 전했습니다. 리더는 격노하고 무례하게 행동하여 임신한 여성 직원을 해고했습니다. OpenAI는 AI가 포르노 콘텐츠를 생성하도록 허용하는 것을 고려했습니다. Microsoft는 Rust Foundation에 100만 달러를 기부했다고 보고했습니다. 여기서 time.sleep(6)의 역할은 무엇입니까? ?
{{o.이름}}
{{이름}}

추천

출처my.oschina.net/u/7032067/blog/11149174