칭화 글로벌 모델 보고서 발표, Wenxin, 중국어, 중국어, 수학 부문 1위

최근 칭화대학교 기본 모델 연구센터 중관촌 연구소 개발한 SuperBench 대형 모델 종합 능력 평가 프레임워크는 ' SuperBench 대형 모델 종합 능력 평가 보고서'의 2024년 3월 버전을 공식 출시했습니다 . 국내외 대표 모델 총 14명이 참여한 평가 결과 , 원신이얀 4.0은 좋은 성능을 발휘해 국제 일류 모델 수준에 가까워지며, 격차가 점차 줄어들고 있는 국내 대표 모델 이다 .

예를 들어, 인간 정렬 능력 평가에서 Wenxinyiyan 4.0은 좋은 성적을 거두었고 중국어 추론 및 중국어 평가에서 Wenxinyiyan이 다른 중국어 이해 Wen 모델과 확연한 차이를 보이며 훨씬 앞서 있었습니다 . Xin Yi Yan 4.0은 확실한 선두를 달리고 있으며 2위인 GLM-4를  0.41점 차로 앞서고 있습니다 . GPT-4 시리즈 모델은 성능이 좋지 않아 중간 및 하위 순위를 차지하고 있으며 첫 번째 Wen Xin Yi Yan 보다 0점 이상 뒤쳐져 있습니다. 4.0 .

의미 이해의 수학적 능력 측면에서 Wenxinyiyan 4.0 Claude-3은 세계 1위를 차지했습니다 .  GPT-4 시리즈 모델은 4위와 다른 모델의 점수는 약 55점에 집중되어 1위보다 훨씬 뒤처졌습니다. 의미 이해 부문의 독해 능력에서는 Wenxinyiyan 4.0이 GPT-4 Turbo, Claude-3, GLM-4를 제치고 1위를 차지했습니다.

기업이 대형 모델을 선택할 때 가장 중요하게 여기는 안전성 평가에서는 국산 모델인 Wenxinyiyan 4.0이 세계 최고 수준의 GPT-4 시리즈 모델 Claude-3를 제치고 최고 점수(89.1점)를 획득하는 등 눈부신 활약을 펼쳤습니다. - 3 위는 4위에 불과 하다 .

Wen Xinyiyan은 기술적 역량이 뛰어날 뿐만 아니라 애플리케이션 구현 분야에서도 선두를 달리고 있다는 점은 주목할 가치가 있습니다. Wen Xin Yi Yan 지난해 3월 16일 처음 출시된 이후 사용자 수가 2억 명을 넘어 섰고 , 일일 API 호출 수도 2억 명을 넘어섰 습니다 .

2023년 '모델 100인 대전'에서 국내 대형 모델들의 치열한 경쟁 펼쳐질 진정한 리더는 누구일까? 국내외에는 다양한 모델 역량 평가 목록이 있지만 품질이 고르지 않고 순위도 크게 다릅니다. 참고할 목록을 볼 때 권위 있는 기관과 권위 있는 대학의 평가를 더 많이 읽어서 대형 모델 선택에 대한 과학적 판단을 제공해야 합니다 .

Linus는 커널 개발자가 탭을 공백으로 대체하는 것을 막기 위해 스스로 노력했습니다. 그의 아버지는 코드를 작성할 수 있는 몇 안되는 리더 중 한 명이고, 둘째 아들은 오픈 소스 기술 부서의 책임자이며, 막내 아들은 오픈 소스 코어입니다. 기고자 Robin Li: 자연 언어 새로운 범용 프로그래밍 언어가 될 것입니다. 오픈 소스 모델은 Huawei에 비해 점점 더 뒤쳐질 것입니다 . 일반적으로 사용되는 5,000개의 모바일 애플리케이션을 Hongmeng으로 완전히 마이그레이션하는 데 1년이 걸릴 것입니다. 타사 취약점. 기능, 안정성 및 개발자의 경험이 크게 개선된 Quill 2.0 출시되었습니다. Ma Huateng과 Zhou Hongyi는 "원한을 제거하기 위해" 공식적으로 출시되었습니다. Laoxiangji의 소스는 코드가 아닙니다. Google이 대규모 구조 조정을 발표한 이유는 매우 훈훈합니다.
{{o.이름}}
{{이름}}

추천

출처my.oschina.net/u/6852546/blog/11053975