오픈소스 중국 커뮤니티 팀이 공유라는 이름으로 오픈소스 중국 커뮤니티의 뒷이야기를 전하는 첫 생방송을 진행했습니다."

5월 14일, Tencent는 Hunyuan Wensheng 그래프 모델이 완전히 업그레이드되어 오픈 소스화되었다고 발표했습니다. Hugging Face 플랫폼과 Github에 출시되었습니다. 여기에는 모델 가중치, 추론 코드, 모델 알고리즘 등 완전한 모델이 포함되어 있습니다. 기업과 개인이 사용할 수 있으며 개발자는 상업적으로 사용할 수 있습니다.

이는 업계 최초의 중국어 기반 DiT 아키텍처 Vincentian 그래프 오픈 소스 모델로, 15억 개의 매개변수로 중국어 및 영어 이중 언어 입력 및 이해를 지원합니다. 업그레이드된 Hunyuan Vincentian 대형 모델은 sora와 일치하는 DiT 아키텍처를 채택하여 Vincentian 이미지를 지원할 수 있을 뿐만 아니라 비디오와 같은 다중 모드 시각적 생성의 기반 역할도 합니다.

평가 데이터에 따르면 최신 Tencent Hunyuan Vincentian 그래프 모델은 오픈 소스 Stable Diffusion 모델보다 훨씬 효과적이며 현재 최고의 오픈 소스 Vincentian 그래프 모델이며 전반적인 기능은 국제 수준을 선도합니다.

자체 개발한 차세대 Vincent 다이어그램 모델

대형 모델의 뛰어난 성능은 선도적인 기술 아키텍처와 불가분의 관계입니다. 업그레이드된 Tencent Hunyuanwenshengtu 대형 모델은 Sora 및 Stable Diffusion 3와 동일한 아키텍처 및 핵심 기술인 새로운 DiT 아키텍처(DiT, Diffusion With Transformer)를 채택합니다. 이는 Transformer 아키텍처를 기반으로 한 확산 모델입니다.

과거에는 시각적 세대 확산 모델이 주로 U-Net 아키텍처를 기반으로 했으나, 매개변수 수가 증가함에 따라 Transformer 아키텍처 기반 확산 모델이 더 나은 확장성을 보여 발전 품질을 더욱 향상시키는 데 도움이 됩니다. 그리고 모델의 효율성. Tencent Hunyuan은 Vincentian 그래프 모델을 생성하기 위해 DiT 구조와 결합된 대규모 언어 모델을 탐색하고 적용한 업계 최초 중 하나입니다. 2023년 7월부터 Tencent Hunyuan Wenshengtu 팀은 DiT 아키텍처를 기반으로 하는 모델의 방향을 명확히 하고 차세대 모델 개발을 시작했습니다. 올해 초 Hunyuanwenshengtu 대형 모델은 DiT 아키텍처로 완전히 업그레이드되었습니다.

DiT 아키텍처를 기반으로 Tencent의 Hunyuan 팀은 알고리즘 수준에서 모델의 긴 텍스트 이해 기능을 최적화했으며 최대 256자의 콘텐츠 입력을 지원할 수 있어 업계 최고의 수준에 도달했습니다. 동시에, 알고리즘 레벨에서는 초기 생성된 이미지를 기반으로 자연어 설명을 통해 조정할 수 있는 다주기 이미지 생성 및 대화 기능을 혁신적으로 구현하여 더욱 만족스러운 결과를 얻었습니다.

네이티브 중국어도 Tencent의 Hunyuanwenshengtu 대형 모델의 하이라이트입니다. 이전에는 Stable Diffusion과 같은 주류 오픈 소스 모델의 핵심 데이터 세트가 주로 영어로 되어 있었고 중국어, 음식, 문화 및 관습에 대한 이해가 충분하지 않았습니다. Hunyuan Wenshengtu는 중국어와 영어의 이중 언어 이해 및 생성 기능을 갖춘 최초의 중국어 네이티브 DiT 모델로, 고대 시, 속어, 전통 건축, 중국 음식 등 중국 요소를 생성하는 데 탁월한 성능을 발휘합니다.

평가 결과, 차세대 Tencent Hunyuanwenshengtu 대형 모델의 전체적인 시각적 생성 효과는 이전 세대보다 20% 이상 높았으며, 의미 이해, 그림 질감 및 진정성, 다중 회전 대화에서 종합적인 개선이 이루어졌습니다. 다중 피사체, 중국 요소 , 실제 초상화 생성 및 기타 시나리오에서 효과가 크게 향상되었습니다.

업계에 도움이 되는 포괄적인 오픈 소스

Tencent의 Hunyuan Wensheng 그래픽 기능은 소재 제작, 제품 합성, 게임 그래픽 등 많은 비즈니스와 시나리오에서 널리 사용되었습니다. 올해 초 Tencent Advertising은 Tencent의 Hunyuan 모델을 기반으로 한 원스톱 AI 광고 크리에이티브 플랫폼인 Tencent Advertising Miaosi를 출시했습니다. 이 플랫폼은 광고주에게 텍스트 기반 사진, 사진 기반 사진, 제품 배경 합성을 통해 광고 제작 및 전달 효율성을 효과적으로 향상시킵니다. CCTV News, Xinhua Daily, Shenzhen Special Economic Zone Daily, Southern Metropolis Daily, Yangcheng Evening News 등 20개 이상의 언론 매체에서도 뉴스 콘텐츠 제작에 Tencent Hunyuan Wenshengtu를 사용했습니다.

Tencent Wenshengtu 책임자 Lu Qinglin은 다음과 같이 말했습니다. "Tencent의 Hunyuan Wenshengtu 연구 개발 아이디어는 실용적이며 실천에서 벗어나 실천에 나설 것을 고집합니다. 이번에는 Tencent의 혁신적인 아이디어를 공유하기 위해 최신 세대 모델이 완전히 오픈 소스화되었습니다. Vincentian 그래픽 분야의 실무 경험과 연구 결과는 중국 Vincentian 그래픽의 오픈 소스 생태계를 풍요롭게 하고, 차세대 비주얼 세대 오픈 소스 생태계를 공동으로 구축하며, 대형 모델 산업의 가속화된 발전을 촉진할 것입니다.”

Tencent의 오픈 소스 Vincentian 다이어그램 모델을 기반으로 개발자와 기업은 재교육 없이 추론에 직접 사용할 수 있으며 Hunyuan Vincentian 다이어그램을 기반으로 독점 AI 페인팅 애플리케이션 및 서비스를 만들 수 있어 많은 인력과 컴퓨팅 파워를 절약할 수 있습니다. 투명하고 개방적인 알고리즘은 모델의 보안과 신뢰성도 보장합니다.

동시에 개방적이고 최첨단인 Hunyuan Wenshengtu 기본 모델을 기반으로 Stable Diffusion이 지배하는 영어 오픈 소스 커뮤니티와 더불어 중국 기반 Wenshengtu 오픈 소스 생태계를 풍부하게 하고 보다 다양한 네이티브를 형성하는 데에도 도움이 됩니다. 플러그인 중국 문화 이미지 기술의 연구, 개발 및 적용을 촉진합니다.

Tencent는 항상 오픈 소스에 개방되어 있으며 170개 이상의 고품질 프로젝트를 오픈 소스로 제공했으며, 이는 모두 Tencent의 실제 비즈니스 시나리오에서 파생되었으며 WeChat, Tencent Cloud, Tencent Games, Tencent와 같은 핵심 비즈니스 부문을 포괄합니다. AI, 그리고 Tencent Security는 현재 Github에서 470,000명 이상의 개발자들의 관심과 좋아요를 받았습니다.

Tencent는 Hunyuan Wenshengtu 대형 모델이 오픈 소스라고 발표했습니다. Sora는 동일한 아키텍처를 가지며 상업적 용도로 무료로 사용할 수 있습니다.

자체 개발한 차세대 Vincent 다이어그램 모델

업계에 도움이 되는 포괄적인 오픈 소스

추천