2022년 말 ChatGPT 등장 이후 인공지능은 다시 한번 전 세계의 화두가 되었고, LLM(Large Language Model) 기반의 AI는 인공지능 분야의 '핫 치킨'이 됐다. 그로부터 1년 동안 우리는 Wensheng 텍스트와 Wensheng 사진 분야에서 AI의 급속한 발전을 목격했지만 Wensheng 비디오 분야의 발전은 상대적으로 느렸습니다. 2024년 초, OpenAI는 다시 한 번 블록버스터인 Vincent의 비디오 모델 Sora를 출시했습니다. 콘텐츠 제작 퍼즐의 마지막 조각이 AI에 의해 완성되었습니다.
1년 전, 스미스가 국수를 먹는 영상이 SNS에 화제가 됐다. 사진 속 배우는 흉측한 얼굴과 기형적인 이목구비, 뒤틀린 자세로 스파게티를 먹고 있는 모습이었다. 이 끔찍한 사진은 당시 AI가 생성한 영상 기술이 아직 초기 단계에 불과했음을 상기시켜 줍니다.
불과 1년 뒤, 소라가 생성한 '도쿄의 거리를 걷는 패셔니스타 여성들'의 AI 영상이 다시 한 번 소셜미디어를 뜨겁게 달궜다. 이듬해 3월, 소라는 전 세계 예술가들과 힘을 합쳐 전통을 뒤흔드는 초현실적인 예술 단편영화 시리즈를 공식 출시했습니다. 다음 단편 영화 "에어 헤드"는 유명한 감독 월터와 소라가 제작했습니다. 그림은 절묘하고 생생하며 내용은 거칠고 상상력이 풍부합니다. 소라는 데뷔 당시 Gen-2, 피카, Stable Video Diffusion 등 주류 AI 영상 모델을 '박살'했다고 할 수 있다.
AI의 진화는 예상보다 훨씬 빠르다. 짧은 미래에 단편영화, 게임, 영화와 TV, 광고 등 기존 산업 구조가 재편될 것이라는 점은 쉽게 예측할 수 있다. 소라의 등장으로 우리는 세계 건설 모델에 한 걸음 더 가까워진 것 같습니다.
소라가 왜 그렇게 강력한 마법을 가지고 있는 걸까요? 어떤 마법 기술을 사용하나요? 공식 기술 보고서와 많은 관련 문서를 검토한 후 저자는 이 기사에서 Sora의 기술 원리와 성공의 열쇠를 설명할 것입니다.
1 소라가 해결하고 싶은 핵심 문제는 무엇입니까?
한 문장으로 요약하면, Sora가 직면한 과제는 통합 훈련을 수행할 수 있도록 여러 유형의 시각적 데이터를 통합 표현 방법으로 변환하는 방법입니다.
통일된 교육이 필요한 이유는 무엇입니까? 이 질문에 답하기 전에 먼저 Sora의 이전 주류 AI 비디오 생성 아이디어를 살펴보겠습니다.
1.1 소라 이전 시대의 AI 영상 생성 방식
- 단일 프레임 이미지 콘텐츠를 기반으로 확장
단일 프레임 이미지를 기반으로 한 확장은 현재 프레임의 내용을 사용하여 다음 프레임을 예측합니다. 각 프레임은 이전 프레임의 연속이므로 연속적인 비디오 스트림을 형성합니다. (비디오의 본질은 프레임별로 연속적으로 표시되는 이미지입니다.) .
이 과정에서 일반적으로 텍스트 설명을 사용하여 이미지를 생성하고, 이미지를 기반으로 동영상을 생성합니다. 그러나 이 아이디어에는 문제가 있습니다. 텍스트를 사용하여 이미지를 생성하는 것 자체가 무작위이며, 이미지를 사용하여 비디오를 생성할 때 이러한 무작위성이 두 배로 증폭되고 최종 비디오의 제어 가능성과 안정성이 매우 낮습니다.
- 전체 비디오에서 직접 훈련
단일 프레임 도출을 기반으로 한 영상 효과가 좋지 않아 전체 영상을 학습시키는 것으로 아이디어가 변경되었습니다.
여기서는 일반적으로 몇 초 분량의 비디오 클립을 선택하고 모델에게 비디오가 보여주는 내용을 설명합니다. 많은 훈련을 거친 후 AI는 훈련 데이터와 스타일이 유사한 비디오 클립을 생성하는 방법을 배울 수 있습니다. 이 아이디어의 결점은 AI가 학습한 콘텐츠가 단편화되어 있고, 긴 영상을 생성하기 어렵고, 영상의 연속성이 좋지 않다는 점이다.
어떤 사람들은 교육을 위해 더 긴 비디오를 사용하는 것이 어떻냐고 물을 수도 있습니다. 주된 이유는 동영상이 텍스트나 사진에 비해 용량이 매우 크고, 그래픽 카드의 동영상 메모리가 제한되어 있어 더 긴 동영상 학습을 지원할 수 없기 때문입니다. 다양한 제약으로 인해 AI의 지식량은 극도로 제한되어 있으며, "모르는" 내용을 입력하면 생성된 결과가 만족스럽지 못한 경우가 많습니다.
따라서 AI 영상의 병목 현상을 돌파하려면 이러한 핵심 문제를 해결해야 합니다.
1.2 비디오 모델 훈련의 과제
비디오 데이터는 가로 화면에서 세로 화면, 240p에서 4K까지 다양한 형태로 제공되며 다양한 종횡비, 다양한 해상도, 다양한 비디오 속성을 제공합니다. 데이터의 복잡성과 다양성은 AI 훈련에 큰 어려움을 가져오고, 이는 결국 모델 성능 저하로 이어집니다. 이것이 바로 이러한 비디오 데이터가 먼저 통일된 방식으로 표현되어야 하는 이유입니다.
Sora의 핵심 작업은 모든 비디오 데이터가 통합된 프레임워크 하에서 효과적으로 학습될 수 있도록 여러 유형의 시각적 데이터를 통합된 표현 방법으로 변환하는 방법을 찾는 것입니다 .
1.3 Sora: AGI를 향한 이정표
우리의 임무는 인공 일반 지능이 모든 인류에게 혜택을 줄 수 있도록 하는 것입니다. —— 오픈AI
OpenAI의 목표는 늘 인공지능(AGI) 달성이라는 것이 명확했는데, OpenAI의 목표 달성에 있어서 소라의 탄생은 어떤 의미를 갖는가?
AGI를 구현하려면 대형 모델이 세계를 이해해야 합니다. OpenAI 개발 과정에서 초기 GPT 모델은 AI가 텍스트(1차원, 길이만)를 이해할 수 있게 했고, 이후 출시된 DALL·E 모델은 AI가 이미지(2차원, 길이와 너비)를 이해할 수 있게 되었고, 현재는 Sora 모델이 있다. AI가 영상(3차원, 길이, 너비, 시간)을 이해할 수 있도록 해줍니다.
AI는 텍스트, 이미지, 동영상에 대한 포괄적인 이해를 통해 점차적으로 세상을 이해할 수 있습니다. Sora는 AGI에 대한 OpenAI의 전초기지입니다. 기술 보고서[1]의 제목에서 "세계 시뮬레이터로서의 비디오 생성 모델"이라고 표시된 것처럼 단순한 비디오 생성 모델 이상입니다.
Tuoshupai의 비전은 OpenAI의 목표와 일치합니다. 확장주의자들은 인간 사회와 개인 지능을 모델링하기 위해 소수의 기호와 계산 모델을 사용하는 것이 초기 AI의 토대를 마련했지만 더 많은 배당금은 더 많은 양의 데이터와 더 높은 컴퓨팅 성능에 달려 있다고 믿습니다. 획기적인 새 모델을 구축할 수 없을 때 더 많은 데이터 세트를 찾고 더 큰 컴퓨팅 성능을 사용하여 모델의 정확성을 높이고, 데이터 컴퓨팅 성능을 모델 성능으로 교환하고, 데이터 컴퓨팅 시스템의 혁신을 주도할 수 있습니다. Tuoshupai가 출시한 대규모 모델 데이터 컴퓨팅 시스템에서 AI 수학적 모델, 데이터 및 계산은 이전과는 전혀 다른 방식으로 원활하게 연결되고 상호 강화되어 사회의 고품질 발전을 촉진하는 새로운 생산력이 될 것입니다[2].
2 소라 원리 해석
소라가 빈센트 영상 모델을 처음으로 공개한 것은 아닌데, 왜 이렇게 파문을 일으키고 있는 걸까요? 그 뒤에 숨겨진 비밀은 무엇입니까? 소라의 훈련 과정을 한 문장으로 표현하면, 원본 영상을 시각적 인코더를 통해 잠재 공간으로 압축한 후 시공간 패치로 분해하고, 이를 텍스트와 결합해 조건부 제약 조건을 사용하여 확산 훈련을 수행하고 변환기를 통해 생성된 시공간을 생성합니다. 이미지 블록은 최종적으로 해당 시각적 디코더를 통해 픽셀 공간에 다시 매핑됩니다.
2.1 비디오 압축 네트워크
Sora는 먼저 원시 비디오 데이터를 저차원 잠재 공간 기능으로 변환합니다. 우리가 매일 보는 영상 데이터는 너무 방대하기 때문에 먼저 AI가 처리할 수 있는 저차원 벡터로 변환해야 합니다. 여기에서 OpenAI는 고전적인 논문인 잠재 확산 모델[3]을 활용합니다.
본 논문의 핵심은 원본 이미지를 잠재 공간 특징으로 정제하는 것인데, 이는 원본 이미지의 주요 특징 정보를 유지할 수 있을 뿐만 아니라 데이터와 정보의 양을 크게 압축할 수 있습니다.
OpenAI는 비디오 데이터 처리를 지원하기 위해 본 논문의 이미지용 VAE(Variable Autoencoder)를 업그레이드했을 가능성이 높습니다. 이러한 방식으로 Sora는 대량의 원본 비디오 데이터를 저차원 잠재 공간 특징으로 변환할 수 있습니다. 즉, 비디오의 핵심 콘텐츠를 나타낼 수 있는 비디오 내 핵심 핵심 정보를 추출할 수 있습니다.
2.2 시공간 패치
대규모 AI 영상 훈련을 진행하기 위해서는 먼저 훈련 데이터의 기본 단위를 정의해야 한다. LLM(대규모 언어 모델)에서 학습의 기본 단위는 토큰[4]입니다. OpenAI는 ChatGPT의 성공에서 영감을 얻었습니다. 토큰 메커니즘은 코드, 수학 기호, 다양한 자연 언어 등 다양한 형태의 텍스트를 우아하게 통합합니다.
이전 연구 결과 덕분에 소라는 마침내 답인 패치를 찾았습니다.
- 비전 트랜스포머(ViT)
패치란 무엇입니까? 패치는 구어체로 이미지 블록으로 이해될 수 있습니다. 처리할 이미지의 해상도가 너무 크면 직접 트레이닝하는 것이 실용적이지 않습니다. 따라서 Vision Transformer[5] 논문에서는 원본 이미지를 동일한 크기의 이미지 블록(Patch)으로 분할한 다음 이러한 이미지 블록을 직렬화하고 위치 정보를 추가(Position Embedding)하는 방법을 제안합니다. Self-Attention 메커니즘을 사용하여 각 이미지 블록 간의 관계를 캡처하고 궁극적으로 전체 이미지의 내용을 이해함으로써 Transformer 아키텍처에서 가장 친숙한 시퀀스로 변환될 수 있습니다.
ViT 모델의 프레임워크 구조[5]
비디오는 시간 축을 따라 분포된 일련의 이미지로 볼 수 있으므로 Sora는 시간의 차원을 추가하여 정적 이미지 블록을 시공간 이미지 패치(Spacetime Patches)로 업그레이드합니다. 각 시공간 이미지 블록은 시간적 정보와 영상 속 공간 정보를 모두 담고 있다. 즉, 시공간 이미지 블록은 영상 속 작은 공간 영역을 나타낼 뿐만 아니라, 이 공간 영역의 일정 기간에 걸친 변화도 표현한다. 시간.
패치 개념을 도입함으로써 단일 프레임 내 서로 다른 위치의 시공간 이미지 블록에 대해 공간적 상관관계를 계산할 수 있으며, 연속 프레임의 동일한 위치에 있는 시공간 이미지 블록에 대해 시간적 상관관계를 계산할 수 있습니다. 각 이미지 블록은 더 이상 고립되어 존재하지 않고 주변 요소와 밀접하게 연결되어 있습니다. 이러한 방식으로 Sora는 풍부한 공간적 세부 사항과 시간적 역동성을 갖춘 비디오 콘텐츠를 이해하고 생성할 수 있습니다.
시퀀스 프레임을 시공간 이미지 블록으로 분해
- 기본 해상도(NaViT)
그러나 ViT 모델에는 매우 큰 단점이 있습니다. 원본 이미지는 정사각형이어야 하고 각 이미지 블록은 동일한 고정 크기를 가져야 합니다. 일일 영상은 가로형과 세로형만 있고 정사각형 영상은 없습니다.
따라서 OpenAI는 모든 해상도와 종횡비의 입력 콘텐츠를 처리할 수 있는 NaViT의 "Patch n' Pack" 기술 [6] 이라는 또 다른 솔루션을 찾았습니다.
이 기술은 서로 다른 종횡비와 해상도를 가진 콘텐츠를 이미지 블록으로 분할합니다. 이러한 이미지 블록은 다양한 요구에 따라 크기를 조정할 수 있으며 통합 교육을 위해 동일한 순서로 유연하게 패키징할 수 있습니다. 또한, 이 기술은 이미지의 유사성을 기반으로 동일한 이미지 블록을 폐기할 수도 있어 훈련 비용을 크게 줄이고 더 빠른 훈련을 달성할 수 있습니다.
패치앤팩 기술[6]
이것이 바로 Sora가 다양한 해상도와 종횡비의 비디오 생성을 지원할 수 있는 이유입니다. 또한 기본 화면비를 사용한 교육은 출력 비디오의 구성 및 프레이밍을 향상시킬 수 있습니다. 왜냐하면 자르기는 필연적으로 정보를 손실하고 모델이 원본 이미지의 주요 내용을 쉽게 오해하여 주요 내용의 일부만 있는 그림이 되기 때문입니다. 몸.
Spacetime Patches의 역할은 영상의 기본 단위인 Token의 역할과 동일합니다. 영상을 일련의 시공간 패치로 압축하고 분해하면 실제로 연속적인 시각적 정보를 모델 학습 및 생성의 기초가 되는 모델에서 처리할 수 있는 일련의 개별 단위입니다.
2.3 비디오 텍스트 설명
위의 설명을 통해 Sora가 원본 비디오를 최종 훈련 가능한 시공간 벡터로 변환하는 과정을 이해했습니다. 하지만 실제 훈련 전에 해결해야 할 한 가지 문제가 있습니다. 모델에게 이 비디오의 내용을 알려주는 것입니다.
Wensheng 비디오 모델을 훈련하려면 텍스트와 비디오 간의 일치성을 설정해야 합니다 . 훈련 중에는 해당 텍스트 설명이 포함된 많은 수의 비디오가 필요하지만 수동으로 주석을 추가한 설명의 품질은 낮고 불규칙합니다. 훈련 결과. 이에 OpenAI는 자사의 DALL·E 3에서 재자막 기술[7]을 차용해 영상 분야에 적용했다.
구체적으로 OpenAI는 먼저 고도로 설명적인 자막 생성 모델을 훈련하고 이 모델을 사용하여 사양에 따라 훈련 세트의 모든 비디오에 대한 자세한 설명 정보를 생성했습니다. 텍스트 설명 정보 중 이 부분은 최종 단계에서 앞서 언급한 시공간 이미지 패치와 결합되었습니다. 학습 매칭과 학습을 통해 소라는 텍스트 설명과 영상 이미지 블록을 이해하고 대응할 수 있습니다.
또한 OpenAI는 GPT를 사용하여 사용자의 간단한 프롬프트를 훈련 중과 유사한 보다 자세한 설명 문장으로 변환합니다. 이를 통해 Sora는 사용자의 프롬프트를 정확하게 따르고 고품질 비디오를 생성할 수 있습니다.
2.4 비디오 훈련 및 생성
공식 기술 보고서 [1] 에는 Sora가 확산 변압기, 즉 Sora가 Transformer를 백본 네트워크로 사용하는 확산 모델이라는 것이 명확하게 언급되어 있습니다.
- 브로드캐스트 트랜스포머(DiT)
확산의 개념은 물리학의 확산 과정에서 유래합니다. 예를 들어 잉크 한 방울이 물에 떨어지면 시간이 지남에 따라 천천히 퍼지게 됩니다. 이 확산은 잉크가 낮은 엔트로피에서 높은 엔트로피로 진행되는 과정임을 알 수 있습니다. 한 방울에서 물의 여러 부분으로 점차적으로 분산됩니다.
이러한 확산 과정에서 영감을 받아 확산 모델이 탄생했습니다. 이는 Stable Diffusion 및 Midjourney의 기반이 되는 고전적인 "드로잉" 모델입니다. 기본 원리는 원본 이미지에 점차적으로 노이즈를 추가하여 점차적으로 완전한 노이즈 상태가 되도록 한 다음 이 프로세스를 역전시키는 것, 즉 노이즈 제거(Denoise)를 통해 이미지를 복원하는 것입니다. 모델이 수많은 반전 경험을 학습하게 함으로써 모델은 결국 노이즈 이미지에서 특정 이미지 콘텐츠를 생성하는 방법을 학습합니다.
보고서에 따르면 Sora의 방법은 원래 Diffusion 모델의 U-Net 아키텍처를 그에게 가장 친숙한 Transformer 아키텍처로 대체할 가능성이 높습니다. 다른 딥러닝 작업 경험에 따르면 U-Net에 비해 Transformer 아키텍처의 매개변수 확장성이 높기 때문에 Transformer 아키텍처의 성능 향상이 더욱 분명해집니다.
DiT 모델 아키텍처[8]
확산 모델과 유사한 프로세스를 통해 훈련 중에 노이즈 패치(및 텍스트 프롬프트와 같은 조건부 정보)가 제공되고, 노이즈가 반복적으로 추가되고 노이즈 제거되며, 마지막으로 모델은 원래 패치를 예측하는 방법을 학습합니다.
노이즈 패치를 원본 이미지 패치로 복원
- 영상 생성 과정
마지막으로 소라가 텍스트로부터 영상을 생성하는 전체 과정을 요약한다.
사용자가 텍스트 설명을 입력하면 Sora는 먼저 모델을 호출하여 이를 표준 비디오 설명 문장으로 확장한 다음 설명을 기반으로 노이즈로부터 초기 시공간 이미지 블록을 생성합니다. 그런 다음 Sora는 계속해서 비디오를 생성합니다. 기존 시공간 이미지 블록과 텍스트 조건을 기반으로 다음 시공간 이미지 블록이 생성될 것으로 추측하고(GPT가 기존 토큰을 기반으로 다음 토큰을 예측하는 것과 유사) 최종적으로 생성된 잠재적 표현을 다시 매핑합니다. 비디오를 형성하기 위해 해당 디코더를 통해 픽셀 공간.
3 데이터 컴퓨팅의 잠재력
Sora의 기술 보고서를 보면 실제로 Sora가 기술 분야에서 큰 진전을 이루지는 못했지만 이전 연구 작업을 잘 통합했다는 것을 알 수 있습니다. 결국 어떤 기술도 갑자기 등장하지는 않습니다. 소라의 성공에 있어 더욱 결정적인 이유는 컴퓨팅 파워와 데이터의 축적이다.
Sora는 훈련 과정에서 명백한 규모 효과를 보여줍니다. 아래 그림은 고정 입력과 시드의 경우 계산량이 증가함에 따라 생성된 샘플의 품질이 크게 향상된다는 것을 보여줍니다.
기본 컴퓨팅 파워, 4배 컴퓨팅 파워, 32배 컴퓨팅 파워에서의 효과 비교
게다가, 소라는 많은 양의 데이터를 통해 학습함으로써 예상치 못한 능력도 발휘했습니다.
Ø 3D 일관성: Sora는 역동적인 카메라 움직임으로 비디오를 생성할 수 있습니다. 카메라가 움직이고 회전함에 따라 캐릭터와 장면 요소는 3차원 공간에서 항상 일관된 움직임 패턴을 유지합니다.
Ø 장기적 일관성과 객체 지속성: 롱 샷에서 사람, 동물, 객체는 가려지거나 프레임을 떠난 후에도 일관된 모습을 유지합니다.
Ø세계 상호작용성: Sora는 간단한 방법으로 세계 상태에 영향을 미치는 행동을 시뮬레이션할 수 있습니다. 예를 들어 그림을 설명하는 비디오에서 각 획은 캔버스에 표시를 남깁니다.
Ø 디지털 세계 시뮬레이션 : Sora는 "Minecraft"와 같은 게임 비디오도 시뮬레이션할 수 있습니다.
이러한 속성은 3D 개체 등에 대한 명시적인 유도 바이어스를 필요로 하지 않으며 순전히 규모 효과의 현상입니다.
4 Tuoshupai 대형 모델 데이터 컴퓨팅 시스템
Sora의 성공은 "더 큰 힘이 기적을 만든다" 전략의 효과를 다시 한 번 입증합니다. 모델 규모의 지속적인 확장은 수많은 고품질 데이터 세트와 초고성능 데이터 세트에 크게 의존하는 성능 개선을 직접적으로 촉진할 것입니다. 대규모 컴퓨팅 성능 은 필수입니다.
Tuoshupai는 설립 초기에 "데이터 컴퓨팅, 오직 새로운 발견만을 위한 것"을 사명으로 삼았고, 우리의 목표는 "무한한 모델 게임"을 만드는 것입니다. 대형 모델 데이터 컴퓨팅 시스템은 클라우드 네이티브 기술을 사용하여 단일 스토리지와 다중 엔진 데이터 컴퓨팅을 통해 데이터 스토리지와 컴퓨팅을 재구성하고 AI 모델을 더 크고 빠르게 만들고 빅 데이터 시스템을 대형 모델 시대로 종합적으로 업그레이드합니다.
대형 모델 데이터 컴퓨팅 시스템에서는 세상의 모든 것과 그 움직임이 데이터로 디지털화될 수 있으며, 학습된 모델은 계산 규칙을 형성한 후 데이터 컴퓨팅 시스템에 추가됩니다. 프로세스는 AI 인텔리전스를 계속 반복하고 무한히 탐색합니다. 앞으로도 Tuoshupai는 계속해서 데이터 분야를 탐구하고, 핵심 기술 연구 역량을 강화하고, 업계 파트너와 협력하여 데이터 요소 산업의 모범 사례를 탐색하고, 디지털 지능형 의사 결정을 촉진할 것입니다.
참고: OpenAI의 공식 기술 보고서는 일반적인 모델링 방법만 보여주고 구현 세부 사항은 포함하지 않습니다. 만약 이 글에 오류가 있으면 바로잡아주시고 연락주시기 바랍니다.
참고자료:
- [1] 월드 시뮬레이터로서의 비디오 생성 모델
- [2] 대형모델 데이터 컴퓨팅 시스템 - 이론
- [3] 잠재 확산 모델을 사용한 고해상도 이미지 합성
- [4] 주의가 필요한 전부입니다
- [5] 이미지는 16×16 단어의 가치가 있습니다: 대규모 이미지 인식을 위한 변환기
- [6] Patch n'Pack: 모든 종횡비 및 해상도를 지원하는 비전 변환기 NaViT
- [7] 더 나은 캡션으로 이미지 생성 개선
- [8] 변압기를 사용한 확장 가능한 확산 모델