[논문 분석] 강력한 텍스트에서 3D로의 생성을 위한 2D 확산의 편향성 제거 점수 및 프롬프트

여기에 이미지 설명 삽입
종이: https://arxiv.org/pdf/2303.15413.pdf

개요

여기에 이미지 설명 삽입

2. 점수 증류와 야누스 문제

밀도 함수: 균일하게 샘플링된 시점 집합 Π 및 사용자 프롬프트 ω가 주어집니다.
여기에 이미지 설명 삽입

이 공식을 사용함으로써 [27]( Score Jacobian Chaining: Lifting Pretrained 2D Diffusion Models for 3D Generation ) 과 달리 Jensen 부등식을 사용하지 않습니다 .

방정식의 각 변에 로그를 적용하면 다음과 같이 됩니다.

여기에 이미지 설명 삽입
체인 규칙을 사용하여 다음을 얻습니다.
여기에 이미지 설명 삽입
여기서 Z = |Π| 상수입니다. 괄호 안의 용어는 실질적으로 확산 모델에 의해 추정됩니다.

이는 다음과 같이 Bayes의 규칙을 적용하여 더욱 확장됩니다.
여기에 이미지 설명 삽입

  • 2D 확산 모델[5, 25]에 의해 모델링된 무조건 점수를 반영하는 첫 번째 그래디언트 항은 zθ에 노이즈가 있을 때 초기 3D 최적화 중에 특정 시점에서 가까이서 본 이미지에 영향을 미치는 바이어스를 포함합니다.
  • 방정식의 포즈 프롬프트 기울기. 4는 특정 카메라 포즈와 사용자 프롬프트를 더 잘 나타내도록 렌더링된 이미지를 구동하는 지침[3,6,7,25]입니다. 이 용어는 더 확장됩니다.
    여기에 이미지 설명 삽입
    여기서 C는 다음과 같이 정의됩니다. 이는 점별 조건부 상호 정보(PCMI)를 나타냅니다.
    여기에 이미지 설명 삽입
    여기에 이미지 설명 삽입

그림 2. 프레임워크의 그림. 관점에서 3D 매개변수의 견고하고 편향되지 않은 그래디언트를 추정하기 위해 프롬프트 및 점수 편향성 제거 기술을 제안합니다.

3. 점수 편향성 제거

여기에 이미지 설명 삽입

그림 3. 이 시각화는 잘못된 2D 점수로 인해 이 그림에서 추가 다리, 부리 및 뿔과 같은 중요한 아티팩트가 생성됨을 보여줍니다.

무조건 점수라면, 용어는 어떤 시청 방향으로 편향되어 있습니다. 연쇄법칙(Eq. 3)을 통해 생성된 객체의 3D 일관성 및 사실감에 부정적인 영향을 줄 수 있습니다.

사용자 프롬프트 기울기의 큰 크기는 3D 필드에서 렌더링된 이미지에 없는 텍스트 관련 아티팩트를 도입하여 문제를 일으킬 수도 있습니다.

이러한 아티팩트에는 비현실적이거나 3D 개체의 구조와 일치하지 않는 여분의 얼굴, 부리 및 뿔(그림 1 및 그림 3 참조)이 포함됩니다.

따라서 아티팩트를 줄이고 생성된 3D 객체의 사실성을 향상시키려면 이 그래디언트를 조정해야 합니다. 그러나 3D 필드로 유입되는 2D 바이어스는 더 나은 최적화 및 3D 일관성을 위해 공식화되거나 조정되지 않았습니다.

2D-to-3D 점수의 동적 임계값.

우리는 예측된 2D 점수에서 편향과 아티팩트의 영향을 완화하기 위해 동적으로 점수를 자르는 효과적인 방법을 제안합니다. 구체적으로 최적화 전체에서 잘림 값을 선형으로 증가시킵니다.
여기에 이미지 설명 삽입
여기에 이미지 설명 삽입

4. 신속한 편향성 제거

언어 모델을 활용한 모순 식별.

Prompt Gradient 항은 Eq. 5

여기에 이미지 설명 삽입

그림 4. Stable Diffusion [18]의 샘플은 모순된 텍스트 프롬프트가 주어집니다. 프롬프트에 "Back view of"가 주어졌음에도 불구하고 프롬프트에 "smiling"이라는 단어가 있으면 확산 모델이 물체의 정면을 향해 편향됩니다.

우리는 마스킹된 언어 모델링(MLM)으로 훈련된 언어 모델을 사용하여 모순을 식별하는 방법을 제안합니다. 구체적으로 V는 가능한 보기 프롬프트 집합을 나타내고 U는 크기 2의 집합이라고 가정합니다. 이 집합은 간결성을 위해 사용자 프롬프트에 단어의 존재 여부를 포함합니다. 그런 다음 다음을 계산합니다.
여기에 이미지 설명 삽입
P(u)는 사용자 정의 충실도입니다. P(u) = 1이면 사용자 프롬프트에서 단어가 제거되지 않습니다.
등식 7은 점별 상호 정보(PMI)와 같습니다.

여기에 이미지 설명 삽입

보기 프롬프트와 개체 공간 포즈 간의 불일치를 줄입니다.

"전면 보기"의 방위각 범위를 절반으로 줄이는 등 보기 프롬프트의 범위를 실질적으로 조정합니다. 또한 개선된 결과를 제공하는 정확한 보기 프롬프트[16, 27]를 검색합니다.

5. 베이스라인과의 비교

그림 1의 정성적 결과에서 볼 수 있듯이 우리의 방법은 3D 객체의 뷰 불일치를 줄이고 소위 Janus 문제를 완화합니다. 이 개선 사항은 기준선에 비해 오버헤드가 거의 없습니다.

여기에 이미지 설명 삽입

그림 1. 기준선(SJC [27])과 우리의 비교. 우리의 편향성 제거 방법은 제로 샷 텍스트-3D 및 소위 Janus 문제에서 보기 불일치를 질적으로 줄입니다.

우리의 방법은 70개의 프롬프트를 기반으로 하는 표 1에 설명된 대로 기준선보다 더 일관된 3D 개체를 생성합니다. 프롬프트에서 모순을 제거하면 더 나은 결과를 얻을 수 있습니다.

여기에 이미지 설명 삽입

표 1. 정량적 평가. 가장 좋은 값은 굵게 표시되고 두 번째로 좋은 값은 밑줄이 그어져 있습니다. 보존됨은 사용자 프롬프트가 보존됨을 의미합니다. 즉, 모든 u에 대해 P(u) = 1입니다.

여기에 이미지 설명 삽입

그림 5. 프롬프트 및 점수 편향성 제거를 통한 보기 일관성 개선. 기준선은 원본 SJC[27]이며 Prompt 및 Score는 각각 프롬프트 및 점수 편향 제거를 나타냅니다. 주어진 사용자 프롬프트는 "웃는 고양이"이며 이미지는 임의의 시점에서 렌더링됩니다.

그림 5는 뷰 일관성을 점진적으로 개선하고 의도한 대로 아티팩트를 줄인다는 것을 보여줍니다.

결론

이 논문에서는 제로 샷 텍스트-3D 생성에서 야누스 문제의 원인을 공식화하고 식별합니다. 이러한 관점에서 우리는 프롬프트와 원시 2D 점수의 편향성 제거가 현실적인 생성에 필수적이라고 주장합니다. 따라서 우리는 품질을 높이고 3D 감독 없이 기존 프레임워크에 거의 오버헤드 없이 적용할 수 있는 두 가지 방법을 제안하여 이 유망한 분야에서 향후 연구 가능성을 보여줍니다.

추천

출처blog.csdn.net/NGUever15/article/details/129981320