GPT-4o가 출시되었고 사용자들은 즉시 이를 검토했습니다. OpenAI에 과장된 부분이 있나요?

오픈소스 중국 커뮤니티 팀이 공유라는 이름으로 오픈소스 중국 커뮤니티의 뒷이야기를 전하는 첫 생방송을 진행했습니다."

5월 14일 이른 아침, OpenAI는 많은 기대를 모았던 "봄 신제품 출시"에서 차세대 플래그십 세대 모델 GPT-4o와 데스크톱 앱을 출시하고 일련의 새로운 기능을 시연했습니다. 생방송 중 GPT-4o를 유저들에게 무료로 제공한다는 내용이 언급됐는데, 편집자는 아침에 서둘러 계정에 로그인했지만 보지 못했다. 이 모델이 아직 회색조에 있다고 추측한 Krypton Gold는 AI 평가 블로거로 변신하여 OpenAI에서 공식적으로 홍보하는 GPT-4o 모델을 구현했습니다! 행사! 시험! 확인하다!

우선 OpenAI 공식 블로그에서는 GPT-4o가 기존 모델에 비해 시각적, 청각적 이해력이 특히 뛰어나다고 언급했습니다.

편집자는 OpenAI 데모 영상을 보고 OpenAI 직원들이 GPT-4o와 친구처럼 영상 대화를 나누는 모습을 보고 정말 감동받았습니다! 한번 시도해 보고 싶습니다!

하지만!!! 아쉽게도 현재 일반 사용자에게는 영상 상호작용 기능이 제공되지 않습니다. 사진과 파일을 업로드해야만 ChatGPT와 상호작용할 수 있습니다.

또한, 공식 실시간 음성 번역 기능도 멜론을 먹는 사람들의 관심을 끌었다. OpenAI는 휴대폰을 통역기로 활용해 일반적으로 사용되는 약 20개 언어를 번역할 수 있다고 응답했다.

편집자가 시도해 보았는데 아직 실시간 음성 번역이 불가능하다는 사실을 발견했습니다... ChatGPT와 음성 상호 작용을 한 후에도 여전히 몇 초의 대기 시간이 있습니다.

OpenAI도 공식 블로그를 통해 "앞으로 몇 주 안에 API를 통해 소수의 신뢰할 수 있는 파트너에게 GPT-4o의 새로운 오디오 및 비디오 기능을 제공할 계획"이라고 밝혔습니다. 이 기능을 경험할 수 있는 방법은 없습니다. 공식 블로그 게시물에는 Vincent의 사진과 이미지, 음성 및 비디오 인식 기능도 게시되어 있습니다. 다음으로 편집기에서는 이러한 기능을 보여줍니다! 열려 있는! 측정! 논평! 공식 블로그의 입력 내용을 생성 프롬프트로 복사하고, 참고용으로 자체 생성 결과를 공식 생성 다이어그램과 비교했습니다~

만화 스토리보드: 로봇의 쓰기 병목 현상

한편, 이 효과 표시는 이미지에 대한 카피라이팅 생성 개선, 여러 이미지 생성 시 문자의 일관성을 유지하는 기능 등 GPT-4o의 강력한 이미지 생성 기능을 반영할 수 있습니다. 하지만 효과는...

첫 번째 사진을 보면 셀프 테스트를 통해 생성된 텍스트에 여전히 오타가 있고, 글씨체도 흐릿한 것을 확인할 수 있습니다.

두 번째 사진에서는 로봇의 손이 크게 바뀌어 일관성이 없고, 종이도 바뀌었습니다.

세 번째 사진은 기본적으로 합격인데, 종이에 적힌 글이 처음 두 사진과 전혀 다르네요...

만화 스토리보드: 우체부 샐리의 이야기

매우 좋은! GPT-4o는 공식 게시된 사진보다 더욱 아름다운 일본 코믹 스타일의 우체부 미녀를 탄생시켰다.

잠깐, 왜 그림 스타일이 바뀌었나요? 일본 만화는 왜 인형으로 변했고, 관점도 맞지 않나요?

세 번째 사진은 스타일이 다르네요. 개별 사진과 텍스트가 잘 일치하지만, 함께 일관된 이야기를 전달하기는 어렵습니다...

만화 아바타

다음 기능은 제가 가장 좋아하는 기능이자, GPT-4o의 최고 성능이기도 합니다. 당신을 위해 디자인된 만화 아바타를 갖고 싶다면 사진을 업로드하세요. 배경도 맞춤 설정할 수 있습니다.

OpenAI의 기술 담당자인 Alex Nichol의 원본 사진입니다.

이것은 GPT-4o에서 생성된 만화 아바타입니다. 자체 테스트는 공식 아바타만큼 현실적이지는 않지만 기본 특성도 복원합니다.

예술적 글꼴

효과는 정말 놀랍습니다. 공식 사진보다 더 좋습니다!

그런데 왜 글자 수가 점점 줄어들까요?

3D 렌더링

미적인 부분은 충분히 좋은데 로고가 이렇게 생겼어도 그대로 쓸 수 있을까요?

창의적인 타이포그래피

손글씨는 참 예쁜데, 글씨의 정확성은 아직 조금 아쉽네요...

캐릭터 감정인식

편집자는 감성이 풍부한 사람의 사진을 올렸고, GPT-4o는 그것을 매우 정확하게 인식하고 이야기도 구성했습니다.

회의 녹음 인식

편집자는 다인원 회의 녹음을 업로드하고 이 녹음에 몇 명이 포함되어 있는지 물었고 GPT-4o는 오디오 트랙 분석을 통해 답변을 제공했는데 약간 어이가 없었습니다...

전반적인 실제 경험으로 볼 때 현재 일반 사용자가 사용할 수 있는 GPT-4o는 광고만큼 사용하기 쉽지 않습니다. 편집자는 OpenAI가 공개한 영상이 내일의 주인공인 구글처럼 영상을 편집했다는 의혹을 의심하지 않지만, 분명히 영상 속 OpenAI 직원의 휴대폰에 사용된 GPT-4o는 제가 지금 사용하는 것과 다릅니다. 내부적으로도 외부적으로도 똑같을 것이기 때문에 우리는 그것을 기대할 수 밖에 없습니다.

관심을 환영합니다

"Trusted AI Progress" 공식 계정은 대규모 그래프 학습, 인과 추론, 지식 그래프, 대형 모델 및 기타 기술 분야를 다루는 신뢰할 수 있는 최신 인공 지능 기술의 보급과 오픈 소스 기술 육성에 전념하고 있습니다. QR 코드를 스캔하여 팔로우하고 더 많은 AI 정보를 잠금해제하세요~