이전에 동시통역 효과를 간단하게 보여드리기 위해 영상을 몇개 올린 적이 있습니다. (그래픽카드는 Tesla P40 으로 효과는 상대적으로 떨어지지만 기능은 괜찮습니다.)
Vrchat은 실시간 번역 및 음성 출력을 시도합니다_bilibili_bilibili
구현 아이디어 및 관련 구성을 적습니다. (아이디어를 기반으로 다른 소프트웨어나 웹사이트를 사용할 수 있습니다.)
물론 이 세트는 다른 소프트웨어나 VR에서도 사용할 수 있습니다.
사전 환경
로컬에서 사용되는 그래픽카드는 Tesla P40 입니다.
우분투 22.04.3 LTS,
콘다 관리,
파이썬3.9.16,
서버에 프록시가 구성되어 있습니다.
원활한 스트리밍은 ws를 사용하기 때문에 원격 액세스에는 https가 필요하므로 openssl 자체 서명 인증서를 사용한 다음 역방향 프록시를 열어야 합니다. (이 노트에서는 원활한 스트리밍 배포에 대해 설명하지 않습니다. 여기서는 주로 실제 적용 아이디어와 방법을 설명합니다.)
중요한 소프트웨어
1.음성미터(음성변환마이크)
2. 소거병음 입력방식(상상도 못했는데)이 실시간으로 외국어를 중국어로 번역해줍니다
3. 원활한 스트리밍, 직접 구축하거나 다른 실시간 TTS 서비스(속삭임 데스크톱 + NetEase Monster 또는 짖음 등)를 사용해야 하지만 기본적으로 지속적인 웹소켓 변환은 없다고 생각합니다. 말하고 클릭해야 합니다. 마이크를 직접 사용하거나) 비용을 지불하고 Microsoft를 사용하세요. itranslate 종류(아직 연구하지 않았습니다)
4. (선택 사항) 보이스 체인저, 저는 sovits 모델이 필요한 보이스 체인저를 사용했습니다.
5.
보이스 체인저가 필요한 경우 사이트 b에서 검색할 수 있습니다. 많은 튜토리얼이 있습니다.
입력(외국어 번역 중국어)
입력변환 과정은
간단히 vrchat->음성측정기->소거병음 입력방법 음성입력->txt파일 입니다.
음성 회의 및 vrchat 구성에 중점을 둡니다.
vrchat 사운드 구성
1.vrchat 사운드 구성
이 사운드 구성은 시스템->사운드->볼륨 신디사이저에 있습니다.
2.음성회의 구성
목소리를 바꾸고 싶다면 사진 버전(가상 사운드 카드 3개)을 사용하세요. 그렇지 않으면 바나나가 할 것입니다. 가상 사운드 카드 2개를 사용하세요.
음성 회의 구성에 대해서는
첫 번째 항목을 살펴보세요.
A2를 체크하면 소리가 물리적인 사운드 카드(오른쪽의 A2로 구성된 사운드 카드)로 출력된다는 뜻인데, 여기서는 원음을 듣고 싶어서 헤드폰을 선택했습니다.
B1을 체크한다는 것은 보이스미터가 사운드를 가상 마이크 드라이버인 보이스미터 VAIO OUTPUT으로 변환한다는 뜻인데, B2는 가상 마이크 AUX OUTPUT에, B3는 VAIO3 OUTPUT에 해당합니다.
구성 디버깅 참조
구성이 성공한 후 볼륨이 변동하면 해당 출력이 발생합니다.
3. Sogou의 입력 구성
이렇게 해서 소리가 소고우에게 전달됩니다.(실제로 직접 해보셔도 됩니다. 원래 영상을 녹화해 두었는데 고민 끝에 타이핑을 하기로 했습니다.)
출력 (끊김없는 스트리밍을 기반으로 중국어를 영어로 말함)
구현 프로세스
원활한 스트리밍 설치에 관해서는 메타의 공식 Readme를 따르세요. 그런 다음 약간의 Python만 알면 됩니다.
주소는 https://huggingface.co/spaces/facebook/seamless-streaming/tree/main
이며 프로젝트는 readme 파일과 함께 제공됩니다.
그런데 이 원활한 스트리밍은 실제로 감정을 번역할 수 있으며(단, 모델을 신청해야 함) 대체 바크도 사용할 수 있습니다.
그런 다음 브라우저의 사운드 구성이 있습니다(VR을 사용하는 경우 외부 입력을 가상 데스크톱 또는 Oculus 헤드폰으로 변경하면 됩니다 ).
vocie Meeter의 구성을 다시 표시합니다.
여기서 보이스미터 구성은
기본적으로 끝났고 vrchat에서 직접 마이크 설정을 할 수 있습니다.
물론 VAIO3를 사용할 때
나 같은 사람은 한 가지를 더 추가하게 되는데, 바로 보이스 체인저 구성이다.
보이스 체인저 클라이언트 구성
물론 vrchat의 마이크도 변경되어야 합니다.
보조
효과를 이용해 직접 경험해 보세요! (그냥 목소리가 좀 멍청해서 그런거임)