Dingding 오디오 및 비디오 전문가 Feng Jinwei와의 대화: 큰 모델이 전부는 아닙니다.

1e5a07e6e6ae2b33a54ba3d44212e232.jpeg

큐레이터: LiveVideoStack

오디오 및 비디오 기술 분야에서 ICASSP 컨퍼런스는 업계를 위한 풍향계 컨퍼런스이자 음성 분야 실무자들이 차세대 기술 개발을 연구하는 잔치이기도 합니다. 최근 국내외 주요 기업들이 학회 참가 논문 발표 소식을 연달아 발표했고, Dingding Hummingbird Audio Lab의 논문 2편도 ICASSP2023에 합류했다.

그 중 연구소는 "AI 모델을 사용하여 에코, 노이즈 및 잔향의 세 가지 간섭음을 동시에 제거"하는 새로운 연구를 제안하여 계산 및 대역폭을 절약하고 지연을 줄이고 음질을 향상시킬 수 있습니다. 우리는 이 연구가 어떤 문제를 해결할 수 있는지, 어떤 효과를 얻을 수 있는지, 어떤 시나리오에서 사용할 수 있는지에 관심이 많습니다.

또한 AIGC 기술의 출현으로 모든 산업은 인간-컴퓨터 상호 작용 경험의 혁명에 직면해 있습니다. 우리가 주목하는 또 다른 초점은 오디오 및 비디오 분야에 대한 대형 모델 개발의 영향입니다. 이 두 가지 요소를 바탕으로 최근 국내 오디오 및 비디오 분야의 전문가인 Dingding Hummingbird Laboratory의 책임자인 Feng Jinwei 박사와 소통했습니다.

Feng Jinwei와 대화하는 동안 우리는 그들의 팀이 소음 감소, 반향 제거 및 잔향에 자체 개발한 AI 모델을 사용했을 뿐만 아니라 이제 Dingding 회의 소프트웨어, 회의실 및 Dingding 회의 올인원 머신에 상륙했다는 사실을 알게 되었습니다. F1/F2, 그리고 기술 개방 과정에서 오프라인 회의에서 너무 멀리 앉아 있을 때 들리지 않는 문제를 해결하기 위해 독창적인 마이크 어레이 기술을 만들어 업계에서 큰 관심을 끌었습니다.

Feng Jinwei는 AIGC와 미래 기술 혁명에 대해 이야기할 때 AIGC가 업계에 미치는 영향이 그다지 크지 않다고 말했습니다. AIGC 추론 및 생성.음향 및 기본 알고리즘 수준에서 우리는 AI를 사용하여 "현실을 복원"하는 데 더 많은 관심을 기울이고 수집된 오디오 및 비디오 정보를 오프라인 회의에서 가능한 한 존재감으로 복원합니다. 오디오 처리의 세 가지 주요 문제인 반향 제거, 노이즈 감소 및 반향 제거를 해결합니다.

Feng Jinwei의 관점에서 Hummingbird Lab의 포지셔닝은 회의의 지능형 요약과 같은 대규모 모델 트랙에서 애플리케이션 시나리오를 결합할 수 있는 동시에 다음을 잘 수행하는 팀입니다. 엔지니어링 및 음향 원리를 개발할 수 있습니다., 소프트웨어 및 하드웨어 제품의 전체 프로세스 기술에 대한 신호 처리. 이러한 기술은 AI와 관련이 있지만 큰 모델은 아닙니다. "딥 러닝으로 대표되는 AI 기술의 발전과 성숙은 핵심 오디오 및 비디오 기술의 돌파구를 위한 새로운 방향을 제시할 것입니다. 기존 기술로 해결할 수 없는 문제는 AI 감소와 같은 AI. 시끄럽다.

이 기사는 LiveVideoStack과 Feng Jinwei 간의 대화에서 편집되었으며 다음은 편집 및 삭제되었습니다.

1. AI의 도래가 오디오 및 비디오 산업에 가져올 새로운 놀라움은 무엇입니까? 병렬 클라우드와 메타버스

  1.  LiveVideoStack: 현재 호황을 누리고 있는 ChatGPT, 대형 모델 및 AIGC와 같은 새로운 개념과 기술에 대해 어떻게 생각하십니까?

Feng Jinwei: 우선, 우리는 AIGC가 가져온 가치를 확인해야 합니다.메타버스의 돌풍과 달리 AIGC는 카피라이터가 창의력을 향상시키는 데 도움을 주는 등 많은 산업에 실질적인 가치를 가져올 수 있습니다. 이제 AI는 예비 일반 인공 지능 AGI를 가지고 있으며 이는 이전과 질적 차이입니다.

현재 인간은 예비적인 일반 인공지능만을 가지고 있지만 기술의 발전은 선형적이지 않고 비약적이다. 사람들은 종종 기이한 해와 특이점에 대해 이야기합니다.

오디오 및 비디오 산업으로 돌아가서 AIGC가 현재 그렇게 큰 영향을 미치지 않았다고 생각합니다.

첫째, 영향이 있어야 합니다.DingTalk는 회의 요약과 같은 응용 시나리오도 탐색하고 있습니다.대형 모델이 오디오 및 비디오에 내장된 후 가장 직접적인 변화는 회의 내용의 추출 및 요약입니다.

둘째, 대규모 모델은 오디오 및 비디오의 실시간 성능에 대한 효과적인 솔루션이 일시적으로 부족합니다.오디오 및 비디오 애플리케이션에 허용되는 지연은 수십 밀리초 또는 최대 200밀리초이며 이는 매우 까다로운 작업입니다. 오디오 알고리즘 처리는 프레임 단위(예를 들어, 프레임 길이는 10밀리초), 즉 데이터의 각 프레임이 10밀리초 이내에 처리되어야 하는 스트리밍 처리이며 처리된 데이터는 하단으로 전송됩니다. 하나의 모듈 후에 다음 10밀리초의 데이터를 계속 처리하고 계속해서 다시 시작하지만 현재 AIGC에는 분명히 이를 지원할 스트리밍 처리 기능이 없습니다.

셋째, 음향 및 기본 알고리즘 수준에서 빅 모델은 현재 검색, 추론 및 생성에 능숙하지만 오디오 및 비디오 응용 프로그램에서는 AI를 사용하여 "현실을 복원"하여 온라인 회의 및 오프라인을 달성하는 데 더 많은 관심을 기울입니다. 예를 들어, 동일한 "존재"는 AI 모델을 사용하여 오디오 처리의 세 가지 주요 문제인 에코 제거, 노이즈 감소 및 잔향, 즉 지능형 3A 알고리즘을 해결합니다.

우리는 계속해서 주의를 기울일 것이며, 언젠가는 기술적 특이성이 예상치 못한 응용 프로그램을 가져올 것입니다.

  1. LiveVideoStack: 방금 3A 알고리즘에 대해 말씀하셨습니다. 이번에는 선택된 상위 컨퍼런스 논문 중 하나가 이 주제에 관한 것입니다. 연구 결과에 따르면 기존 알고리즘과 AI 알고리즘의 가장 큰 차이점은 무엇입니까? 이 기술이 귀사의 제품에 적용됩니까?

Feng Jinwei: 이번에는 "실시간 전대역 음성 통신에서 울림, 소음 및 반향의 공동 제거를 위한 심층 협대역 네트워크"에 대한 논문이 있습니다. 그 뒤에 우리가 하는 것은 "하나의 모델, 다중 작업" 연구입니다. . 이번 연구는 AI가 이 3가지 간섭 소리를 하나의 모델에서 동시에 처리할 수 있는 능력이 있음을 검증하는데, 이는 멀티태스킹 학습이 일반적인 표현과 표현을 학습할 수 있다는 AI 분야의 공감대와도 일치한다. 일반화 능력을 향상시킵니다.

대부분의 이전 기술은 에코, 노이즈, 잔향의 세 가지 간섭음에 대해 개별적으로 다루었으며, 각 개별 모듈은 계산량과 알고리즘 지연을 합산하면 쉽게 견고성 저하로 이어질 수 있으며 글로벌 수행이 불가능합니다. 오디오 링크 모니터링 최적화.

우리의 실험은 3개의 공개 테스트 세트에서 하위 작업 전용 최신 모델과 비교하여 우리 모델이 원격 단일 말하기 시나리오 및 이중 말하기 시나리오에서 성능을 57% 향상시키는 것으로 나타났습니다. 음질은 각각 5%, 8% 향상되었으며 일부 연구 결과도 당사 제품에 적용되었습니다.

전통적인 알고리즘과 AI 알고리즘의 차이점은 데이터 모델링의 경로가 다르다고 생각합니다.하나는 가우시안 분포와 같은 수학적 분석 표현을 기반으로 한 비교적 간단한 모델링입니다.정상 상태 노이즈 신호와 같은 더 적합한 시나리오를 위해 기존 알고리즘은 처리 효과는 여전히 허용 가능하며 다른 하나는 데이터 기반 모델링입니다.딥 러닝의 강력한 모델링 기능을 통해 AI 알고리즘은 특히 훈련 데이터가 충분히 풍부한 경우 더 복잡한 시나리오에서 작업을 처리할 수 있습니다.이것이 현재 AI 알고리즘이기도 합니다. non-stationary 노이즈 제거, 지연 지터 하에서의 반향 제거와 같은 효과의 질적 개선의 이유. 전통적인 방법은 일반적으로 상대적으로 계산량이 적고 설명 가능성이 좋으며 이 두 가지 접근 방식도 상호 보완적이라고 생각합니다.

현재 회의 소프트웨어의 페인 포인트 중 하나이기도 한 직장 현장에서 동료 대화로 인해 발생하는 배경 소음을 제거하고 모든 알고리즘을 동일한 프레임워크에 넣는 등 이 기술의 확장에 대한 연구를 진행하고 있습니다. , 계산 저장, 대기 시간 감소 등

  1. LiveVideoStack: 두 AI 간의 관계와 다음 투자 계획에 대해 어떻게 생각하십니까?

Feng Jinwei: 이 두 종류의 AI는 상호 배타적이지 않다고 생각합니다.하나는 애플리케이션 계층에서의 지능형 탐색이고 다른 하나는 전문 시나리오에서 기본 기술에 대한 지원입니다.

현재 AI는 오디오와 비디오에서 상대적으로 중요한 애플리케이션이라고 생각하며, 컨퍼런스 요약 또는 요약 인 올해 구현 한 애플리케이션이기도합니다. 5월 말에 진행되는 Dingding 슬래시 "/" 초대 테스트에도 이 기능이 포함되어 있습니다. 축어적 속기를 생성하는 데 도움이 될 수 있으며 장 및 주제별로 요약 및 할 일을 자동으로 생성할 수 있습니다. 이렇게 하면 2~3시간의 긴 회의를 3분 만에 스마트한 회의록을 읽을 수 있습니다. 

녹음, 요약 및 오디오 3A 기술(디리버브, 노이즈, 에코)과 같은 이러한 AI의 장면 기능은 상호 배타적이지 않습니다. 3A 기술은 위에서 언급한 시나리오에 대한 강력한 기반 기술에 의해 지원되며 콘텐츠 인식은 소리가 더 명확해진 후에 더 정확할 것입니다. 따라서 AIGC가 등장하더라도 이러한 기본 기술은 여전히 ​​지속적으로 최적화되고 해결되어야 하며 리소스는 여전히 지속적으로 투자되어야 합니다.

또한 AI 기술은 무기준 음질 평가, Personalized SE, NetEQ, LPC 및 오디오 초고해상도 기술 등과 같은 오디오 분야의 많은 잠재적 응용 분야를 가지고 있습니다. AI 기술은 네트워크 지연이 변동하거나 장비가 움직일 때 생성되는 에코와 같이 기존 방법으로는 해결할 수 없는 몇 가지 문제도 해결할 수 있습니다. 우리는 이 일련의 작업을 통해 우리가 생각하는 기술의 가장 가치 있는 부분이기도 한 장벽 없는 정보 통신을 사용자가 달성할 수 있도록 진정으로 도울 수 있기를 바랍니다.

2. 기술 루트의 독특함과 개방적 전략

  1. LiveVideoStack: 당신의 기술적 경로는 다른 회사들과 다르게 들립니다.상업 회사에서 기술이라는 주제에 대해 어떻게 생각하며, 지난 2년 동안 어떤 사례를 본 적이 있습니까?

Feng Jinwei: Hummingbird Audio Lab의 작업은 제품 지향적이며 신기술 연구 개발은 제품 출시를 목표로 해야 하며 신기술 프로젝트 설립도 사용자 문제 해결을 목표로 해야 합니다.

상업 회사이자 기술 회사로서 제품은 상업화의 기반을 갖기 전에 경쟁력이 있어야 하므로 대부분의 작업 시간은 제품에 집중됩니다. 우리가 하는 일의 또 다른 부분은 기술을 심도 있게 연마하여 단순히 기초적인 이론 연구를 하는 것이 아니라 "시장보다 반발 앞선" 기술을 개발하는 것입니다.이론 연구는 대학 연구소나 정부 연구에서 하는 일입니다.

연구소 설립 이후 많은 실질적인 진전이 있었습니다. 예를 들어 전체 오디오 체인에 인공 지능 기술을 도입하여 AI 모델이 노이즈 감소, 에코 제거 및 잔향뿐만 아니라 패킷 손실 보상, 오디오 슈퍼 해상도 및 코덱 .

현재 딩톡 자체 개발한 AI 소음 감소 알고리즘을 구현했으며, 다양한 제품 형태의 딩톡 회의에 순차적으로 적용할 예정이며, 업계 최초로 전대역 음성 AI 소음 감소를 구현한 회의 플랫폼이기도 하다. 지금까지 국내외 회의 소프트웨어인 딩톡과 구글미트만이 풀밴드 음성통신을 사용하고 있지만, 구글미트는 아직 AI 노이즈 리덕션을 하지 않았다.

딩톡 자체 개발한 노이즈 감소 알고리즘의 기술적 특징은 노이즈 감소량이 많고 계산량이 적지만 음성 충실도가 높다는 점이다. 노이즈 감소 중 음성 손상은 현재 시중에 나와 있는 거의 모든 AI 노이즈 감소 기술에 존재하는 문제이므로 알고리즘 설계 시 음성 구성 요소를 최대한 보호하려고 노력했습니다.

또한, 회의실에서의 회의 편의성을 향상시키기 위해 혁신적인 회의 장비 이전 기술을 개발했습니다. 처음에 휴대 전화를 사용하여 회의에 참여한다고 상상해보십시오.회의실에 도착하면 회의에 참여하기 위해 회의실 장비에 긴 회의 코드를 입력할 필요가 없습니다. 휴대전화의 버튼을 누르면 회의가 자동으로 회의실 장비가 켜진 상태로 전환됩니다.

셋째, 제품 경험을 연마하는 과정에서 우리 팀은 독창적인 마이크 어레이 기술도 제안했으며, INTERSPEECH 및 ICASSP에 일련의 논문을 게시한 후 많은 논문이 우리 연구를 따랐습니다. 현재 이 기술은 하드웨어 제품 컨퍼런스 올인원 머신 F2에도 구현되었으며 생태 파트너에게도 공개됩니다. 엄격한 테스트를 거쳐 국제적으로 잘 알려진 브랜드가 우리와 협력하기로 결정했으며 그들의 제품이 곧 시장에 출시될 예정입니다.

  1. LiveVideoStack: 이번에 AI 노이즈 감소를 제품에 구현한 경험 등 제품을 지원하기 위해 기술을 사용하는 과정에서 아픈 기억이 있습니까?

Feng Jinwei: 네, 사실 성공한 경험도 있고 고통스러운 기억도 있습니다.

성공적인 경험, 예를 들어 당사의 올인원 화상 회의기 F1은 0에서 6개월 이내에 시장에 본격 출시되었으며 현재 시장 점유율은 약 1/3로 매우 성공적입니다. , 그리고 비즈니스 팀의 원활한 협력의 결과.

우리 모두는 연구가 특정 결과를 보장하지 않으며 연구 자체가 큰 불확실성을 가지고 있다는 것을 알고 있습니다. 이번에는 AI 노이즈 감소 제품에 실제로 약간의 우여곡절이 있는데, 초기 단계의 효과는 분명하지 않으며 모두가 방향이 잘못되었는지 의심합니다. 이후 팀은 포기하지 않고 데이터 및 네트워크 프레임워크를 지속적으로 개선하여 마침내 만족스러운 결과를 얻었습니다. 이 결과를 국내외 경쟁 제품들과도 비교해보니 노이즈 감소 효과는 업계 1위라고 할 수 있다.

물론 아쉬운 점도 있습니다 기술을 하다 보면 어느 정도 연구 끝에 성과를 내기도 하지만 이런저런 이유로 결국 제품화를 하지 못하는 경우가 있습니다. 우리의 기술은 더 많은 사용자가 혜택을 누릴 수 있습니다.

  1. LiveVideoStack: 이러한 기술을 성공적으로 구현한 후 어떤 산업 파트너가 개방되었으며 그들의 평가는 무엇입니까? 기억에 남는 것이 있나요?

Feng Jinwei: Logitech, Intel, Lenovo와 같은 많은 생태 파트너에게 공개되어 우리 알고리즘과 모듈을 사용하고 있습니다.

특히 작년 8월 Insta360에 알고리즘 및 엔지니어링 솔루션의 전체 세트를 공개했으며 장거리 사운드 픽업, 지능형 노이즈 감소 및 음원 위치 파악 기술에 매우 만족했습니다. 우리는 알고리즘 기능 및 기술 모듈의 개방을 통해 산업 체인의 더 많은 파트너가 이를 신속하게 재사용하여 장비의 지능형 업그레이드를 실현할 수 있기를 바랍니다.

그건 그렇고, 우리는 또한 생태 파트너를 위해 완전한 종합 서비스 세트를 제공하고 현장 서비스를 제공하며 업계의 고급 인증 평가를 통과하여 파트너 제품의 성능이 디자인 기대치를 충족하는지 확인합니다.이것도 차이점입니다. 우리의 생태 협력에서.

우리의 기술과 서비스 모델에 대해 알게 된 후 일부 생태 파트너는 DingTalk와 단호하게 협력하기로 선택하고 일부 고객은 명성 때문에 이곳에 와서 무조건 기술을 신뢰합니다.이 사례에 깊은 감명을 받았습니다.

  1. LiveVideoStack: 마지막 질문, 기술이 아무리 강력해도 닫힌 문 뒤에서 자동차를 만들 수는 없습니다.기술자로서 기술, 제품 및 비즈니스 간의 관계를 어떻게 보십니까?

Feng Jinwei: 제 생각에 기술은 비즈니스 성공의 필요 조건일 뿐 충분 조건은 아닙니다.역사상 많은 사례가 있습니다.

첫째, 시장을 선점하기 위해서는 기술 기업의 기술이 고도화되어야 합니다. 왜냐하면 많은 기술 산업의 특징은 승자가 모든 것을 가져간다는 것, 즉 승자가 모든 것을 가져가기 때문입니다. 칩 산업이 그 좋은 예인데, 머리는 한두 명뿐이고, 기술 발전은 하루가 다르게 변화하고 있어 기술 연구개발을 하는 우리 학생들은 종종 위기감을 느낍니다.

둘째, 기술 자원은 항상 제한되어 있고 수요는 결코 충족될 수 없기 때문에 여전히 기술에 대한 집중과 집중의 문제가 있습니다. 제 입장에서는 기술적인 제품 경험에 초점을 맞추는 것이 가장 중요하지만 이런 초점은 기술적인 사람들이 닫힌 문 뒤에서 자동차를 만드는 것이 아니라 전체 딩톡과 딩톡의 전략과 결합되어야 합니다. 고객의 실제 요구 사항과 결합된 오디오 및 비디오 사업부 페인 포인트가 필요하고 어떤 것이 메인 라인이고 어떤 것이 본질에 영향을 미치는지 이해합니다. 이 수준의 작업은 깊이 있게 수행해야 합니다.

마지막으로 Feng Jinwei는 최근 읽은 "반도체의 간략한 역사"를 공유하거나 책에서 기술 발전의 역사에서 영감을 받아 오디오 및 비디오 산업에 대한 상상의 청사진을 설명했습니다.

1d166436e4219e70ba531c4dba6bc716.png

사진의 QR 코드를 스캔하거나 " 원문 읽기 "를 클릭하세요. 

LiveVideoStackCon 2023 Shanghai Station의 더 흥미로운 주제를 확인하십시오

추천

출처blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/131198659