OPPO小布助手5篇论文入选国际语音顶会Interspeech 2023


导读

Interspeech 是国际语音通信协会 ( International Speech Communication Association, ISCA) 举办的年度会议,也是全球最大、最全面的专注于语音通信领域的学术盛会。Interspeech 会议已成为该领域中来自各行各业的专家、研究人员、学生等,共同探讨、交流和分享前沿的语音技术、认知和创新的聚集地。本届 Interspeech 会议将于2023年8月20日至8月24日于爱尔兰都柏林举办。

近日,语音技术领域国际会议 Interspeech 公布了本届论文审稿结果, OPPO 小布智能中心智能交互部语音技术组有5篇论文被大会收录。本次被接收的论文研究方向涵盖语音识别、模型压缩、目标说话人提取、语音鉴伪、异常声音检测等。


01

Multi-Channel Multi-Speaker Transformer for Speech Recognition

论文作者郭一凡,田垚,索宏彬,万玉龙

论文单位: OPPO
核心内容: 随着线上会议和车载语音助手的发展,远场多说话人语音识别已经成为了一个热门的研究课题。近日,研究人员提出了一种多通道 Transformer 结构(Multi-Channel Transformer, MCT)。这一工作证明了 Transformer 结构具有建模远场声学环境的能力。然而,当存在多个说话人同时发声时,说话人之间存在的相互干扰,会导致MCT无法直接从多人混合音频中直接为每个说话人编码出对应的高维声学特征。基于此,我们在本文中提出了多通道多说话人 Transformer 语音识别结构。在 SMS-WSJ 开源数据集上的实验显示,我们提出的结构相较于基于神经网络波束形成器(Neural Beamformer),MCT,具有转换平均连接的双路径 RNN(Dual-Path RNN with Transform-Average-Concatenate)以及多通道深度聚类(Multi-Channel Deep Clustering)的方法,识别词错率分别下降了相对9.2%, 14.3%, 24.9%和52.2%。

多通道多说话人Transformer识别结构

02 



Task-Agnostic Structured Pruning of Speech Representation Models

论文作者:王皓宇,王思远,张卫强,万玉龙

论文单位:清华大学,OPPO

核心内容: 近年来,基于无监督预训练技术的语音表征模型为许多语音任务带来了显著的进步,但另一方面,这些模型通常包括大量的参数,对硬件平台的计算能力和内存空间有很高的要求。为了将大模型部署到生产环境,模型压缩技术至关重要。结构化剪枝不需要特殊硬件就可以实现参数压缩和推理加速,是一种对硬件友好的模型压缩方法,但同时也会带来较大的性能损失。为了弥补性能损失,我们提出了一种细粒度的注意力头剪枝方法;除此之外,我们将梯度直通估计(Straight Through Estimator,STE)引入到L0正则化剪枝方法中,让模型参数的分布更加紧凑,从而实现了进一步的加速。我们在SUPERB排行榜上的实验表明,我们的压缩模型比Wav2vec 2.0 Base模型平均性能更好,同时参数量比前者减少30%,推理时间比前者减少50%。

(a): 不同参数量下的平均性能,橙色为我们提出的压缩模型;(b): 梯度直通估计对模型参数分布的影响。加入梯度直通的模型(上图)的权重更加紧凑。

03 



SEF-Net: Speaker Embedding Free Target Speaker Extraction Network


论文作者:曾邦,索宏彬,李明

论文单位:武汉大学,昆山杜克大学,OPPO

核心内容:主流的目标说话人分离方法使用目标人的声纹 embedding 作为参考信息。获取声纹 embedding 的方式主要有两种:一是使用预训练的说话人识别模型进行声纹提取,二是采用多任务学习联合训练说话人识别模型来提取声纹。然而,由这两种方案的声纹提取模块都是面向说话人识别任务进行最优化训练的,所提取的声纹 embedding 对于目标说话人分离任务可能并不是最优的。本文提出一种新颖的、不依赖于声纹 embedding 的时域目标说话人分离网络 SEF-Net。SEF-Net 在 Transformer 解码器中使用跨多头注意力来隐式地学习注册语音的 Conformer 编码输出中的说话人信息并进行目标说话人分离。实验结果表明,SEF-Net 与其他主流目标说话人提取模型相比具有可比性的性能。SEF-Net 为在不使用预训练说话人识别模型或说话人识别损失函数的情况下进行目标说话人提取提供了新的可行方案。

SEF-NET网络结构示意图。

04



Robust Audio Anti-Spoofing Countermeasure with Joint Training of Front-End and Back-End Models



论文作者:王兴明,曾邦,万玉龙,李明

论文单位:武汉大学,昆山杜克大学,OPPO

核心内容: 很多语音信号处理系统的准确性和可靠性在噪声环境下往往会急剧下降。本文讨论了在噪声环境中的鲁棒伪造语音检测方法构建。首先,我们尝试使用预训练的语音增强模型作为前端模型,并构建级联系统。然而,增强模型的独立降噪过程可能会扭曲语音合成产生的伪影或抹除包含在语音中的与伪造相关信息,进而导致伪造语音检测性能下降。因此,本文提出了一种新的前端语音增强与后端伪造语音检测联合训练的框架,来实现对噪声场景鲁棒的伪造语音检测模型构建。所提出的联合训练框架在带噪场景的 ASVSpoof 2019 LA 数据集和 FAD 数据集上均验证了比朴素的伪造语音检测后端更加有效。此外,本文还提出了一种交叉联合训练方案,使单个模型的性能可以达到不同模型得分融合的结果,从而使联合框架更加有效和高效。
所提出模型框架及训练方法示意图。
05

Outlier-aware lnlier Modeling and Multi-scale Scoring for Anomalous Sound Detection via Multitask Learning

论文作者: 章羽聪,索宏彬,万玉龙,李明
论文单位: 昆山杜克大学、OPPO
核心内容: 本文提出了一种异常声音检测方法,通过多任务学习将异常样本曝光(outlier exposure)和内部建模(inlier modeling)融合在一个统一的框架内。基于异常样本曝光的方法可以有效地提取特征,但其鲁棒性有待提高。内部建模能够生成鲁棒的特征,但这些特征的效果并不理想。最近,一些串行和并行方法被提出来将这两种方法结合起来,但它们都需要额外的步骤完成模型建模。这对于模型的训练和维护都造成了一些不便。为了克服这些限制,我们使用多任务学习的方法训练了一个基于 Conformer 的编码器,用于异常感知的内部建模。此外,我们的方法在进行推理的时候考虑了多尺度的异常打分,可以更加全面的评估异常值。在 MIMII 和 DCASE 2020 任务2数据集上的实验结果表明,我们的方法优于最先进的单模型系统,并且与比赛中排名靠前的多系统集成模型有相当的能力。
所提出模型结构框架、训练方法及多尺度打分示意图。


END
About AndesBrain

安第斯智能云
OPPO 安第斯智能云(AndesBrain)是服务个人、家庭与开发者的泛终端智能云,致力于“让终端更智能”。作为 OPPO 三大核心技术之一,安第斯智能云提供端云协同的数据存储与智能计算服务,是万物互融的“数智大脑”。

本文分享自微信公众号 - 安第斯智能云(OPPO_tech)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

工信部:不得为未备案 App 提供网络接入服务 Go 1.21 正式发布 阮一峰发布《TypeScript 教程》 Vim 之父 Bram Moolenaar 因病逝世 某国产电商被提名 Pwnie Awards“最差厂商奖” HarmonyOS NEXT:使用全自研内核 Linus 亲自 review 代码,希望平息关于 Bcachefs 文件系统驱动的“内斗” 字节跳动推出公共 DNS 服务 香橙派新产品 Orange Pi 3B 发布,售价 199 元起 谷歌称 TCP 拥塞控制算法 BBRv3 表现出色,本月提交到 Linux 内核主线
{{o.name}}
{{m.name}}

猜你喜欢

转载自my.oschina.net/u/4273516/blog/9723298