语音识别模型 SenseVoice 模型架构解析

SenseVoice采用多任务联合训练框架,其核心架构融合了语音识别(ASR)、语种识别(LID)、情感识别(SER)和声学事件检测(AED)四大模块。其技术亮点体现在以下设计:

1. 输入特征构造

语音特征提取:80维对数梅尔滤波器组特征,通过帧堆叠和下采样(6倍压缩)处理时序数据。
任务嵌入拼接:在语音特征前添加四个任务嵌入向量:

# 代码示例:嵌入拼接(参考FunAudioLLM源码)
x = torch.cat([elid, eser