语音识别模型 SenseVoice 模型架构解析

• 语音特征提取：80维对数梅尔滤波器组特征，通过帧堆叠和下采样（6倍压缩）处理时序数据。
• 任务嵌入拼接：在语音特征前添加四个任务嵌入向量：

# 代码示例：嵌入拼接（参考FunAudioLLM源码）
x = torch.cat([elid, eser