VOSK实现【离线中文语音】识别 - 代码天地

VOSK实现【离线中文语音】识别

企业开发 2025-04-09 23:33:38 阅读次数: 0

Vosk是一款开源的离线语音识别工具包，具有以下功能：

多语言支持：能够对20多种语言和方言进行语音识别，如中文、英语、德语、法语、西班牙语等，可满足不同用户的语言需求。
模型轻量化：每种语言的模型大小仅约50Mb左右，节省存储空间，且能在资源有限的设备上运行，如Raspberry Pi或Android智能手机等。
实时性高：提供零延迟响应的流式API，适用于需要低延迟的实时应用场景，能快速地将语音转化为文字。
自定义性强：支持自定义词汇表和说话人识别功能，可根据特定需求进行个性化配置，提高识别的准确性和灵活性。
跨平台使用：提供了Python、Java、C#、Node.js、C++、Rust、Go等多种编程语言的绑定接口，开发者可以根据自己的熟悉语言和项目要求选择合适的语言进行开发。
高效性能：采用先进的算法，基于Kaldi语音识别框架和深度神经网络，能在处理大量语音数据时保持高效性能，并实时反馈识别结果。

离线识别效果图：

源码：

import json
import os
import wave

import pyaudio
from vosk import Model, KaldiRecognizer

# 下载并解压模型
if not os.path.exists("vosk-model-small-cn-0.22"):
    print("请下载模型并解压到当前目录")
    exit(1)

wf = wave.open("1.wav", "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("音频文件必须是单声道WAV格式，16位PCM编码")
    exit(1)

model = Model("./vosk-model-small-cn-0.22")
rec = KaldiRecognizer(model, wf.getframerate())

flag = 1
while True:
    if flag == 1:
        data = wf.readframes(4000)
        # flag = flag + 1
    else:
        audio = pyaudio.PyAudio()
        audio_stream = audio.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True)
        data = audio_stream.read(4000)
    # data = wf.readframes(1280)
    # print(data)

    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        pass
        # print(rec.Result())
    else:
        pass
        res = rec.PartialResult()
        # print(type(res))
        if (json.loads(res)["partial"]):
            print(json.loads(res)["partial"])

print(rec.FinalResult())

猜你喜欢

转载自blog.csdn.net/p6448777/article/details/145311418

VOSK实现【离线中文语音】识别

python使用VOSK实现离线语音识别（中文普通话）

Unity通过Vosk实现离线语音识别方法

使用 Vosk 实现语音识别

Python+whisper/vosk实现语音识别

讯飞唤醒+VOSK语音识别+DEEPSEEK大模型+讯飞离线合成实现纯离线大模型智能语音问答。

springboot整合vosk实现简单的语音识别功能

【小沐学Python】Python实现语音识别（vosk）

语音识别——使用Vosk进行语音识别

Java + Vosk 开启麦克风离线语音识别新纪元！

win+python实现离线语音识别

Vosk语音识别工具包安装和配置指南

Android应用离线中文语音识别PocketSphinx （免费哦~）

最方便的离线python实时中文语音识别！

语音离线识别算法

离线语音合成与识别

基于Pytorch实现的MASR中文语音识别

调用华为API实现中文语音识别

开源(离线)中文语音识别ASR(语音转文本)工具整理

Ubuntu16.04实现Sphinx离线语音识别

PocketSphinx For Android离线语音识别

FastASR离线语音识别库

PYTHON-唤醒+VOSK+DEEPSEEK+离线合成-实现纯离线大模型问答

中文语音识别

中文语音识别pytorch

Tensorflow 中文语音识别

语音识别——基于深度学习的中文语音识别系统实现（代码详解）

讯飞离线语音命令词识别

Android下PocketSphinx的离线语音识别

讯飞语音——离线命令词识别

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

更多

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)