文章目录

1. 科大讯飞开放平台使用简介

①如何使用科大讯飞开放平台
②对SDK中提供的源码进行简要分析

2. ROS语音识别与语音输出

①语音识别

- 具体实现

②语音输出

- 具体实现

③语音识别和语音合成的匹配

3. ROS机器人语音交互

1. 科大讯飞开放平台使用简介

①如何使用科大讯飞开放平台

登录/注册科大讯飞开放平台；

在这里插入图片描述

打开控制台创建新应用；

在这里插入图片描述

语音听写和语音合成SDK下载；

在这里插入图片描述

包含五个文件夹：
- bin： 最后生成的可执行文件
- doc： API的使用文档和说明手册
- include： 头文件
- libs： 语音识别相关的链接库文件
- samples： 例程
  - iat_online_record_sample：语音听写的例程包
  - tts_online_sample：语音输出，将某个字符串通过语音生成

编译iat_online_record_sample

在这里插入图片描述
如果报错：

linuxrec.c:12:28: fatal error: alsa/asoundlib.h: No such file or directory

则执行

sudo apt-get install libasound2-dev

执行bin文件夹目录下的可执行文件; 选择不提供使用者词库，麦克风输入音频；

在这里插入图片描述

编译tts_online_sample并执行可执行文件； 会生成一个Wav文件，里面是对科大讯飞的介绍；

在这里插入图片描述

②对SDK中提供的源码进行简要分析

我们可以打开iat_online_record_sample文件夹下的iat_online_record_sample.c文件（由于文件300多行这里就不粘贴了），熟悉一下里面核心的API。

大体上main函数里包括这些：

对appid的配置；
登录用户名；
上传用户的words列表；
选择语音从哪里来；
demo_mic函数具体实现识别功能。

demo_mic：

static void demo_mic(const char* session_begin_params)
{
	int errcode;
	int i = 0;

	struct speech_rec iat;

	struct speech_rec_notifier recnotifier = {
		on_result,
		on_speech_begin,
		on_speech_end
	};

	errcode = sr_init(&iat, session_begin_params, SR_MIC, &recnotifier);
	if (errcode) {
		printf("speech recognizer init failed\n");
		return;
	}
	errcode = sr_start_listening(&iat);
	if (errcode) {
		printf("start listen failed %d\n", errcode);
	}
	/* demo 15 seconds recording */
	while(i++ < 15)
		sleep(1);
	errcode = sr_stop_listening(&iat);
	if (errcode) {
		printf("stop listening failed %d\n", errcode);
	}

	sr_uninit(&iat);
}

我们需要关注里面的 on_result 的结果是如何发布的：

void on_result(const char *result, char is_last)
{
	if (result) {
		size_t left = g_buffersize - 1 - strlen(g_result);
		size_t size = strlen(result);
		if (left < size) {
			g_result = (char*)realloc(g_result, g_buffersize + BUFFER_SIZE);
			if (g_result)
				g_buffersize += BUFFER_SIZE;
			else {
				printf("mem alloc failed\n");
				return;
			}
		}
		strncat(g_result, result, size);
		show_result(g_result, is_last);
	}
}

从代码中我们猜想只要拿到这里的 g_result 这个全局变量就可以拿到最终的识别结果。

再来看一看tts_online_sample.c中的代码，text_to_speech是语音合成关键的函数：

const char* filename = "tts_sample.wav"; //合成的语音文件名称
const char* text = "亲爱的用户，您好，这是一个语音合成示例，感谢您对科大讯飞语音技术的支持！科大讯飞是亚太地区最大的语音上市公司，股票代码：002230"; //合成文本
ret = text_to_speech(text, filename, session_begin_params);

通过这些代码结合用户登录和函数text_to_speech等，将text内的文字转换成了语音保存到了filename的文件中。
当然，我们可以修改代码，将语音直接输出出来。在文件末173行左右：

printf("合成完毕\n");

popen("play tts_sample.wav","r");	
//就是这句话很关键，但是需要提前确认Linux系统可以使用play

所以我们安装play相关的工具：（第一句话因SDK包名而异）

$ cd cd Linux_iat1227_tts_online1227_5e9199eb/libs/x64
$ sudo cp libmsc.so /usr/lib/
$ sudo apt install sox
$ sudo apt install libsox-fmt-all

科大讯飞的SDK带有ID号，每个人每次下载后的ID都不相同，更换SDK之后需要修改代码中的APPID。APPID可以在SDK包的名字后几位可以看到。

2. ROS语音识别与语音输出

①语音识别

在这里插入图片描述
通过修改上面提供的SDK源码文件，改成可以在ROS环境下使用的功能包，达成语音识别的目的。这个功能框图，描述了我们将通过一个唤醒词，就像“Hi Siri”一样，这里通过一个std_msgs::String的话题消息唤醒语音识别的功能，而不是执行一次./iat_online_record_sample识别一次；随后通过Result将识别后的文字包装成话题发布出去，可供其他操作者调用。

- 具体实现

subscriber：接收唤醒信号，将wakeupFlag变量置位；
publisher：主循环中调用SDK的语音识别功能，识别成功后置位resultFlag变量，将识别出来的字符串发布。

步骤：

创建功能包；

在这里插入图片描述

将SDK内的头文件复制粘贴在新创建的功能包内，包括include文件夹内的和samples/iat_online_record_sample文件夹下的.h文件；

在这里插入图片描述

将samples/iat_online_record_sample文件夹下的iat_online_record_sample.c，linuxrec.c和speech_recognizer.c文件放入新建功能包的src文件夹目录下，并把iat_online_record_sample.c文件扩展名改为cpp，因为我们将用到C++的语法；并创建launch文件夹；

在这里插入图片描述

修改iat_online_record_sample.cpp文件，这里我们可以发现ROS可以通过其他不同平台的已经实现功能的代码，经过修改达成ROS机器人使用的目的。

这里我把iat_publish.cpp全部代码都粘贴到了页面上，大家可以对比下载下来的SDK中iat_online_record_sample.c文件。多数代码都是讯飞提供的SDK的内容，我会解读其中修改的重要的部分：（解读的部分都由注释放置到对应的位置）

/*
* 语音听写(iFly Auto Transform)技术能够实时地将语音转换成对应的文字。
*/

#include <stdlib.h>
#include <stdio.h>
#include <string.h>
#include <unistd.h>
#include "robot_voice/qisr.h"				//这里我们将头文件都放到了robot_voice/include/robot_voice文件夹内
#include "robot_voice/msp_cmn.h"
#include "robot_voice/msp_errors.h"
#include "robot_voice/speech_recognizer.h"

#include "ros/ros.h"						//调用ROS的头文件和发布消息类型的头文件
#include "std_msgs/String.h"

#define FRAME_LEN	640 
#define	BUFFER_SIZE	4096

int wakeupFlag   = 0 ;						//创建两个全局变量，wakeupFlag用来显示是否被唤醒；resultFlag标志有没有语音识别的结果
int resultFlag   = 0 ;
//跳转到main函数，其他函数大多没有修改都是科大讯飞给出的

/* Upload User words */
static int upload_userwords()
{
	char*			userwords	=	NULL;
	size_t			len			=	0;
	size_t			read_len	=	0;
	FILE*			fp			=	NULL;
	int				ret			=	-1;

	fp = fopen("userwords.txt", "rb");
	if (NULL == fp)										
	{
		printf("\nopen [userwords.txt] failed! \n");
		goto upload_exit;
	}

	fseek(fp, 0, SEEK_END);
	len = ftell(fp); 
	fseek(fp, 0, SEEK_SET);  					
	
	userwords = (char*)malloc(len + 1);
	if (NULL == userwords)
	{
		printf("\nout of memory! \n");
		goto upload_exit;
	}

	read_len = fread((void*)userwords, 1, len, fp); 
	if (read_len != len)
	{
		printf("\nread [userwords.txt] failed!\n");
		goto upload_exit;
	}
	userwords[len] = '\0';
	
	MSPUploadData("userwords", userwords, len, "sub = uup, dtt = userword", &ret); //ÉÏ´«ÓÃ»§´Ê±í
	if (MSP_SUCCESS != ret)
	{
		printf("\nMSPUploadData failed ! errorCode: %d \n", ret);
		goto upload_exit;
	}
	
upload_exit:
	if (NULL != fp)
	{
		fclose(fp);
		fp = NULL;
	}	
	if (NULL != userwords)
	{
		free(userwords);
		userwords = NULL;
	}
	
	return ret;
}


static void show_result(char *string, char is_over)
{
    resultFlag=1;
	printf("\rResult: [ %s ]", string);
	if(is_over)
		putchar('\n');
}

static char *g_result = NULL;
static unsigned int g_buffersize = BUFFER_SIZE;

void on_result(const char *result, char is_last)
{
	if (result) {
		size_t left = g_buffersize - 1 - strlen(g_result);
		size_t size = strlen(result);
		if (left < size) {
			g_result = (char*)realloc(g_result, g_buffersize + BUFFER_SIZE);
			//g_result就是识别后的结果
			if (g_result)
				g_buffersize += BUFFER_SIZE;
			else {
				printf("mem alloc failed\n");
				return;
			}
		}
		strncat(g_result, result, size);
		show_result(g_result, is_last);	//这里将结果显示出来，并在show_result函数中，把全局结果标志量resultFlag置位(1)，回看main函数
	}
}
void on_speech_begin()
{
	if (g_result)
	{
		free(g_result);
	}
	g_result = (char*)malloc(BUFFER_SIZE);
	g_buffersize = BUFFER_SIZE;
	memset(g_result, 0, g_buffersize);

	printf("Start Listening...\n");
}
void on_speech_end(int reason)
{
	if (reason == END_REASON_VAD_DETECT)
		printf("\nSpeaking done \n");
	else
		printf("\nRecognizer error %d\n", reason);
}

/* demo send audio data from a file */
static void demo_file(const char* audio_file, const char* session_begin_params)
{
	int	errcode = 0;
	FILE*	f_pcm = NULL;
	char*	p_pcm = NULL;
	unsigned long	pcm_count = 0;
	unsigned long	pcm_size = 0;
	unsigned long	read_size = 0;
	struct speech_rec iat;
	struct speech_rec_notifier recnotifier = {
		on_result,
		on_speech_begin,
		on_speech_end
	};

	if (NULL == audio_file)
		goto iat_exit;

	f_pcm = fopen(audio_file, "rb");
	if (NULL == f_pcm)
	{
		printf("\nopen [%s] failed! \n", audio_file);
		goto iat_exit;
	}

	fseek(f_pcm, 0, SEEK_END);
	pcm_size = ftell(f_pcm);
	fseek(f_pcm, 0, SEEK_SET);

	p_pcm = (char *)malloc(pcm_size);
	if (NULL == p_pcm)
	{
		printf("\nout of memory! \n");
		goto iat_exit;
	}

	read_size = fread((void *)p_pcm, 1, pcm_size, f_pcm);
	if (read_size != pcm_size)
	{
		printf("\nread [%s] error!\n", audio_file);
		goto iat_exit;
	}

	errcode = sr_init(&iat, session_begin_params, SR_USER, &recnotifier);
	if (errcode) {
		printf("speech recognizer init failed : %d\n", errcode);
		goto iat_exit;
	}

	errcode = sr_start_listening(&iat);
	if (errcode) {
		printf("\nsr_start_listening failed! error code:%d\n", errcode);
		goto iat_exit;
	}

	while (1)
	{
		unsigned int len = 10 * FRAME_LEN; /* 200ms audio */
		int ret = 0;

		if (pcm_size < 2 * len)
			len = pcm_size;
		if (len <= 0)
			break;

		ret = sr_write_audio_data(&iat, &p_pcm[pcm_count], len);

		if (0 != ret)
		{
			printf("\nwrite audio data failed! error code:%d\n", ret);
			goto iat_exit;
		}

		pcm_count += (long)len;
		pcm_size -= (long)len;		
	}

	errcode = sr_stop_listening(&iat);
	if (errcode) {
		printf("\nsr_stop_listening failed! error code:%d \n", errcode);
		goto iat_exit;
	}

iat_exit:
	if (NULL != f_pcm)
	{
		fclose(f_pcm);
		f_pcm = NULL;
	}
	if (NULL != p_pcm)
	{
		free(p_pcm);
		p_pcm = NULL;
	}

	sr_stop_listening(&iat);
	sr_uninit(&iat);
}

/* demo recognize the audio from microphone */
static void demo_mic(const char* session_begin_params)
{
	int errcode;
	int i = 0;

	struct speech_rec iat;

	struct speech_rec_notifier recnotifier = {
		on_result,
		on_speech_begin,
		on_speech_end
	};

	errcode = sr_init(&iat, session_begin_params, SR_MIC, &recnotifier);
	if (errcode) {
		printf("speech recognizer init failed\n");
		return;
	}
	errcode = sr_start_listening(&iat);
	if (errcode) {
		printf("start listen failed %d\n", errcode);
	}
	/* demo 8 seconds recording */
	while(i++ < 8)			//这里用来修改录制语音的时间
		sleep(1);
	errcode = sr_stop_listening(&iat);
	if (errcode) {
		printf("stop listening failed %d\n", errcode);
	}

	sr_uninit(&iat);
}

void WakeUp(const std_msgs::String::ConstPtr& msg)		//回调函数中将wakeupFlag置位
{
    printf("waking up\r\n");
    usleep(700*1000);
    wakeupFlag=1;
}

/* main thread: start/stop record ; query the result of recgonization.
 * record thread: record callback(data write)
 * helper thread: ui(keystroke detection)
 */
int main(int argc, char* argv[])
{
    // 初始化ROS
    ros::init(argc, argv, "voiceRecognition");
    ros::NodeHandle n;
    ros::Rate loop_rate(10);

    // 声明Publisher和Subscriber
    // 订阅唤醒语音识别的信号
    ros::Subscriber wakeUpSub = n.subscribe("voiceWakeup", 1000, WakeUp);   
    // 订阅唤醒语音识别的信号    
    ros::Publisher voiceWordsPub = n.advertise<std_msgs::String>("voiceWords", 1000);  

    ROS_INFO("Sleeping...");
    int count=0;
	//这里会发现删除了一部分询问是否使用用户词库&选择麦克风输入语音等
	//默认使用麦克风

	//随后是进行在线识别的登录
    int ret = MSP_SUCCESS;
    /* login params, please do keep the appid correct */
    const char* login_params = "appid = 594a7b46, work_dir = .";
    int aud_src = 0; /* from mic or file */

    /*
    * See "iFlytek MSC Reference Manual"
    */
    const char* session_begin_params =
        "sub = iat, domain = iat, language = zh_cn, "
        "accent = mandarin, sample_rate = 16000, "
        "result_type = plain, result_encoding = utf8";

    /* Login first. the 1st arg is username, the 2nd arg is password
     * just set them as NULL. the 3rd arg is login paramertes 
     * */
    ret = MSPLogin(NULL, NULL, login_params);
    if (MSP_SUCCESS != ret)	{
        printf("MSPLogin failed , Error code %d.\n",ret);
        goto exit; // login fail, exit the program
    }

	//我们把语音识别的部分加入到循环内，使只要wakeupFlag这个全局变量为1，就进行识别，随后再置零，继续等待语音，一旦唤醒词置位，就识别语音
    while(ros::ok())
    {
        // 语音识别唤醒     
        if(wakeupFlag)
        {
            ROS_INFO("Wakeup...");

	        printf("Demo recognizing the speech from microphone\n");
	        printf("Speak in 8 seconds\n");

	        demo_mic(session_begin_params);

	        printf("8 sec passed\n");
            
            wakeupFlag=0;			//唤醒成功后再把唤醒标志置零，随后跳转到看上面的on_result函数
        }

        // 语音识别完成
        if(resultFlag){				//结果表示符为1时，即执行了show_result函数，就将这个结果g_result以话题形式发布出去
            resultFlag=0;
            std_msgs::String msg;
            msg.data = g_result;
            voiceWordsPub.publish(msg);
        }

        ros::spinOnce();
        loop_rate.sleep();
        count++;
    }
exit:
	MSPLogout(); // Logout...

	return 0;
}

好了，那我们现在开始配置编译文件CMakeLists.txt。我们需要开启c++11和头文件包含

add_definitions(-std=c++11)

include_directories(
	${catkin_INCLUDE_DIRS}
	include
)

并对三个c/c++文件添加可执行文件和链接库依赖

add_executable(iat_publish
	src/iat_publish.cpp
	src/speech_recognizer.c
	src/linuxrec.c)

target_link_libraries(
	iat_publish
	${catkin_LIBRARIES}
	libmsc.so -ldl -lpthread -lm - lrt -lasound
)

这里需要注意需要把speech_recognizer.c和linuxrec.c中的包含的头文件（在robot_voice/include/robot_voice目录下的那几个），修改为include “robot_voice/{文件名}”。

②语音输出

在这里插入图片描述

- 具体实现

subscriber： 订阅voiceWords话题，接收输入的字符串；
voiceWordsCallback： 使用SDK接口将字符串转换成中文语音。

步骤：

将tts_online_sample.c文件复制粘贴到/robot_voice/src目录下，改名为tts_publish.cpp；

在这里插入图片描述

修改该文件。头文件我们都是已经放置好了。

文件我也全部粘贴到了这里，同样和SDK中的原文件进行比对。重要的部分同样在代码中指定位置注释：（和上个例子相似的地方就不做解释了）

/*
* 语音合成（Text To Speech，TTS）技术能够自动将任意文字实时转换为连续的
* 自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的
* 高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。
*/

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <unistd.h>

#include "robot_voice/qtts.h"
#include "robot_voice/msp_cmn.h"
#include "robot_voice/msp_errors.h"

#include "ros/ros.h"
#include "std_msgs/String.h"

/* wav音频头部格式 */
typedef struct _wave_pcm_hdr
{
	char            riff[4];                // = "RIFF"
	int		size_8;                 // = FileSize - 8
	char            wave[4];                // = "WAVE"
	char            fmt[4];                 // = "fmt "
	int		fmt_size;		// = 下一个结构体的大小 : 16

	short int       format_tag;             // = PCM : 1
	short int       channels;               // = 通道数 : 1
	int		samples_per_sec;        // = 采样率 : 8000 | 6000 | 11025 | 16000
	int		avg_bytes_per_sec;      // = 每秒字节数 : samples_per_sec * bits_per_sample / 8
	short int       block_align;            // = 每采样点字节数 : wBitsPerSample / 8
	short int       bits_per_sample;        // = 量化比特数: 8 | 16

	char            data[4];                // = "data";
	int		data_size;              // = 纯数据长度 : FileSize - 44 
} wave_pcm_hdr;

/* 默认wav音频头部数据 */
wave_pcm_hdr default_wav_hdr = 
{
	{ 'R', 'I', 'F', 'F' },
	0,
	{'W', 'A', 'V', 'E'},
	{'f', 'm', 't', ' '},
	16,
	1,
	1,
	16000,
	32000,
	2,
	16,
	{'d', 'a', 't', 'a'},
	0  
};
/* 文本合成 */
int text_to_speech(const char* src_text, const char* des_path, const char* params)
{
	int          ret          = -1;
	FILE*        fp           = NULL;
	const char*  sessionID    = NULL;
	unsigned int audio_len    = 0;
	wave_pcm_hdr wav_hdr      = default_wav_hdr;
	int          synth_status = MSP_TTS_FLAG_STILL_HAVE_DATA;

	if (NULL == src_text || NULL == des_path)
	{
		printf("params is error!\n");
		return ret;
	}
	fp = fopen(des_path, "wb");
	if (NULL == fp)
	{
		printf("open %s error.\n", des_path);
		return ret;
	}
	/* 开始合成 */
	sessionID = QTTSSessionBegin(params, &ret);
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSSessionBegin failed, error code: %d.\n", ret);
		fclose(fp);
		return ret;
	}
	ret = QTTSTextPut(sessionID, src_text, (unsigned int)strlen(src_text), NULL);
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSTextPut failed, error code: %d.\n",ret);
		QTTSSessionEnd(sessionID, "TextPutError");
		fclose(fp);
		return ret;
	}
	printf("正在合成 ...\n");
	fwrite(&wav_hdr, sizeof(wav_hdr) ,1, fp); //添加wav音频头，使用采样率为16000
	while (1) 
	{
		/* 获取合成音频 */
		const void* data = QTTSAudioGet(sessionID, &audio_len, &synth_status, &ret);
		if (MSP_SUCCESS != ret)
			break;
		if (NULL != data)
		{
			fwrite(data, audio_len, 1, fp);
		    wav_hdr.data_size += audio_len; //计算data_size大小
		}
		if (MSP_TTS_FLAG_DATA_END == synth_status)
			break;
		printf(">");
		usleep(150*1000); //防止频繁占用CPU
	}
	printf("\n");
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSAudioGet failed, error code: %d.\n",ret);
		QTTSSessionEnd(sessionID, "AudioGetError");
		fclose(fp);
		return ret;
	}
	/* 修正wav文件头数据的大小 */
	wav_hdr.size_8 += wav_hdr.data_size + (sizeof(wav_hdr) - 8);
	
	/* 将修正过的数据写回文件头部,音频文件为wav格式 */
	fseek(fp, 4, 0);
	fwrite(&wav_hdr.size_8,sizeof(wav_hdr.size_8), 1, fp); //写入size_8的值
	fseek(fp, 40, 0); //将文件指针偏移到存储data_size值的位置
	fwrite(&wav_hdr.data_size,sizeof(wav_hdr.data_size), 1, fp); //写入data_size的值
	fclose(fp);
	fp = NULL;
	/* 合成完毕 */
	ret = QTTSSessionEnd(sessionID, "Normal");
	if (MSP_SUCCESS != ret)
	{
		printf("QTTSSessionEnd failed, error code: %d.\n",ret);
	}

	return ret;
}

void voiceWordsCallback(const std_msgs::String::ConstPtr& msg)
{
    char cmd[2000];
    const char* text;
    int         ret                  = MSP_SUCCESS;
    const char* session_begin_params = "voice_name = xiaoyan, text_encoding = utf8, sample_rate = 16000, speed = 50, volume = 50, pitch = 50, rdn = 2";
    const char* filename             = "tts_sample.wav"; //合成的语音文件名称

	//先把接收到的字符串打印出来
    std::cout<<"I heard :"<<msg->data.c_str()<<std::endl;
    text = msg->data.c_str(); 	//把传入的字符串赋值给将要生成语音的text

    /* 文本合成 */
    printf("开始合成 ...\n");
    ret = text_to_speech(text, filename, session_begin_params);
    if (MSP_SUCCESS != ret)
    {
        printf("text_to_speech failed, error code: %d.\n", ret);
    }
    printf("合成完毕\n");
 
 	//将语音播放出来
    popen("play tts_sample.wav","r");
    sleep(1);
}

void toExit()
{
    printf("按任意键退出 ...\n");
    getchar();
    MSPLogout(); //退出登录
}

int main(int argc, char* argv[])
{
	int         ret                  = MSP_SUCCESS;
	const char* login_params         = "appid = 594a7b46, work_dir = .";//登录参数,appid与msc库绑定,请勿随意改动
	/*
	* rdn:           合成音频数字发音方式
	* volume:        合成音频的音量
	* pitch:         合成音频的音调
	* speed:         合成音频对应的语速
	* voice_name:    合成发音人
	* sample_rate:   合成音频采样率
	* text_encoding: 合成文本编码格式
	*
	*/
	//const char* session_begin_params = "voice_name = xiaoyan, text_encoding = utf8, sample_rate = 16000, speed = 50, volume = 50, pitch = 50, rdn = 2";
	//const char* filename             = "tts_sample.wav"; //合成的语音文件名称
	//const char* text                 = "亲爱的用户，您好，这是一个语音合成示例，感谢您对科大讯飞语音技术的支持！科大讯飞是亚太地区最大的语音上市公司，股票代码：002230"; //合成文本

	/* 用户登录 */
	ret = MSPLogin(NULL, NULL, login_params);//第一个参数是用户名，第二个参数是密码，第三个参数是登录参数，用户名和密码可在http://www.xfyun.cn注册获取
	if (MSP_SUCCESS != ret)
	{
		printf("MSPLogin failed, error code: %d.\n", ret);
		//goto exit ;//登录失败，退出登录
        toExit();
        //这里也做了修改！因为goto exit这种循环方式，和后面的exit中间不能有我们初始化ROS的语句，所以我们把exit中的语句放入了toExit()函数中
	}
	printf("\n###########################################################################\n");
	printf("## 语音合成（Text To Speech，TTS）技术能够自动将任意文字实时转换为连续的 ##\n");
	printf("## 自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的  ##\n");
	printf("## 高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。  ##\n");
	printf("###########################################################################\n\n");

	//ROS初始化部分
    ros::init(argc,argv,"TextToSpeech");
    ros::NodeHandle n;
    /*
    这里的subscriber用来订阅voiceWords这个话题，一旦有输入，就会在回调函数里合成语音；
    我们会发现，之前原文件的语音合成的语句都删掉了，实际上都搬到了回调函数中。
    */
    ros::Subscriber sub =n.subscribe("voiceWords", 1000, voiceWordsCallback);
    ros::spin();

exit:
	printf("按任意键退出 ...\n");
	getchar();
	MSPLogout(); //退出登录

	return 0;
}

代码无法直接使用的原因是APPIP没有修改，按照上面提示的APPIP的修改方式改一下就好了。
需要对该文件进行编译，编译文件这样改：

add_executable(tts_subscribe src/tts_subscribe.cpp)
target_link_libraries(
   tts_subscribe
   ${catkin_LIBRARIES} 
   libmsc.so -ldl -pthread
)

emmm…效果图都是语音就没法发GIF了。

③语音识别和语音合成的匹配

即我说一句，机器人说一句。
在这里插入图片描述
由于我们上述的两段代码都是使用的统一话题名，即voiceWords，有语音识别发布，语音合成订阅，所以我们可以写一个launch文件将两个功能都包含进去。

<launch>

	<node name="iat_publish" pkg="robot_voice" type="iat_publish" output="screen"/>
	<node name="tts_subscribe" pkg="robot_voice" type="tts_subscribe" output="screen"/>

</launch>

还是可以发个哑巴图哈~大概能看出来

在这里插入图片描述

3. ROS机器人语音交互

在这里插入图片描述
这里的VoiceAssistant会识别你说出的关键词，输出匹配用户询问的回复。我们同样还使用的tts_online_sample.c文件更名为voice_assistant.cpp并对内容进行修改。

这里我们主要更改的是回调函数中的内容，其他内容和语音合成部分的示例代码相同。

更改部分：

std::string to_string(int val) 
{
    char buf[20];
    sprintf(buf, "%d", val);	//格式化输出字符，将输出的字符存入buf中
    return std::string(buf);
}

void voiceWordsCallback(const std_msgs::String::ConstPtr& msg)
{
    char cmd[2000];
    const char* text;
    int         ret                  = MSP_SUCCESS;
    const char* session_begin_params = "voice_name = xiaoyan, text_encoding = utf8, sample_rate = 16000, speed = 50, volume = 50, pitch = 50, rdn = 2";
    const char* filename             = "tts_sample.wav"; //合成的语音文件名称

    std::cout<<"I heard :"<<msg->data.c_str()<<std::endl;

    std::string dataString = msg->data;
    if(dataString.find("你是谁") != std::string::npos 
    || dataString.find("名字") != std::string::npos)
    {
        char nameString[100] = "我是你的语音小助手，你可以叫我小R";
        text = nameString;
        std::cout<<text<<std::endl;
    }
    else if(dataString.find("你几岁了") != std::string::npos 
         || dataString.find("年龄") != std::string::npos)
    {
        char eageString[100] = "我已经四岁了，不再是两三岁的小孩子了";
        text = eageString;
        std::cout<<text<<std::endl;
    }
    else if(dataString.find("你可以做什么") != std::string::npos 
         || dataString.find("干什么") != std::string::npos)
    {
        char helpString[100] = "你可以问我现在时间";
        text = helpString;
        std::cout<<text<<std::endl;
    }
    else if(dataString.find("时间") != std::string::npos)
    {
        //获取当前时间
        struct tm *ptm; 
        long ts; 

        ts = time(NULL); 
        ptm = localtime(&ts); 
        std::string string = "现在时间" + to_string(ptm-> tm_hour) + "点" + to_string(ptm-> tm_min) + "分";

        char timeString[40] = {0};
        string.copy(timeString, sizeof(string), 0);
        text = timeString;
        std::cout<<text<<std::endl;
    }
    else
    {
        text = msg->data.c_str();
    }

    /* 文本合成 */
    printf("开始合成 ...\n");
    ret = text_to_speech(text, filename, session_begin_params);
    if (MSP_SUCCESS != ret)
    {
        printf("text_to_speech failed, error code: %d.\n", ret);
    }
    printf("合成完毕\n");
 
    popen("play tts_sample.wav","r");
    sleep(1);
}

这里使用了string::find()函数： 是一个字符或字符串查找函数，该函数有唯一的返回类型，即string::size_type，即一个无符号整形类型，可能是整数也可能是长整数。如果查找成功，返回按照查找规则找到的第一个字符或者子串的位置；如果查找失败，返回string::npos,即-1（当然打印出的结果不是-1，而是一个很大的数值，那是因为它是无符号的）。

然后我们再补充一个launch文件，启动了语音识别和语音助手：

<launch>

	<node name="iat_publish" pkg="robot_voice" type="iat_publish" output="screen"/>
	<node name="voice_assistant" pkg="robot_voice" type="voice_assistant" output="screen"/>

</launch>

切记！使用是需要发布唤醒词，唤醒语音识别！就是在语音识别里subscribe的voiceWakeup这个话题。
其实基于这些就可以和机器人做很多交互了，比如用户说一个指令，机器人做运动，并且还可以回复命令者等等。

霖烨·XF

发布了27 篇原创文章 · 获赞 60 · 访问量 6578

私信关注

ROS理论与实践(以移动机器人为例)连载(七) ——机器人语音交互

文章目录

1. 科大讯飞开放平台使用简介

①如何使用科大讯飞开放平台

②对SDK中提供的源码进行简要分析

2. ROS语音识别与语音输出

①语音识别

- 具体实现

②语音输出

- 具体实现

③语音识别和语音合成的匹配

3. ROS机器人语音交互

猜你喜欢