人与人之间的交流，主要依靠自然语言。人工智能时代，人们自然希望与机器之间的交流，也能通过自然语言进行。然而实践表明，这个目标技术难点很多，问题比想象的复杂多了。这两年，市场上出现很多对话机器人、对话音箱、语音助理之类的产品，大部分表现不佳。经常听到老百姓用“人工智障”来形容这些表现较差的机器人产品。

为什么人类司空见惯的自然语言交流看起来那么简单，用于人机交互就那么困难呢？下面我们具体讨论一下。

1、人类语言本身非常复杂

自然语言相当复杂，尤其汉语，复杂程度更是让那些学汉语的外国朋友崩溃。我们看一段戏称汉语十级考试的对话：

顾客：“豆腐多少钱？”
老板：“两块。”
顾客：“两块一块啊？”
老板：“一块。”
顾客：“一块两块啊？”
老板：“两块。”

看完这段对话，你对开发人机自然语言对话机器人还有信心吗？

人机自然语言对话系统，一般把自然语言理解割裂为两个独立的部分，先把语音变为文字，再根据文字理解人类的意图。看看上面的对话，就知道这么做是不合适的。基于语音的自然语言对话，句子的读音和抑扬顿挫，对语义影响是很大的。同样的句子，读法不同，意思就不同。因此，如果对话机器人系统把语义理解分割为语音识别和文本理解两个独立的步骤，肯定会经常遇到犯傻的时候。

2、自然语言理解难度极大

即使把语音正确转化成了文字，很多句子也很难理解。例如：

“第一场，中国女排大胜美国队；第二场，中国女排大败日本队。”

到底哪一场中国队胜了？你觉得机器能理解这句话吗？再比如，

车主：“我的自行车没有锁。”
警察：“你的自行车到底有没有锁？”
车主：“我需要说几遍？我的自行车没有锁！”
警察：“那么，你手里的车钥匙是谁的？”

看到这里，你觉得现有的机器人警察能胜任这样的实际工作吗？

3、对话过程需要丰富的经验知识支持

人类能够在日常语言沟通中，展现出对答如流的本领，这种卓越表现的背后，依靠的是数十年不断的工作、生活的经验积累。机器人要达到同样的水平，同样需要丰富的知识支持。

2011年，美国 IBM 公司的“沃森”机器人参加一个叫做“危险边缘”的知识问答竞赛游戏，成功挑战前几届人类冠军。“沃森”机器人取得如此惊人的成绩，依赖背后强大的知识库支撑。“沃森”背后的计算机集群可以在3秒内处理海量并发任务和数据的同时实时分析信息――检索大约2亿页的内容（约一百万册书籍的容量），分析数以百万计的信息碎片。

由此可见，想建立成功的对话系统，内容详实的知识库系统是必不可少的。在实际工作中，我们没有足够的预算建立“沃森”机器人那样庞大的知识库，导致人机交互过程中经常遇到知识盲点，显得机器人比较弱智。

4、寻求答案需要强大的逻辑推理能力

尽管庞大的知识库系统能利用搜索技术提供海量知识数据，但是无论如何它也无法覆盖所有问题。因此，如何利用既有知识，通过智能推理技术，给出问题答案，是对话系统中必不可少的机制。由于人类知识体系和推理机制的复杂性，让机器人形成类人的推理能力，困难还很多。在一些相对简单的应用场景，可以展现一定的能力。例如，在导医机器人对话系统中，我们询问“我发烧、头痛，应该挂哪个科？”机器人从疾病知识库中快速查询出所有导致发烧、头痛的疾病，并依据病症在各种疾病中出现的概率，判断应该推荐您去就诊的科室。当信息不充分时，导医机器人还会向患者提出一些问题，要求进一步描述病情。

近年来，智能推理是学术研究的热点领域，出现了不少具有实用价值的理论和技术。例如，基于知识图谱的推理、记忆驱动的推理、多智能体推理、因果推理、跨媒体综合推理等理论，已经在一些应用中取得不错的效果，但距离彻底解决智能推理问题，还有很长的路要走。

5、回答问题需要流畅的文字组织和语音输出能力

2018年，谷歌语音助手的一段演示视频震惊了全世界。视频中，谷歌语音助手的表现像一位真正的电话客服，语音的抑扬顿挫，客服人员语气展现得惟妙惟肖。可以说，这段演示视频给人机对话系统树立了一个新的技术标竿，也让人们看到了人机对话未来的光辉前景。

尽管如此，把问题答案依据实际对话场景，组织成流畅的句子，并和人类一样自然地讲出来，目前面临的困难仍然很多。不过，相对前面的自然语言理解、知识的表达和推理等问题而言，这个环节在某种程度上还是可控的。近两年出现不少电话广告客服，其语音合成效果和对话能力已经初步具备实用价值了。

6、自然语言处理是下一个AI风口

不多说了，这个领域机会多多，大家加油哦！

quicmous

发布了182 篇原创文章 · 获赞 91 · 访问量 38万+

私信关注

人机对话系统为什么这么难？