(一)文字和语言、数字和信息(从进化史看自然语言)

版权声明:仅供学习使用,未经同意不得转发,不可使用商业用途。 https://blog.csdn.net/wangqingbang/article/details/90410189

前言:数字、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的——记录和传播信息。然而,为什么直到半个多世纪前香农博士提出信息论后,人们才开始把数学和信息系统自觉的联系起来?在此之前,数学和语言学几乎是没有交集的。

让我们从进化史来看自然语言原理:

1 信息

通信的原理和信息传播的模型

我们的祖先在长成我们今天的模样时,就开始使用和传播信息了。就像我们常在动物园看到的动物发出奇怪的声音,早期的人类也喜欢发出含糊的声音。最初可能只是喜欢这样发声,渐渐地人类开始用这种声音来传播信息,比如给同伴提示“这里有猎物,快来!”然后发出一串呜呜的声音。
其实在这里,信息的产生、传播、接收和反馈,与今天最先进的通信在原理上并无二致!
让我们来看看信息传播的模型:
在这里插入图片描述
图1:原始人通信的方式和今天通信模型没有什么不同

随着信息需要记载的越来越多,不再是几种不同的声音就能完全覆盖,语言就此产生。人们的生活经验作为一种特定的信息,其实是那个年代最为宝贵的财富,通过口述的语言传给了后代。



2 文字和数字

聚类

我们的祖先迅速地学习新鲜事物,语言越来越丰富,越来越抽象。当语言和词汇多到一定程度后,人类仅靠大脑已经记不住所有词汇了,于是,高效记录信息的需求就产生了,这便是文字的起源。

最早的象形文字,是古埃及人用图形来表示事物,比如下图的古埃及《亚尼的死者之书》,以超出想象的完好在历史的长河中保存了下来:

在这里插入图片描述
图二:《亚尼的死者之书》,目前保存在大英博物馆

然而,随着文明的进步,信息量的增加,埃及的象形文字增加到了一定限制数量(因为一个人很难再记忆这么多的文字)。于是,概念的第一次概括和归类就开始了。中国的象形文字中,“日” 本意是太阳,也同时是我们将的一天这个概念。

这种概念的聚类,在原理上与今天自然语言处理或者机器学习的聚类有很大的相似性,只是在远古,完成这个过程需要上千年;而今天,可能只需要几天甚至几小时。

扫描二维码关注公众号,回复: 6427093 查看本文章

多义性和利用上下文消除歧义性

文字按照意思来聚类,最终会带来一些歧义性,也就是说有时候弄不清一个多义字在特定环境下到底表示其中的哪个含义。而解决这个问题的方法,过去的先生和今天的学者没什么不同,都是依靠上下文。正如中国古代儒家经典的注释和正义,其实都是在按照自己理解做消除歧义性的工作。

今天的情况非常类似,对上下文建立的概率模型再好,也有失灵的时候。这些是语言从产生伊始就固有的特点。

双语对照文本,语料库和机器翻译

在这里,要讲一段小故事,

在埃及的象形文字文字失传1400年之后,1798年,拿破仑的远征军来到埃及,随军有上百名学者。其中一个学者在一个叫“罗塞塔”(Rosetta)的地方,发现了一块破碎的古埃及石碑:用了三种语言记载了一次重大事件,他意识到了这块石碑的重要性,于是让随行的科学家拓下文字带回法国。1801年,法国在埃及战败,石碑又跑到了英国人的手中,不过那个科学家拓下的文字却在法国和其他欧洲国家的学者传阅,直到21年后的1822年,法国语言学家商博良破解了罗塞塔上的古埃及的象形文字。

在这里插入图片描述
图三:罗塞塔石碑

正是这次象形文字的破译。才让我们了解到了古埃及远在公元前32世纪至今的历史。而在自然语言处理上却可以得到两点指导意义:

  1. 信息的冗余是信息安全的保障。正如那块石碑上,有三种不同的语言来记录相同的事件。
  2. 语言的数据,我们称为语料,尤其是双语或者多语的对照语料对翻译至关重要,在这个方向上,我们并没有比商博良走的更远。

了解了罗塞塔石碑的故事,对于今天很多翻译软件和服务都叫“罗塞塔”就不会感觉到奇怪了,这其中就包括Google的机器翻译和世界上销量最大的PC机上的翻译软件。

数字和文字的分离

我们的祖先刚开始计数的时候,并没有完整的数字系统,基本上都是数着手指头,这也就是我们今天使用十进制的原因。在祖先们发现十个手指头不够用了,虽然最简单的方法就是把脚指头也算上,虽然也有部落曾这么做过,不过已经灭绝了。我们的祖先很聪明,发明了进位制。

对于进位制,中国人和罗马人都有着不同的单位规定,中国人就是用十百千等等,而罗马人采用的是左减右加,比如IV表示5-1=4,而VI表示5+1=6.

不过,最有效率的计数数字的方式是古印度人发明的,也就是现在包括0在内的10个阿拉伯数字,之所以叫阿拉伯数字,是因为这些数字是阿拉伯传入欧洲的,当时欧洲人并不知道真正发明的人是古印度,而把功劳给了阿拉伯人。

阿拉伯数字的革命性不仅在于它的简洁有效,而且标志着数字和文字的分离。这在客观上让自然语言的研究和数学在几千年里没有重合的轨迹,而且越走越远。



3 文字和语言背后的数学

(信源)编码和最短编码

从象形文字到拼音文字对于文明来说,是一个大的飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时还不自觉地采用了对信息的编码。不仅如此,我们的祖先对文字的编码非常合理:常用字短,生僻字长。

在蔡伦发明纸张以前,书写文字并不是一件容易的事。以中文为例,在东汉之前要将文字刻在其他物件比如龟壳、石碑和竹简上。由于刻一个字的时间相当长,成本也很高,因此要惜墨如金。这就使得我们的古文(书面文字)非常简洁,但是也很难懂,而同时期的口语却和今天的白话差别不大。
在这里插入图片描述
图四:蔡伦造纸,中国的骄傲

这种现象非常符合今天信息科学的一些基本原理,就是在通信时,如果信道较宽,信息不必压缩,就可直接传递;而如果信道很窄,信息传递前需要尽可能压缩,然后在接收端进行解压缩。在古代两个人讲话就是一个宽信道,而文言文本身是信道压缩过程,将文言文解释清楚就是解压缩的过程。

由此可见,在信息论尚未被发明的几千年前,中国人已经无意识地遵照它的规律行事了。

校验码

古犹太人为了虔诚地抄写《圣经》,同时保证自己抄写的文本没有出错,非常聪明的发明了一种检验的方式:他们把每一个希伯来字母对应一个数字,这样每行文字加起来便得到一个特殊的数字,对于行这样,对于列也这样,因而这样每行每列的校验码就算出来,如果有所误差,则表示抄写错误,可以很快定位到出错的地方。

古犹太人这背后的校验原理,和我们今天的各种校验是相同的。

语言对?还是语法对?

在这里不得不提一个小故事:

莎士比亚的作品在他的时代完全是通俗而大众化的,其中包括大量违反古语法的名句,那个时代就开始有人试图完善(其实是篡改)莎士比亚戏剧。可今天这些语言不但没有消失,反而成了经典,而试图完善他著作的人却早已为大众所遗忘。

语言坚持从真实的语句文本(称为语料)出发,而语法坚持从规则出发,经过三四十年的争论,语言学最终,本着时间是检验真理的唯一标准,自然语言的成就最终宣布了前者的获胜。而具体的故事,之后还会在后面的博客中说到。


猜你喜欢

转载自blog.csdn.net/wangqingbang/article/details/90410189