文字和语言VS数字和信息

语言和数学的产生都是为了同一个目的：记录和传播信息。

通信的原理：信息的产生、传播、接收和反馈。
文字的起源：当语言和词汇多到人类仅靠大脑记不住时，高效记录信息的需求就产生了。
翻译的需求：不同文明下的人们需要进行交流或通信。
翻译的达成：不同的文字系统在记录信息上的能力是等价的。

文字只是信息的载体，而非信息本身，不用文字，数字也可以储存同样意义的信息。这也是现代通信的基础。

当文字太多时，概念的第一次概括和归类就开始了，在中国的象形文字中，“日”的本意是太阳，但它同时又是太阳从升起到落山再到升起的时间周期（一天）。这种概念的聚类，在原理上与今天自然语言处理或者机器学习的聚类有很大的相似性。

文字按照意思来聚类，最终会带来一些歧义性，解决这个问题需要依靠上下文。

信息的冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次，因此只要有一份内容完好保留下来，原有的信息就不会丢失，这对信道编码就有指导意义。

数字是计数系统的基础。早期数字并没有书写的形式，而是掰手指，这就是我们今天使用十进制的原因。当发现十个指头不够用时，进位制就产生了。不过玛雅文明是数完手指和脚趾才开始进位，所以玛雅文明是使用二十进制，玛雅人一个世纪（太阳纪）是四百年。相对于十进制，二十进制比较复杂，比如九九乘法表换成二十进制就是19 x 19的围棋盘了。

对于不同位数数字的表示，中国人使用个十百千万亿兆（兆表示百万和万亿），罗马人用I代表1，V代表5，X代表10，L代表50，C代表100，D代表500，M代表1000。这两种表示法都引入了朴素的编码的概念，在中国，编码的规则是乘法，200万的写法含义是2 x 100 x 10000，而在罗马，解码的规则是加减法：小数字出现在大数字左边为减，右边为加。比如IV表示5-1=4。这个规则不仅复杂，而且很难描述大的数字和分数。尽管后面发明了在M上用上划线表示一千倍，但如果要书写10亿的话，还是要写一黑板。描述数字最有效的是古印度人，发明了包括0在内的10个阿拉伯数字。

从象形文字到拼音文字是一个飞跃，因为人类在描述物体的方式上，从物体的外表进化到抽象的概念，同时不自觉地采用了对信息的编码。不仅如此，编码还很合理，比如常用字短，生僻字长。类似通信时，如果信道较宽，信息不必压缩就可以传递，信道较窄，信息在传递前需要尽可能地压缩，然后在接受端进行解压缩。这个现象与我们今天宽带互联网和移动互联网上的视频播放设定完全一致，前者是经过宽带传输，因此分辨率可以做的高些，后者由于空中频道带宽的限制，传输速度要慢一到两个数量级，因此分辨率低些。

如果说从字母到词的构词法是词的编码规则，那么语法则是语言的编码和解码规则。不过，相比较而言，词可以被认为是有限而封闭的集合，而语言则是无限和开放的集合。从数学上讲，对于前者可以有完备的编解码规则，而后者则不具备这个特性。因此，任何语言都有语法规则覆盖不到的地方。

David言

发布了16 篇原创文章 · 获赞 0 · 访问量 231

私信关注

文字和语言VS数字和信息

猜你喜欢