智能的本质--信息的无损压缩

智能的本质--信息的无损压缩

智能的本质--信息的无损压 

原创 戴志仕 寒武纪人工智能 2023-04-03 10:50 发表于北京

    ChatGPT的出现,人们对计算机突飞猛进的智能水平感到惊讶和担忧。计算机的智能从何而来?未来会发展到什么程度?这些话题正在为人们所津津乐道。本文尝试不用复杂的数学公式,用一种通俗的方式与大家讨论一下。不追求逻辑的严谨,仅表达一种感悟,作为“寒武纪人工智能”公众号的开篇。

认知的基本模式    

    机器学习的基本模式,可以说就是用从样本数据学习到的规律来推断总体的规律。即从样本数据中归纳总结规律,再将规律推广应用到总体,这也是人类认知的过程。

    

    近代科学技术发展,包括今天我们做科研的基本模式,也都是这么一个过程:通过实验或观测得到一批数据,再对数据进行归纳得到规律,再运用规律去预测、指导未来任务。

    我们个人学习的过程,也是如此。著名的数学家华罗庚说过,“读书要由薄到厚,再由厚到薄”。“由薄读到厚”,就是收集到足够多的样本数据的过程。“由厚到薄”,就是抽象、概括、归纳。

    在整个认知过程中,最为关键的就是概括归纳。

归纳就是对信息的压缩    

    《孙子兵法》之所以历经千年而不朽,成为思想精邃的大智慧,就在于它只用了短短5千多字,就归纳总结了人类复杂的军事活动,它是信息的高度压缩的典范,正因为如此,它的泛化能力很强,不仅可以用来指导军事,也可以指导体育、商业活动、人际关系等等。

    近代科学技术之所以极大提升人类的智能,也在于对观测到的日月星辰宇宙万物信息进行了高度压缩:物理学通过定律和系列方程组来描述物质的运动,掌握了这些定律和方程组,就掌握了物质运动的全部信息;化学通过元素周期表和化学公式来描述物质的变化,掌握了元素周期表和化学公式,就掌握了物质的千变万化。。。

   机器学习也是如此。计算机通过函数映射来表达数据千变万化的规律。表达函数映射关系的模型文件要比原始数据文件要小得多。机器对规律的总结也是一个信息压缩的过程(压缩比一般在5到10倍左右)。

    重新理解欠拟合和过拟合

    在经典的机器学习的教材中,一开始就提出了两个概念:欠拟合和过拟合。

图片

    过拟合是指模型对于训练表现很好,但在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好的情况 。欠拟合和过拟合,传统的分析解释是,欠拟合是模型太简单了,没有充分学习到样本数据的规律,过拟合是模型太复杂了,把样本中噪音数据当成规律进行了学习。   

    如果我们换一个角度,从信息无损压缩的角度来分析欠拟合和过拟合,也许更为透彻:欠拟合是对样本数据的过度压缩,发生了信息的丢失。而过拟合则是信息的压缩比不够

    规律如果比较复杂,我们用一个简单的模型(或者称简单函数映射)来描述,必然会丢失很多信息。如下图所示的数据,如果我们用一条直线来描述数据的变化规律,就属于欠拟合,因为数据被过度压缩了:

图片

    我们只要分析真实数据与预测数据的差值(残差),这些差值并不是完全随机的噪音,而是有一个明显的向上凹的规律的,如下图所示:

图片

    过度的压缩,导致这些向上凹的信息被丢弃了。如果我们换一个复杂一点的模型,比如二次曲线,则对应的残差已经完全变为随机噪音,看不到规律了。

图片

图片

    相反,规律如果比较简单,我们用一个非常复杂的模型去描述,模型文件势必会很大。在相同的训练数据训练出的两个模型,如果训练得分相同的话,那么模型文件较小的那个模型,它的泛化能力一定会比模型文件较大的强。因为朴素的生活经验告诉我们:“对于一件事,能用一句话总结清楚的人,肯定比啰啰嗦嗦用一大段话总结的人智商高”。无损压缩比越高,越接近事物的本原。

    ChatGPT是所有语言模型中最好的无损压缩

    据报道,ChartGPT原始训练数据集的大小是900TB,训练完成后,模型参数文件大约是64TB。因此整体的压缩比约为14倍 (900TB/64TB ~= 14x)。而传统语言模型如Bert、RNN,压缩比大约是8到10倍。因此可以说,ChartGPT是一个比传统模型算法更好的无损压缩器,因此更加智能。当然,这里的无损压缩器,准确地说应该近似无损的压缩器

    总结

    ChatGPT的成功,关键点不在于其庞大的训练数据,而在于其模型算法,对如此庞大的海量数据,依然实现了最高的无损压缩。

    从人类认知的过程来看,观察收集数据--归纳抽象--泛化运用的过程就是一个信息的无损压缩过程,因此,寻找更好的信息无损压缩算法,也许就是人工智能迈向更高级阶段的最佳方案。

猜你喜欢

转载自blog.csdn.net/sinat_37574187/article/details/132296975
今日推荐