少儿Python编程2-计算机和信息处理

一、认知的四个层级

认知层次结构自底向上分为数据、信息、知识、智慧四个层级。

DIKW体系:

数据是没有经过组织或处理的文字符号图像等,来源于事实。数据仅仅代表本身,可以说,数据是孤独的,比如165,数据165就代表165,没有别的。

信息是什么呢,我们通过某种方式对组织或处理数据时,需要进行分析,让数据之间产生关系,这样可以用来回答一些简单的问题,比如谁?哪里?信息就是有序排列的数据。比如,165后面加上cm就变成身高,当然具体是什么,还要结合语境。

知识就是判断信息是否有用的过程,这个过程结合上下文,诠释,反省。信息结合越多,就越容易判断正误。比如女性身高165cm,这是通过对信息的诠释,得出的一个判断结论,这是一个积累过程。

智慧,做正确判断的能力,和对知识的正确使用,智慧可以回答为什么的问题,判断是非、对错、好坏,关注未来,试图理解过去没有理解的东西,是人类特有的。我们有了女性身高165cm的知识,当我们想要给女朋友买一件衣服的时候,我们就会选出适合的尺码,而不会选择一件童装。

比如,榴莲是数据,好吃或不好吃是信息,尝过一下直接实践后得到的经验,这是知识产生的过程,吃过以后有了判断这就是智慧。

这些都是人类的认知发展过程。

信息和数据的关系:

数据是信息的载体,是信息的表现形式。因此,如果一个数据被赋予了意义,就可以被称作是信息。因此我们可以认为没有数据就没有信息,数据是信息的来源。[1]

数据是记录,是载体,是呈现方式,而且方式不限于电子;信息则是内容,是数据的内涵,信息是加载于数据之上,对数据作具有含义的解释。

信息有意义,而数据没有。因此,我们将数据处理之后的结果称为信息,可以看出信息具有针对性、时效性的特点。也可以认为,数据比较具象,而信息比较抽象。

数据是原始事实,而信息是数据处理的结果。

不同知识、经验的人,对于同一数据的理解,可得到不同信息。

二、计算机信息表示

人类作为文字的发明者和使用者,通过文字来表示和传达信息,是一种非常自然的方式。但在计算机中,却不能通过文字来表示信息,因为机器无法理解文字。

计算机由逻辑电路组成,逻辑电路通常只有两种物理状态:“打开”的状态和“关闭”的状态。这两种状态正好可以用数字1和0来进行表示,使用1表示打开的状态,0表示关闭的状态。[2]

这种使用数字1和0来表示信息的方法,称为二进制表示法。那么如何让只能读懂0和1的计算机读懂人类的文字呢?这就需要给计算机做一本字典,把文字翻译成计算机的语言,也就是不同的0和1组合与文字做一个对应关系,这就是计算机编码。

比如如在计算机中输入“我喜欢你”,计算机看不懂你说的什么,因为他只能读懂0和1这些数字呀。所以呢,我们先在计算机中编写一本字典告诉它:

这时候计算机就会对照这本字典来理解的你的意思,哦,原来你说的是000 001 010 011。

在现实中,人们已经做了这项工作,当然这个字典全世界通用的,否则一个地方的计算机就无法识别另一个地方的计算机数据了。

计算机用01组合表示一个字符, 一个字节能表示2^8=255种组合。

通过这种编码工作,就可以把人类的文字翻译成二进制数据,这样计算机便可以处理这些数据了。

为保证人类和设备,设备和计算机之间能进行正确的信息交换,人们编制的统一的信息交换代码,这就是ASCII码表,它的全称是“美国信息交换标准代码”。

通过这种编码工作,就可以把人类的文字翻译成二进制数据,这样计算机便可以处理这些数据了。

例如:查表得 A 的ASCII码值为(01000001)2=(41)16=65;

因为计算机是外国人发明的,他们使用的是英文,所有就没有考虑中文汉字的编码问题,为了用0、1代码串表示汉字,我国制定了汉字的信息交换码GB2312-80,简称国标码。

由于汉字的字符多,一个字节的二进制不能包含全部汉字,所有国标码的每一个符号都用两个字节(16位二进制)代码来表示。

国标码共有字符7445个。一级汉字3755个,按汉语拼音顺序排列;二级汉字3008个,按部首和笔画排列。

随着计算机的普及,每个非英文国家各自编制了自己的一套编码, 始终得不到同一,于是Unicode应运而生。所有语言编码统一到Unicode编码里,这样就不出现乱码的问题了。

unicode编码都是俩字节的, 偏僻的可能用了四字节。

编码的存储:

如果我们需要编码的文本都是英文的, 那么用unicode的两个字节是不是很浪费,明明一个字节就可以,却用了两字节。

为了节约, 出现了utf-8编码, UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。

Unicode和utf-8的关系:

在内存里统一使用unicode,记录到硬盘或者编辑文本的时候都转换成了utf8

Unicode 统一字符编码,给每一个字符一个唯一编码,保证不重复。

UTF-8 将Unicode编码后的字符串保存到硬盘的一种压缩编码方式。

   

三、位和字节

比特(位bit):

  1. 概念:计算机中最小的计量单位,位也叫比特,比特也叫位。32bit,64bit(也称32位,64位)
  2. 位与字节的换算关系:1字节(Byte) = 8比特(位bit)
  3. 位与二进制的关系:1比特(位bit) = 1个2进制位

字节(Byte):

  1. 概念:计算机中第二小的计量单位,是变成内存布局中的常用单位。
  2. 字节(Byte)与千字节(KB)的换算 1个千字节(1KB) = 1024字节Byte

(在编程中,分析变量在内存布局最常用的是字节单位,因此KB不会用到,再大计量单位还有兆(MB),GB,TB)。

  1. 字节与二进制的关系:

1比特 = 1个2进制位

1字节=8比特

因此1字节 = 8个二进制位。

计算机存储容量的基本单位:

计算机存储容量的基本单位是字节,又名Byte,用大写字母B表示。比特和字节同为存储容量的单位,都用来表示计算机的存储容量大小,但是两者是不一样的,比特是计算机存储容量的最小单位;字节是计算机中存储容量的基本单位。

什么是字节?

字节,是英文单词 Byte的中文翻译,是计算机中存储容量的常用单位,实际意义上表示一组8个二进制位。举个例子,一个英文字母,通常用8个二进制位的编码表示,那么存储的时候,就说这个英文单词占用一个字节的存储空间。而一个中文汉字,通常要占用两个字节的存储空间。

为什么存储容量的基本单位是字节?

从上面字节的定义分析可知,计算机里面的英文字母和、中文汉字,或者其他计算机符号,都是通过二进制的编码存储的,如果用占用多少二进制编码位来表示存储容量,将非常不方便,也不好记。如果把这些二进制位,8个分为一组,取名字节,这样就很方便,也更容易记住,这也和ASCII码相对应。比如说字母a占用一个字节的存储空间,比说字母a占用8个二进制位或8个比特为好记得多。这也就是计算机中存储容量的基本单位用字节的缘故。

所以虽然计算机中存储容量的表示单位有字节和比特,但是计算机存储容量的基本单位是字节,而不是比特;比特只是作为计算机存储容量的最小单位而存在。

二进制和运算:

我们平时使用的十进制是逢10进1,同理二进制就是逢2进1。

二进制的运算:

四、参考文献

[1]: 信息和数据有什么区别? - 知乎

[2]: Python零基础入门到精通-3.1节:掌握计算机的信息表示 - 知乎

猜你喜欢

转载自blog.csdn.net/weixin_40239288/article/details/125562830
今日推荐