《善数者成:大数据改变中国》读书笔记1

内容提要

数据之大,“大容量”只是表象,“大价值”才是根本。
数据自古有之,它是对万事万物的精确刻画,也是对客观世界的普遍记录。

推荐序

通俗地说,数据是数字化的资料,而大数据,就是大而复杂的资料集。
当数据积累到一定的量级,数据背后关于自然和社会的客观规律也开始呈现出来,人类通过挖掘、分析,可以从庞大的资料集中判断事物的特点、趋势和相互关系,从而让数据释放出科学的伟力。
挖掘各领域数据的价值,从而实现由数据到信息再到知识和决策的转换,将是一个基本的社会科学活动。
发展大数据具有独特的优势,一方面,这和我国数据资源丰富、市场规模巨大、互联网普及程度高有关;另一方面,我国能够集中力量办大事,也保障了数据归集、标准统一等大数据基础性问题的解决。
大数据时代出现的公共问题尤其值得我们关注,比如数据鸿沟、数据安全、数据主权、数据如何跨境流动,以及隐私保护等。

前言

社交媒体、移动互联网和物联网的发展,让人类经历了空前的数据爆炸;而数据处理和分析技术的进步,更让人类使用海量数据的能力得到了极大的提高。借此,人类可以更好地发现知识、提升能力、创造价值,政治、经济、学术等各大领域都出现了新的发展机遇。
我国在大数据领域具有市场规模和数据资源优势。

第一章 大数据的前世今生

在互联网经济时代,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。

1.1 正解大数据:世上本没有数

数据的来源分为测量、记录和计算。一切科学的本质都是测量。
传统意义上的数据,和信息、知识也是完全不同的概念:数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现规律的信息。
20世纪80年代,美国就有人提出了“大数据”的概念。那时候的“大”,如“大人物”和“大转折”之“大”,主要指价值上的重要性。这个时候的“大”,含义也更加丰富了:一是指容量大,二是指价值大。而且大容量并不一定代表大价值。大数据的真正意义还在于大价值,价值主要通过数据的整合、分析和开放而获得。从这个方面来看,大数据的真正意义是,人类拥有了前所未有的能力来使用海量的数据,在其中发现新知识、创造新价值,从而为社会带来“大知识”“大科技”“大效益”和“大智能”等发展机遇。

1.2 存储革命:摩尔定律推动的进化

普适计算理论认为,计算机发明以后,将经历三个主要阶段:第一阶段是主机型阶段,指的是很多人共享一台大型机,一台机器就占据半个房间;第二阶段是个人计算机阶段,计算机变小,人手一机,韦泽当时就处于这个时代,这似乎已经是很理想的状态,但韦泽天才般地预见到,人手一机不是时代的终结;在第三个阶段,计算机将变得很小,小得将从人们的视线中消失,人们可以在日常环境中广泛部署各种各样微小的计算设备,在任何时间、地点都能获取并处理数据,计算设备最终将和环境融为一体,这个阶段被称为普适计算阶段。

普适计算的本质,是在人类生活的物理环境中广泛部署微小的计算设备,实现无处不在的数据自动采集,这意味着人类收集数据能力的增强。在此之前,电子化的数据主要由各种信息系统产生,这些信息系统记录的主要是商业过程中产生的数据。而传感器的出现及其技术的成熟,使人类开始有能力大规模记录物理世界的状态,这种进步推动了大数据时代的到来。

1.3 社交媒体:每个人都是数据的生产者和协作者

人类数据的真正爆炸发生在社交媒体时代。
互联网的主要作用是信息的传播和分享,其最主要的组织形式是网站,但网站是静态的。进入Web2.0时代之后,互联网开始成为人们实时互动、交流协同的载体。
社交媒体的另外一层重要意义就是,给全世界无数的网民提供了平台,使其随时随地都可以记录自己的行为、想法,这种记录其实就是贡献数据。
所有的数据都是人为产生的,所有的数据都是对世界的测量、记录和计算。
除了数据总量骤然增加,社交媒体还使人类的数据世界更为复杂。在大家发的微博中,你的带图片,他的带视频,大小、结构完全不一样。因为没有严整的结构,在社交媒体上产生的数据也被称为非结构化数据。
现在进入大数据时代,最根本的原因是人类使用数据的能力取得了重大突破和进步。
在这里插入图片描述

1.4 数据挖掘如何点“数”成金

数据使用能力的突破集中表现在数据挖掘上。
数据挖掘的进步,根本原因是人类能够不断设计出更强大的模式识别算法。
传统菜市场最大的痛点就是信息不对称,进货的商户找不准市场真实需求而导致商品积存或出现质量问题。
当下兴起的机器学习凭借的也是计算机算法,但和数据挖掘相比,其算法并不是固定的,而是带有自调适参数的,也就是说,它能够随着计算、挖掘次数的增多,不断自动调整自己算法的参数,使挖掘和预测的结果更为准确,即通过给机器提供大量的数据,让机器可以像人一样通过学习逐步自我改善提高,这也是该技术被命名为“机器学习”的原因。
除了数据挖掘和机器学习,数据的分析、使用技术已经非常成熟,并且形成了一个体系。数据仓库、联机分析处理(OLAP)、数据可视化、内存分析都是该体系的重要组成部分,在人类数据技术的进步过程中,都扮演过重要的角色。

在这里插入图片描述

第二章 数字治理:用大数据提升政府管理与公共服务水平

要建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,实现政府决策科学化、社会治理精准化、公共服务高效化。
“最多跑一次”改革的本质,不是简单地把多个政府部门的窗口在实体意义上集中到一起,而是一次政府部门的自我革命。其中,组织架构变革与行政流程再造是基本保障,打破数据孤岛、完善数据治理是关键环节。

2.1 从“告别奇葩证明”到“告别证明”

“奇葩证明”背后的原因是我国一些政府部门掌握的数据还没有实现跨地区、跨部门共享。数据不跑腿,就只能群众和企业多跑腿。
提出计划打造“一个库”,将联合建设长三角数据中心,把数据格式、口径、目录、接口等都统一起来,让数据资源更管用。一方面,要抓紧推动基础数据库的建设,把各自的政务数据、行业数据、社会数据统一按标准进库;另一方面,依托统一的数据共享平台,实现跨部门、跨省市共享应用
大数据时代的政府组织架构变革与行政流程再造,最终目标和理想状态是建立一个整体性的政府。在整体性政府中,各地区各部门的行政目标和手段不仅相互一致,而且还能相互增强。

2.2 “12345”数据让城市更美好

更进一步地,政务热线的数据不仅可以在政府内部使用,还可以在脱敏后向社会开放,让各种社会主体一起来挖掘数据价值。
大数据和人工智能时代的政务热线已不仅仅是传统的热线呼叫中心,更成为城市数据中心和智能化服务平台——通过热线大数据的挖掘来有效识别公共需求及城市问题,从而支撑政府决策和城市治理走向科学化和精准化。

2.3 大数据辨识真假“鬼城”

吴海山的团队通过分析智能手机定位数据,首次对我国的“鬼城”进行了量化研究,监测到20个城市住宅空置率比较高的区域,并将因旅游度假的季节性因素造成的住宅空置和真正的“鬼城”进行了区分。
著名人工智能科学家吴恩达(Andrew Ng)对此评论道:“是时候让机器学习来实现数据驱动城市规划了。”
大数据让政府决策从经验驱动转向数据驱动。
开展数据关联分析和应用的前提是跨部门数据共享和数据治理。
国务院大力推动政务信息系统整合共享取得了积极成效,“各自为政、条块分割、烟囱林立、信息孤岛”的问题得到了明显改善。
要真正实现政府数据整合共享,还需超越“为共享而共享”的思路,站在数据治理的高度来审视、规划和推动数据共享工作。第一,要推进数据治理法律法规建设,营造“依法治数”的良好环境。第二,要健全数据治理组织架构,完善数据治理管理机制。第三,强化数据资源管理体系,全面提升数据治理能力,这涉及数据质量、数据安全、数据标准、数据架构、元数据管理和数据全生命周期管理等内容。第四,加快数据共享开放步伐,建设数据利用生态体系,吸引社会各方基于城市的实际需求和应用场景对开放数据进行融合利用,创造社会经济价值,并形成正向反馈,进一步推动政府数据治理和数据共享开放,构建起一个动态循环的开放数据生态系统

2.4 “数据铁笼”让权力不再“任性”

贵州省打造了“数据铁笼”,省纪委监委引入公职人员的个人信息、工商数据、死亡数据、房产信息、车辆信息、大病医疗异常分析等10个比对模型,并打通与民政、人社、住建、卫计、移民等主管部门的数据共享壁垒。
大数据为完善政府自身管理提供了新的手段。在大数据、云计算和移动互联网等技术的辅助之下,实现权力运行全程规范化、数字化,处处留痕迹。
变人力监督为数据监督、变事后监督为过程监督、变个体监督为整体监督,大大压缩了权力寻租空间。
值得注意的是,数据在政府自身管理中的运用并不能孤立存在,只有把它与制度、组织、文化等方面的变革结合起来,才能真正发挥潜力。只有在制定好权力清单、责任清单、负面清单的基础上,才能将权力运行流程和环节细化、固化和数据化。只有针对权力运行的流程建立起完善的风险评估机制,才能在技术的辅助下及时预警和发现行政不作为、乱作为等行为。技术再先进,最终还是要靠人来执行。

2.5 “Gov Store”:开放数据,建立生态

数据是国家的战略性资源,国家大量基础性、关键性的数据掌握在政府手中。这些数据是社会的公共资源。
政府数据开放的根本目的在于推动数据利用。
通过开放数据,政府部门不必再自己提供全部的公共服务,而是可以通过与数据利用者的合作来提供公共服务,在解决问题和创造价值的同时还节约了费用。
同理,政府部门通过开放数据,也可以建立起一个政府应用的生态系统“GovStore”,让企业、社会组织和公民个人等各种社会主体在平台上利用政府开放数据来进行创新应用。
政府数据开放是公共服务合作众创的基础。但是数据并不能为了开放而开放,而是要为了进一步推动“治理”回归本源。

2.6 数据跑不到的地方,用温情来弥补

我们也要避免“为了创新而创新”,只去追求表面上的新鲜炫丽;避免“言必称数据”导致下属忙于统计数据,却忽略了提升工作实效;避免只忙于囤积数据,却疏于数据治理,导致过时、错误的数据得不到有效治理;避免只重视数据中心的建设,却忽视大数据实际应用的落地。
大数据能够助力公共服务的便捷化、精准化和个性化已成为共识,这一转变固然离不开数据的支持,但更重要的是从供给导向到需求导向、从管理导向到服务导向的意识转变,防止“数据迷信”和“技术迷信”。毕竟,再先进的技术也改变不了不合理的工作流程和落后的服务理念。
在暂时无法依靠数据“跑腿”的情况下,把“群众跑腿”变成“干部跑腿”,体现了政府为民服务的意识。
而且,数据也不是万能的,不是所有证明都可以借助数据共享取消的。
2017年,东南大学研究生创新团队针对留守儿童问题研发的数据可视化平台,在一场大数据竞赛中获得最佳设计奖。该平台用数据可视化的方式展现各地区留守儿童的健康、教育、安全等情况,并且能够针对各村留守儿童管理状况进行综合评判和打分。该平台还能计算出设置留守儿童关爱站的最佳地理位置,方便政府部门更精准高效地服务留守儿童。
大数据时代的政府管理和公共服务,是用户导向的价值追求和效率提升的效用追求的融合,数据的力量为治理的每一个环节赋能,在制度、组织、文化等各方面全面提升的配合下,对内整合再造,对外连通开放,将更好地造福社会、造福人民。

第三章 变革时空:数据再造出行与物流

预测给我们知识,而知识赋予我们智慧和洞见。

3.1 城市“数脑”:改善交通拥堵的新方案

杭州“城市数据大脑”打响的第一战就将剑锋直指城市拥堵问题。
杭州正式发布了数据大脑交通系统V1.0,它具有智能路况感知、智能堵”情判定、智能事件巡查、智能配时优化和智能辅助等功能。城市数据大脑交通系统V1.0通过遍布主要交通路口的智能摄像头来实时采集流量、车速等交通数据,并利用这些数据构建虚拟化的杭州城模型,分析关联道路的实时车流量情况,提前预判可能的交通情况,以秒级速度分析设计出路口信号灯时长的最优方案,更智能化地调节交通灯的设置与时长。

3.2 智慧物流:实现更贴心的最后一千米

在举世瞩目的电子商务背后,是物流在为其提供支撑,电子商务的跃进伴随着物流业的不断发展。
中国的电商物流是如何实现数量与质量双跃进的呢?其秘诀在于融合大数据、物联网等创新技术与思维的智慧物流。
大数据、物联网和互联网等被普遍认为是智慧物流的核心技术。通过对商流、物流等数据进行挖掘和分析,大数据可以更精准、清晰地反映物流及市场的现状并预测未来变化,帮助企业更好地预测用户需求并形成派送路线、优化仓储网络和设备维修等方面的决策。
IBM最早提出了“智慧物流系统”(Intelligent Logistics System)的概念,认为智慧物流以具有先进、互联和智能三大特征的“智慧供应链”为基础,重视整合物联网、传感网与现有的互联网,通过精细、动态并且科学的管理,实现物流的自动化、可视化、可控化、智能化和网络化,从而提高资源利用率和生产力水平,创造更丰富的社会价值。
在仓储包装环节,菜鸟网络公司运用大数据技术智能调度商品存储。结合相关的商品、物流数据,菜鸟自动化仓库可以预测商品的畅销程度,进而对其仓库和货架进行智能调度,最大限度减少商品物流节点,缩短商品传送路径,提升仓储和物流效率
菜鸟网络还结合大数据和人工智能技术,实现了智能包装。传统的订单商品包装一般根据人的经验来选择,效率低且很可能会浪费大纸箱,而借助大数据和人工智能技术,菜鸟仓库在商品入库之前就知道其尺寸和特性,可以自动为订单分配最适合的纸箱和摆放方式。
在分单和路线规划上,菜鸟网络基于海量大数据系统和阿里云系统,以菜鸟电子面单为载体,推出了大数据智能分单项目,用大数据分单来替代人工分单。
在“最后一千米”的配送上,大数据也给菜鸟网络提供了更多可能。菜鸟网络的物流数据平台汇集商家、物流公司、气象数据和交通实况数据等数据资源,深度挖掘阿里平台上海量的商品、交易、用户信息和社会物流网络信息,实现了物流过程的数字化、可视化,能够对全国各大物流公司进行整
个包裹流转链路的运输预测和预警,让物流公司可以实时掌握物流网络每个环节的“未来包裹量预测”和“繁忙度实况预警”;同时也让商家能够了解物流公司的状况,选择合适的物流公司进行商品配送,实现智选物流的目标,让商品能够更快更安全地送到顾客手中。

3.3 数据开路:来一场说走就走的旅行

旅游市场流通领域的核心活动者是旅客而非商品,而旅客的流动通常由有关旅游商品的信息传递所引发。从这一意义上讲,信息是旅游业的核心内容。
马蜂窝正是中国UGC大数据最成功的应用者之一。马蜂窝用大数据发现用户、形成决策。用户旅行决策前,会在马蜂窝产生长期的内容浏览行为,比如浏览关于旅游目的地的相关游记和路线推荐、查询其他游客的点评等。通过挖掘相关数据,马蜂窝可以实现对整体客群的全景画像,为用户精准匹配。
后端的优质旅游产品,实现千人千面、所见即所需。同时,根据海量用户的需求趋势,可以根据大数据分析结果,优化旅游商品的供给,引导对应的供应商增加供应,并按不同用户类型提升自家的商品呈现力和销售服务力。而且在实现售卖之后,马蜂窝平台上就又会产生大量的用户购买和评价UGC数据,比如新的游记和评论,反推商品优化和内容引导。
大数据还为马蜂窝拓展旅游商业合作提供了可能,创造了旅游供应商之间的共赢。早在2014年,马蜂窝就与航空服务商“在路上”旅业合作推出了反向定制产品,这些产品根据用户偏好数据定制及预售,不仅符合旅行者需求,而且具有较高性价比,产品在推出的5分钟内被抢购一空。此外,海南航空、美国马萨诸塞州旅游局也与马蜂窝合作开发了系列反向定制旅游产品。这种预售+反向定制的C2B模式基于庞大的用户数据,预判消费者的喜好或消费倾向,定制相应的旅游产品,满足个性化出行需求。通过大数据分析用户行为或聚合社交力量,这种模式可以撬动和重构上游的旅游资源。
景区管理及景区相关产业的信息系统、视频监控系统、感知系统等所有数字景区系统每时每刻都会产生大量的数字、文本和视频数据;景区外部的社交网络等互联网平台也会产生大量与景区有关的数据。此外,景区独特的自然地理特征、历史文化特点等,也可以转化为空间地理数据和历史人文数
据。这些海量数据为景区的智慧化提供了数据资源,大数据技术则助力智慧化落实。
2018年重庆推出“重庆旅游云”,依托大数据、人工智能、云计算、物联网等智能化技术,对旅游目的地资源、服务等数据进行整合,以提升景区管理水平,助力景区精准营销和产品升级,并为游客提供行程规划和信息查询。
大数据可以更精确地告诉景区管理者景区内哪些景点更受欢迎、游客都来自哪里、游客有哪些需求、什么时间是景区的人潮高峰,等等,帮助景区管理人员更好地实现更科学和精细化的管理。

3.4 数据止痛:改变时间与空间的交错

错位的时空与滞后的信息,无处不在的痛点。
在交通、物流和旅游领域,实体与数据跨地理空间的流动速度是影响效率与效益的重要因素,也是目前限制其进一步发展的主要瓶颈。
在物流业,大量资源和数据分散于物流的各个环节中,但是物流各环节的主体间仍然存在着如孤岛般隔离的现象,供给与需求的信息无法完全对接,仓储和运送的速度难以有效提升。数据是旅游的核心要素,旅客流动、景点管理、旅游设施规划与服务提供等,都离不开数据。但是由于数据的不完备与流动的不畅通,旅游资源存在着极大的配置不均衡与浪费,游客的旅行体验也有待提升。
公共部门的交通管理数据、交通运输数据、交通规划数据、气象数据,企业的铁路、民航运输数据和保险数据,交通流量、道路监测等物联网数据,以及导航数据、位置数据等运营数据,等等,都是交通大数据的组成部分。
分散的数据再庞大,不进行整合则不能利用,不能利用则无法产生价值。
在交通、物流和旅游领域,大量数据为视频、图片等非结构化数据,而且数据是实时产生、实时变化的。在传统的小数据模式中,由于数据来源于样本而非总体,来自于静态的截面而非动态的全过程,人们更加注重数据与分析的准确性,关注因果关系;而大数据覆盖总体范围,产生于运行的全过程,更关注事物之间的相关关系,能够更快速地分析处理问题。

3.5 数据监管:立法规范进行时

海量的数据并不意味着准确的数据。虚假的数据将导致扭曲的大数据现实画像。
大数据如同其他技术一样,它的价值并不在于技术本身,而在于技术的具体应用。
采集数据时用户的知情权和同意权、数据被采集后的利用规范、用户要求删除个人信息的被遗忘权等权利都有受到侵害的风险。
原因在于这些互联网企业具有更多的技术和数据优势,在信息掌控上与消费者之间存在着不平等关系。

猜你喜欢

转载自blog.csdn.net/mighty13/article/details/119329314