《善数者成:大数据改变中国》读书笔记2

第四章 教育升“温”:用数据精准滴灌

4.1 教学科研:被大数据换上新颜

教育大数据有两大重要来源:一是在教学活动过程中直接产生的数据,比如学生的学习行为数据;二是在科学研究活动中采集到的数据,比如研究数据。

“私人订制”的内在驱动力在于个体之间的差异,而不同的个体对于服务有个性化的需求。在大数据时代,个体的需求已不再是一个黑箱,大数据使“私人订制”成为可能。

**“自适应学习”是指人与系统相互学习的非线性过程。**传统教育模式无法兼顾不同学生在学习能力、知识掌握程度和对教学风格的偏好等方面的个性化需求,只能采用“题海战术”来弥补知识漏洞。这对学生的学习效率和效果造成了严重影响。自适应学习则打破了这种局面,它能够基于对学生学习情况的精准诊断,为其提供个性化的学习方案。
松鼠AI可以通过对知识点的深度拆分,清晰精准地发现学生的知识漏洞和薄弱之处;同时还可以通过对学生的知识状态和能力水平进行持续性的实时多维数据评测,建立学生画像,有针对性地提供个性化学习解决方案,并且随着学生能力水平的变化动态调整,提升学习效率。
需要强调的是,自适应学习虽然在知识学习方面已远远超过老师,然而老师在知识讲解方面仍发挥着重要作用,老师与学生之间的情感交流也不是技术能替代的。

4.2 教育管理:因大数据而行稳致远

教育管理过程中也会产生大量数据,主要有两类:一是在学校管理活动中采集到的数据,比如学生数据、教职工数据和学校设备资产数据等;二是在校园生活中产生的数据,比如餐饮、网络和洗浴等记录数据。

通过对教师人数变化、排课进度、授课回顾图文的数量和质量、教师成长晋升经历、参与培训次数、参与梦想沙龙次数等多维度数据的分析来了解所在片区学校的情况,然后结合电话沟通和线下走访,实现更精准的运营。

东华大学将大数据技术应用于实验室管理系统中,有效解决了实验室管理效率低下的问题。实验室的使用情况数据,包括仪器的电流电压都实现了数据化。

电子科技大学的周涛教授曾做过一个叫作“寻找校园中最孤独的人”的课题。该课题从约3万名在校生中采集到了2亿多条行为数据,这些数据包括学生选课、图书馆刷卡、寝室门禁、食堂消费以及学校超市购物等数据,都是学生刷一卡通产生的。

在一次讲座中,周涛解释了大数据思维的三个精髓:第一是数据的外部性,即通过看似没有关系的数据去透视问题,利用一卡通消费数据来预测学习成绩和观察学生作息是否异常就是一个典型的例子;第二是数据的群集性,仅仅分析一张卡的消费数据并不能起到多大作用,需要将这张卡的数据与其他卡的数据联合起来分析才有可能发现问题;第三个是需要数据科学家去分析这些业已存在的数据。

4.3 教育与大数据:缘何走到一起

传统的教育模式是工业化时代的产物,教育内容与方式更像是标准化的“流水线”。而在大数据时代,学习者需要的是更为个性化、更有针对性的学习方式。

如果说大数据是教育创新所需要的“米”,那么这些“米”的来源就是教育信息化。有了“米”,数据的采集、存储和分析技术就是做饭的“锅”。
锅已到位,有些“米”早就存在了,为什么没有被做成饭呢?因为还缺少“巧妇”,也就是各类大数据应用人才。
大数据技术固然重要,但更为关键的是挖掘出需要解决的问题,将技术手段与问题导向结合起来,将数据和应用场景连接起来,这就需要有多种学科背景的专业人士来合作完成。
有了“米”“锅”和“巧妇”,才能做出好“饭”,三者缺一不可。

4.4 路在何方:人的全面发展与数据的底线

大数据技术在教育领域的深入应用离不开技术的不断进步。大数据技术在教育领域的应用主要面临三方面的技术挑战:第一,海量教育数据带给数据存储技术、数据处理技术和数据分析技术的挑战,这里技术也包括计算机硬件的数据处理能力、超级计算机算法技术等;第二,数据采集技术和问题分析技术的挑战,这是教育大数据应用的核心环节;第三,数据兼容性的挑战,主要是指不同数据存储系统中不统一的数据编码和数据格式,这会造成不同系统间的数据共享困难。

教育领域是一个庞大的生态系统,涉及各种各样的利益相关方,包括政府、学校、相关企业、社会组织、学生和教师等,但最终都落实到一个个活生生的人,而这每一个人的数据素养决定着整个教育领域乃至整个社会对于大数据的接纳和应用能力。

不能仅限于学习一些技术工具,更要培养综合运用大数据解决问题、创造价值的观念、素质和能力

在大数据时代,似乎一切都可以被数据化。然而,大数据的发展也存在两面性,它虽然能给人带来便利,但是也可能产生风险。

第五章 颠覆医疗:大数据助力健康中国

大数据在医疗上的应用已经涵盖电子医疗记录收集、可穿戴设备实时健康状况预警、基因测序实施精准医疗和按需调配医疗资源等方面。

5.1 “智慧养老”:让关怀永不缺席

看护系统主要包括:床垫传感器、马桶传感器、煤气泄漏报警器和室内红外线传感器等。

这些系统能够实现一些监测功能,如监测水龙头几天没被使用了,灯一直没有打开,燃气一直在使用(燃气没关)等。如果这些信号被监测到了,那么这些系统就会提醒这家人的亲人。

让百姓少跑腿、数据多跑路,不断提升公共服务均等化、普惠化、便捷化水平。要坚持问题导向,抓住民生领域的突出矛盾和问题。

5.3 “互联网+医疗”:医患和谐的“公约数”

北京大学深圳医院引入了包括输液感应器、PDA传输系统和病房传输系统的全闭环智能输液管理系统。护士会在输液前通过PDA对患者腕带进行扫码确认身份,同时将患者的生命体征测量数据转入计算机端以及护理记录中,患者即可进行输液。如果身份信息不相符合,PDA会用警报的方式制止输液。该全闭环智能输液管理系统能够实时监测患者输液剩余量和滴速,并将其数据远程反馈,可提前对护理人员进行预警提醒。

第六章 无侥幸天下:一个更安全的中国社会

6.1 要是此案在中国,早破了

据公开报道,深圳特区破获的刑事案件中,有一半是通过视频研判找到的破案线索;广州的视频破案率从2011年的10.51%跃升至2016年的70.96%;福建晋江利用视频监控破获的案件占案发总数的70%以上。全国各地还有数不胜数的城市公安部门,在刑侦支队内设了视频大队。

6.3 边缘计算:驱动计算之网

未来的摄像头,将不仅仅被用来收集数据,它还会对数据进行整合、分析和处理。
信息之于人类,可以分为三类:图像、文字、声音。人类接收它们的方式,主要是视觉和听觉,其中高达80%是通过视觉,剩下20%才是通过声音。图像不仅多,而且人类对图像也远比对声音敏感。人工智能的目标是要用机器代替人,那首先就要让机器具备视觉和听觉,即用摄像头取代人类的眼睛和耳朵。说得更具体一点,就是今天的普通摄像头必须成为智能摄像头。所谓智能摄像头,是指不仅能够录制图像,还可以分析图像,甚至收集、分析声音的摄像头。

2011年,思科(Cisco)全球研发中心原总裁博诺米(Flavio Bonomi)开创性地提出了“雾计算(Fog Computing)”的框架和概念。雾,四处弥漫、无处不在,它可以被看作一种贴近地面的“云”。“雾计算”借用了雾这个“四处弥漫、无处不在”的形象。传统的云计算是把所有的数据都集中起来处理,但“雾计算”把一部分数据存储在网络的边缘设备当中,并赋予边缘设备分析的能力,让计算直接在边缘发生,减少对数据传输和中心服务器的依赖。逻辑上分析,笔者更倾向于把“雾计算”称为“边缘计算”。这是一个新的趋势。

6.4 轨迹追踪:赋能公共安全

轨迹是一系列带有时间标记的位置信息集合。
人和车的移动是城市动态性最显著的体现。相对于人来说,车辆的体积较为庞大,它在交通路口必然会留下影像,加上车牌这个独特的标识,很容易被识别出来。因此,只要城市路口有足够多的摄像头,就可以拍下一系列带有“时间戳”的照片,再以车辆的车型、颜色、行车速度和驾驶人员特征为辅助,就可以画出车辆行驶轨迹,并据此推测到天网未覆盖区域的情况。

对车而言,天网最重要的部位是卡口。所谓卡口,是指城市中主要的、配有摄像头的交通路口。卡口和电子警察并不相同,两者的区别是,卡口会从正面拍下经过路口车辆的照片并识别车牌,而电子警察只针对闯红灯等违章行为从尾部进行拍摄。对过往车辆,卡口的捕获率已经超过99%。极个别的遗漏可能是因为车速过快,或者两车相距太近互相遮挡。除了少数逆光、眩光的照片,绝大部分照片中的车牌号码都可以被成功识别。
1992年的国家标准就禁用了英文字母“I”和“O”,以避免与阿拉伯数字“1”和“0”混淆;2008年颁布的《车辆号牌专用固封装置》(GA804—2008)又规定,使用号牌架辅助安装时,号牌架内侧边缘距离机动车登记编号字符边缘必须大于5毫米;车牌架外框不得带有标志、字母、装饰图案,更不得遮挡号牌字符,否则将被视为违法行为。这些规定都是为了方便机器识别车牌。
中国各地陆续开始推广左上角印有二维码的新型车辆号牌。二维码信息与号码相一致且具有唯一性,摄像头和民警执法时扫描二维码,就能更快、更方便地查对车辆信息,以甄别假牌、套牌车辆。
目前要实现卡口和停车场数据的连通,困难还很大,主要是因为城市停车场分属不同的机构,是多头管理。

6.5 硬盘和眼药水为什么同时脱销

每个基站都发出不同频段的信号,当用户从一个区域进入另一个区域时,手机就会从一个基站切换到另一个基站[插图]。在此期间,如果进行通话、短信和开关机,都会被记录下来。

除了利用基站圈定活动范围,今天大部分智能手机都内置有GPS导航系统,或者能接入Wi-Fi信号。这两种方式都可以辅助定位,而且精度比基站定位高很多,可以达到分米级。但是,这些数据都需要在用户知情、同意并授权的情况下才可能采集。

这就是手机定位的软肋,控制权被牢牢掌握在被追踪人员的手中,机主只要关机,就可以切断信号的追踪。

6.6 无侥幸天下:大数据重建社会的安全和秩序

前文说到,交通卡口拍摄车辆的捕获率已经达到99%,这属于静态识别,在技术上已经成熟,但动态识别的准确率就差得多,连评价的标准都难以定义。问题的根源在于环境的不可控,光线、角度的变化以及摄像头质量参差不齐,这些问题导致所抓取图片的质量有高有低,而最适合计算机识别的图片应该是正面、免冠、无表情的人脸。
闯红灯的场景介于静态环境和不可控制的动态环境中间,属于半控制的动态环境。
提高动态识别准确率的关键,在于控制拍照的环境。

第七章 数据造梦:为金融业挖出一座“金矿”

没有生产线,没有物流仓库,没有仪器设备,金融业本身就是数据生产、存储、处理和传输的集合,它与大数据有着与生俱来的天然匹配。

7.1 点石成金:余额宝背后的大数据故事

余额宝的出现,是阿里巴巴集团数十年电子商务数据(含相关支付数据)积累的结果。它掌握了数以亿计用户的个人数据,通过对这些数据的分析挖掘,可以很好地预判用户的违约概率等关键特征。
某种意义上,可以说正是这些事实上的“网络版央行征信”般的数据,为余额宝的业务发展提供了基本条件,同时也降低了做小额贷款和信用卡业务的门槛。例如,阿里巴巴集团将用户购物、支付、转账等数据提供给余额宝,余额宝的数据分析师们通过对这些数据的深度分析,可以更好地预估未来一定期限内赎回资金的规模,从而更好地安排货币基金的流动性;更进一步,还可以对用户的特征进行分析,如用户年龄、地域、浏览行为、搜索习惯、交易频率等,可以更好地应对申购赎回,同时还可以对资金进行效益最高的期限配置。
余额宝汇集了自身业务数据、阿里巴巴集团的电商数据和蚂蚁金服集团的支付数据,可用的基础数据维度超过二十个。

7.2 技术升维:大数据风控破壳而出

数据分析系统正在取代传统的风控模式,再用传统的方式做风控已经不行了。
在新的时代背景下,对金融机构来说,大数据风控已经成为横跨信贷、保险等场景的通用业务流程,成为普惠金融服务的重要环节。在最新的“中国金融科技创新企业估值榜中,大数据风控公司占比超过一半,数量达到32家。仅以其中第二名的京东金融为例,该公司有3000多名员工担任风控和大数据相关岗位,占员工总数的比例超过五分之三。与传统业务相比,大数据风控人工参与度低、效率高。
据了解,很多互联网金融平台的风控自动化水平非常高,不少都在80%以上,而贷前的信用评估、防欺诈等环节,更是已经实现100%模型决策。
顾名思义,大数据风控就是将海量的多维度数据输入模型,由计算机系统自动判别借款资信状况。大数据风控核心在于模型,尤其是变量特征,将输入的数据做成成百上千的变量,用于交叉检验。这就好比如果一个人说了谎,就需要不断地编织谎言去圆,但在大数据面前,这种谎言很快就会无所遁形,很容易被识别出来。
如果说模型是大数据风控的核心,那么数据,尤其是海量的数据,则是大数据风控的动力来源。目前可用于风控模型的数据主要掌握在互联网平台企业、金融监管部门、国有大型银行手中,数据流通不畅,这对大数据风控在更大范围、更高层次发挥作用其实是不利的。

7.3 火眼金睛:大数据金融监管走上舞台

银监会EAST系统在数据采集、监管数据模型积累和内部信息共享等方面取得了骄人的成绩,但仍存在进一步提升的空间。例如,系统在打破内部信息壁垒的同时却形成了自下而上的数据烟囱,一定程度上增加了金融监管数据与同级的工商、税务、公安和司法等部门数据之间实现共享的难度,这就需要建立起跨行业、跨部门和跨层级的数据共享体系和多部门协同的立体监管体系。
数据方面,灵鲲拥有多个来源的海量黑产数据,为实现智能识别黑产、进而保护金融消费者提供了可靠的保障。灵鲲的数据来源除了微信和QQ等平台的海量社交数据,还包括腾讯安全团队与网络黑产势力十多年对抗经验的沉淀与积累。数据内容除了拥有19年攻防经验的QQ等场景的攻防数据,还包括亿级的黑产设备、黑产工具和黑产轨迹数据等。
算法方面,灵鲲主要将重心放在金融黑产识别和涉众金融风险预警两个领域。在金融黑产识别领域,灵鲲建立了从行为监测、数据分析到结果判定的全流程管理,在有效的数据源管理的基础上,通过对金融犯罪样本的深度分析,构建各种反作恶算法模型和相应的决策引擎,实现对金融风险的自动识别。
在非法集资和涉众金融风险预警领域,灵鲲主要以多源数据融合、多维度信息关联、基于知识图谱的平台风险指数计算和涉众人数增长异常预警等核心技术为基础,对互联网上活跃的金融平台与服务进行全面的监测,进而利用相关算法计算风险指数,实现早期预警。
大数据监测预警金融风险平台以大数据、云计算为技术支撑,构建针对5个领域、17个行业的分析模型。其核心功能是“冒烟指数”的计算,该指数包括5个主要维度,即合规性指数、收益率偏离指数、投诉举报指数、传播力指数和特征词命中指数。

7.4 数据信托:一个全新的大数据金融产品

早在2016年9月,中航信托就率先发行了首单基于数据资产的信托产品,总规模为3000万元,是第一家将数据做成金融产品的信托公司,也是业内第一家明确提出“数据是一种资产”的公司。

数据信托,就是委托人将其所拥有的数据资产作为信托财产设立信托。受托人按照委托人意愿聘用专业服务商对数据进行专业管理与运营,通过数据的运营所产生的增值收益作为信托利益,用于分配给信托投资者;而委托人则通过信托收益权转让的方式获取现金对价,以信托财产的方式实现数据资产的价值变现。

大数据的商业使用要求与信托财产的独立性和安全性具有天然契合性。**数据资产的特殊性在于:个体数据所有者、数据的控制者和数据利益的享有者之间存在相互分离的现象。**这种分离,使数据资产的各项权能安排可以通过信托财产制度得以有效落实,也就是说,数据资产成为信托财产不仅具有合理性,更具有可操作性。
通过数据信托,既可以有效解决数据资产的授权使用问题,又可以对数据资产的收益作出合理安排。
根据委托人所承担角色的不同,委托人可分为数据生产商和数据运营商两种,前者是委托自身产生的数据,后者是委托非自身产生但合法取得的数据。数据生产商可以通过设立信托,将其所属的核心数据资产作为信托财产;数据运营商基于合法途径取得对数据的控制和使用权,即可将这部分数据资产作为信托财产设立信托。

7.5 浪潮席卷:一个无可限量的市场

在金融大数据席卷一切的同时,金融大数据的发展也面临着许多困难和阻碍,如信息孤岛现象严重、数据流通不畅和数据整合难度大等。但瑕不掩瑜,相比其他行业来说,我国金融行业的大数据技术应用处于领先水平,已基本完成业务系统信息化和原始的数据积累工作,目前正在从以数据采集自动化与业务信息化为特征的初级阶段向更高阶段转型升级。高级阶段的特征主要表现为数据的共享利用和复杂算法的应用等,在具体应用领域上将表现在利用大数据加强风险管控、促进精细化管理和支持服务创新等方面。
大数据在
加强风险管控、促进精细化管理和支持服务创新
等方面具有很强的现实意义。
未来,大数据与金融的结合将更加具体到不同的细分领域,会与这些细分场景紧密融合,如信贷、支付和保险等。以信贷场景为例,大数据不仅在风控环节发挥作用,还会在贷前、贷中和贷后的全流程都与原有业务深度融合。依靠更精细的全域用户画像,大数据在获客、反欺诈、风险定价等环节都将得到商业化的机会,这也将大幅提升相关细分行业的经济效率。
当大数据在信贷场景和支付场景的渗透率达到一定水平后,下一个爆点可能是保险场景。相对银行来说,保险行业的IT基础设施与大数据应用水平较为落后。

猜你喜欢

转载自blog.csdn.net/mighty13/article/details/119336806