《人人都在说谎:赤裸裸的数据真相》读书笔记3

第三部分大数据:请小心轻放

第七章 大数据,大框架?其力有何不能胜

新的大数据来源能否成功预测股票的走势呢?答案很简单:不能。

这一章是关于大数据的局限性的——我们无法运用大数据做到的事,有时还包括我们不该运用大数据去做的事。

在第3章中,我们注意到,当一个特定领域的现有研究还不够深入的时候,新数据很可能会带来巨大的回报。

维度的诅咒是大数据的一个主要问题,因为新的数据集经常会给我们带来比传统数据源更多的变量——每一个搜索词、每一种推文等。无论何时,只要拥有多个变量(或者说“维度”,在这个例子中就是1 000个硬币)又无须做太多观察(在这个例子中就是两年中的504个交易日),这个方法就有可能奏效,其中一个维度(在这个例子中是391号硬币)可能就很幸运。可如果减少变量的数量(仅抛100枚硬币),其中一个变量成为幸运币的可能性就要小很多,再增加观察的数量(尝试预测标准普尔指数20年的走势),那硬币是根本无法胜任这项工作的。

来自印第安纳大学和曼彻斯特大学的一组计算机科学家声称,他们可以根据人们发推文的内容来预测市场的走向。他们建立了一种算法,根据推文将全世界每天的情绪进行了编码。他们发现,诸如“我很平静”这类表示冷静的推文,预示着道琼斯工业平均指数有可能在六天后上涨。根本问题是他们测试了太多东西。如果你测试的事物足够多,就算出于偶然,其中一个事物也会有重大的统计学意义。

事实上,这也一直是遗传学和智商研究的一般模式。科学家先是报告称,他们已经发现了预测智商的基因变体;然后,他们又得到新的数据,发现自己原来的说法是错误的。如果你测试了足够多的推文,想验证它们是否与股票市场相关,那么你会偶然发现其中一篇恰好相关。如果你测试了足够多的基因变体,想验证它们是否与智商相关,你也会偶然发现其中某种基因恰好相关。

如何才能克服维度的诅咒呢?你必须对自己的工作保持谦虚谨慎的态度,而不是一味关注结果,难以旁顾。**你必须通过附加测试检验这些结果。**你尝试的变量越多,样本外测试就越困难。跟踪记录尝试过的每一个测试也是至关重要的。如此一来,你便可以确切地知道自己成为诅咒受害者的可能性有多大,知道对自己的研究结果应该持什么样的质疑态度。

数字可能极具诱惑力,我们可能会越来越依赖它们,也会因此忽略很多更重要的考量因素。
看看21世纪的美国学校吧,他们看重学生的考试成绩,并根据学生的分数来评判教师。**虽然对课堂教学活动采取更客观的评价措施的愿望是合理的,但教学过程中的许多瞬间是无法以数字的形式轻易捕捉到的。**而且,所有这些测试都迫使许多教师进行应试教学,甚至还有更糟的事情发生。布赖恩·雅各布(Brian Jacob)和史蒂芬·列维特曾在一篇论文中证明:有一小部分人在管理这些测试的过程中根本就是在弄虚作假!这个问题在于:我们可以测量的东西往往不是我们真正关心的事情。我们可以估量学生在多项选择题上的表现,却不能轻易评判其批判性思维、好奇心或个性发展。只是试图增加一个单一的、易于衡量的数字,比如测试得分或一天中走路的步数,并非总是有助于实现我们真正想要实现的目标。
或者再看看20世纪90年代棒球的数据革命吧。当时许多团队开始使用越来越复杂的统计数据,而不是依靠传统的人类球探来做决定。进攻和投球估量起来容易,防守可就难了,所以一些球队最终输在了低估防守的重要性上。
其解决方案并非总是更大的数据。为了让大数据充分发挥其作用,有一种特殊的调味剂通常是必不可少的:对人类和小型调查的判断,我们可以称之为小数据。

实际上,由于需要小数据作为其主体部分(巨大的点击量、点赞数和发帖量)的补充,脸谱网的数据团队看起来可能和你猜想的不一样。脸谱网雇用社会心理学家、人类学家和社会学家正是为了找到数字错过的东西。
一些教育工作者也越来越关注大数据的盲点,他们正在举全国之力不断以小数据来填补质量测试的不足。对学生的调查增加了,对家长的调查增加了,对教师的观测也越来越多,会请有经验的教师旁听,在课堂中观察一个教师的表现。
我预测,大数据的革新将会带来一场革命,但这并不意味着我们可以用数据解决一切问题。大数据无法消除千年来人类探索出来的认识这个世界的所有方法,它们互为补足。

第八章 数据越多,问题越多?哪些事情不可为

有时候,大数据的力量之所以令人瞩目,是因为这些数据令人不寒而栗。这就引发了一些道德问题。

这些学者利用来自P2P(个人对个人)贷款网站Prosper的数据。潜在的借款人会写一个简要介绍,说明为什么他们需要贷款,以及为什么他们可以如期还款,潜在的贷款人据此决定是否为他们提供贷款。总体来看,大约有13%的借款人拖欠过贷款。事实证明,潜在借款人说的话是他们偿还概率强有力的预测指标。即使贷款人了解了潜在借款人的其他相关信息,包括信用评级和收入,他们的措辞也是一个重要的指标。总而言之,根据这些研究人员的研究,一个人如何还贷的详细计划和过去曾履行过的承诺是他会偿还贷款的证据。做出承诺、博得同情是一个人不会还款最为明显的迹象。
这就是那个道德问题:企业是否有权根据与其提供的服务不直接相关的抽象统计学预测标准来判断人们是否可以享受其服务呢

扫描二维码关注公众号,回复: 13421342 查看本文章

其中一些相关性可能是源于维度的诅咒。如果你测试了足够多的东西,一些东西便会随机地联系起来,但一些兴趣可能与智商正相关。
更好的数据也可能导致另一种形式的歧视,经济学家称之为价格歧视。企业常试图确定应该为其商品或服务收取多少费用,理想情况下,他们希望收取客户愿意支付的最大费用。这样,他们就能获得最大的利润。
大多数企业最终都会选择一个所有人都愿意支付的价格,不过他们有时候会意识到某个特定群体的人平均会支付更高的价格。这就是电影院对中年顾客(依据其赚钱能力)收取的费用要比学生或老年人高,航空公司常向最后时刻购票者收取更多费用的原因。这就是看人定价格。
大数据可以让企业更准确地了解顾客愿意支付多少钱,进而哄骗某些群体。我们有权利担心在线数据越来越好用会让赌场、保险公司、贷款机构和其他企业实体对我们施加更大的影响。

另外,大数据也能让消费者对那些收取过高费用或提供劣质产品的企业进行有力的回击。消费者的一个重要武器就是点评网站

换句话说,互联网数据可以告诉企业应避开哪些顾客,又应该剥削哪些顾客;也可以告诉顾客他们应跳过哪些企业,又是哪些企业在试图剥削他们。迄今为止,大数据推动了消费者和企业之间的斗争,但我们必须确保这一斗争公平。

越来越多的证据表明与犯罪活动有关的谷歌搜索确实和犯罪活动有着千丝万缕的关系。
我们可以利用地区层面的数据来分配资源。如果一座城市的自杀相关搜索量激增,我们就可以提高这个城市的自杀预防意识。但是,我们应该非常不情愿走到这一步:在犯罪行为发生之前就追究个人的责任。然而,谨慎使用个人数据的理由甚至是超出道德层面的,还有一个数据理由。从试图预测一座城市的行为到试图预测一个人的行为,对数据学家来说是一个巨大的难题。
然而,总的来说,我们必须非常谨慎地使用搜索数据来预测个人层面的犯罪。数据清楚地告诉我们,虽然有很多可怕的搜索,但很少会有此类行为发生。迄今为止,还没有任何证据表明,政府可以通过检查这些搜索预测到十分可怕且发生率极高的行动。所以,在政府依靠数据干预个人犯罪层面,我们务必要小心谨慎。这不仅仅是出于道德或法律的原因,至少目前来说这也是出于数据科学的原因。

后记

波普尔认为,任何社会科学家都是不够科学的。波普尔认为这些所谓的科学家的工作并不严谨。物理学家可以利用严谨的实验找出物理世界的运行方式,相反,许多人认为经济学家、社会学家和心理学家是“软科学家”,只需抛出一些毫无意义的术语便可获得终身职位。

过去,这话在很大程度上是真的,但是,大数据革命改变了这一点。**我们可以称之为大规模科学,即采取一种简单的方法,利用大数据在短时间内进行数百次分析。**毫无疑问,社会科学和行为科学的规模一定会扩大。还有一种手段也有助于这两门科学扩大规模:A/B测试。我们讨论了在企业让用户点击标题和广告的情况下进行的A/B测试,这一直是该方法的主要用途。相比让人们点击广告的箭头,A/B测试还可以用于发现更基本、更有社会价值的东西。
文本数据可以教给我们更多东西。想法如何传播?新词如何产生?单词如何消失?笑话如何形成?为何有些话很好笑,其他话则不好笑?方言如何发展?我敢打赌,20年内,我们一定会对这些问题有深刻见解。

猜你喜欢

转载自blog.csdn.net/mighty13/article/details/119284154