第二部分大数据的力量

第四章数据吐真剂

人们百分之百对调查说谎。
即使大多数调查是匿名的，许多人在调查中也会隐瞒不堪的行为和想法。他们希望自己看起来好一点。这一现象被称为社会期许误差。

在现实生活中，大约有1/3的时间人们都会说谎。我们对调查说谎的另一个原因是，如果有人进行采访，我们强烈希望给做采访的陌生人留下好印象。说谎的另一个原因是单纯地想搞乱调查。对任何有关青少年的研究来说，这都是一个巨大的难题。因此，情况越是与自己无关，人们越诚实。想要得到真实的答案，电话调查比现场调查好，互联网调查比电话调查好。人们独自一人时比和他人在一起时会坦诚许多。

在敏感话题上，每一种调查方法都会有大量的误报。人们没有动机告诉调查人员真相。

我们怎样才能了解我们的人类同胞真正在想什么、做什么呢？我们可以参考官方数据来获得真相。

大数据的第二大功能是：某些在线资源可以让人们承认他们在其他地方不会承认的事。这些资源就是数字吐真剂。

即使你对自己说谎，谷歌也可能会知道真相。事实上，绝大多数美国人都在告诉谷歌一些非常私人的东西，证据很充分。

在看到搜索引擎自动尝试补全你的搜索时，你可能也注意到谷歌搜索中的某种诚实——它的搜索建议基于其他人最常见的搜索。

在本章中应该牢记的一点是：谷歌可能会透露对不体面想法（人们觉得不能与任何人讨论的想法）的偏见。

大多数人都认为，现如今互联网正使美国人之间日渐疏离，导致大部分人藏匿在网站里，在网上寻找和他们“志同道合”的人。哈佛大学法学院的卡斯·桑斯坦（Cass Sunstein）教授这样描述这种情形：“我们的通信市场正快速（向另一种情形）转变，人们把自己困在自己的世界里——自由派只关注和了解自由派，温和派只关注和了解温和派，保守派只关注和了解保守派，新纳粹只关注和了解新纳粹。”

换句话说，**相比完全隔离，互联网更接近使双方实现完美交集。**自由派和保守派每时每刻都会在互联网上“相遇”。换句话说，相比在线下，你更有可能在线上遇到持相反观点的人。

本书是关于大数据的，但这一章强调最多的是谷歌搜索，我认为它揭示了一个隐秘的世界，这个世界与我们自以为看到的世界截然不同。那么，其他大数据源也揭示了数字吐真剂吗？事实上，像脸谱网这样的大数据源往往与数字吐真剂相反。

在社交媒体上，就像在调查中一样，人们没有说实话的动机，而且人们在社交媒体上树立良好形象的动机远甚于在调查中自我粉饰的动机，毕竟在线表达都不是匿名的。脸谱网是数字化的（是向我的朋友吹嘘我的生活有多好的）吐真剂。

第五章放大数据

我们可以将这种越来越多地运用大数据来回答心理学问题的领域称为“大心理学”。

为了了解大心理学的工作原理，一起来看看我曾做过的一项研究吧——童年经历会对你支持哪支棒球队（或者你是否支持任何球队）产生何种影响。在这项研究中，我使用了脸谱网上带有“喜欢”某一棒球队标签用户的数据。我从脸谱网上下载了一些信息，这些信息表明美国职业棒球大联盟里的每支球队在各个年龄段分别有多少球迷“喜欢”它们。实际上，我计算了所有我研究过的球队的巅峰时期，然后计算出了这些球队球迷当时的年龄。这种模式对女棒球迷则不那么明显，但是女性喜爱一支球队的高峰年龄似乎是22岁。但是这种方法可能会帮助我们解决类似的问题，比如人们如何培养自己的政治偏好、性取向、音乐品位和理财习惯。我猜测，人们会发现自己成年后的很多行为、兴趣乃至那些被视为关乎人性的东西，都能用我们出生的年份发生的随机事件和我们小时候的某些关键年份发生的事情来解释。
传统观念——大多数人一开始都支持自由派，但会随着年龄的增长变得越来越保守。这就是丘吉尔常引用的一句名言：“弱冠之年而不轻狂壮志者，非有心也；不惑之年而不稳重内敛者，非有智也。”这些研究人员发现，政治观点的形成与我们对体育球队的偏好并没有什么不同。人的一生中有一段重要时期，即14~24岁，很多美国人会依据现任总统的受欢迎度形成自己的政治观点。总的来看，在这一关键时期形成的这些观点会持续一辈子。有了这些数据，研究人员就可以判断人们确立政治观点最重要的一年：18岁。

这就是大数据的规模之大真正发挥作用的地方。在照片中你需要很高的像素，方能清晰地放大照片的一小部分。同样，你也需要在数据集中进行大量的观察，方能清晰地放大数据的一小部分。
例如，大都会队在1978年出生的美国人中受欢迎程度如何。对几千人进行的一项小型调查不会得到这么充分的大样本。
这就是大数据的第三大功能：它使我们能够对数据集的一小部分进行有意义的放大，从而获得有关人性的新见解。

除了有更多的数据外，大数据能完成的任务绝不仅仅是通过那些调查就能做的事。换句话说，有了数亿人的数据，无论大小，切蒂及其团队都能够发现城市、小镇和社区之中存在的模式。

想想这个问题：美国是一个充满机遇的国家吗？如果你的父母不富裕，你自己还有机会发财吗？
但是，这个简单的分析忽略了真实的情况。切蒂的团队放大了地理位置。他们发现，概率的大小取决于你出生在美国的什么地方。那么美国是一个“充满机遇的国家”吗？答案既不是肯定的，也不是否定的。答案是：在某些地方是，在某些地方不是。即使富人无法避免死亡，但数据还是告诉我们，他们现在至少可以延缓死亡的到来。总的来说，美国收入排名前1%的女性的寿命比收入最低的1%的女性长10年。对男性来说，这一寿命差距是15年。有趣的是，对美国最富裕的人来说，他们的预期寿命几乎完全不受居住地的影响。对穷人来说，情况就不同了。美国最贫穷的人的预期寿命的变化在很大程度上取决于居住地。事实上，住在对的地方可以延长穷人5年的寿命。

我个人最喜欢的研究是切蒂团队（他们可以访问国税局的海量数据）所做的调查——为何有的人逃税，而有的人不逃？
数据集包括出生县、出生日期、职业和性别。我将其与国家卫生统计中心采集的县级出生数据进行了整合，计算了美国每个县因你的成功而被录入维基百科的概率。我在这些数据中发现的第一个引人注目的事实是，获得巨大成功的可能性中存在着巨大的地理差异，至少在维基百科的词条上是这样体现的。人们出名的概率在很大程度上取决于出生地。这三座城市中，纽约产出著名记者的概率最大，波士顿产出杰出科学家的概率最大，洛杉矶产出知名演员的概率最大。要记住，我们这里说的都是那里土生土长的当地人，不是后来搬到那里的人。
这样做表明，还有另一个变量也能很准确地预测一个人能否被录入维基百科词条：出生县的移民比例。某一地区外来居民比例越高，在那里出生的孩子取得显著成功的比例就越高（特朗普就是最好的例子）。如果两个地方的城市人口和大学人数不相上下，那么移民更多的地方将会培养出更多杰出的人。在教育上花大钱有助于孩子们进入中上阶层，但在使他们成为杰出作家、艺术家或商业领袖方面帮不上什么忙。这类成功人士中有很多人都曾痛恨学校，有些人甚至辍过学。或许放大数十万名杰出的美国人出生地的努力能给我们提供一些初步的策略：鼓励移民、资助高等院校和支持艺术的发展等。

传闻逸事和实验结果都表明，暴力电影会引发暴力行为。那么，它们究竟能产生多大的影响呢？三大数据整合在一起，包括美国联邦调查局的每小时犯罪数据、票房数据和从童心网（kid-in-mind.com）上得到的每部电影的暴力程度数据。两位经济学家发现，在放映人气颇高的暴力电影的周末，犯罪率是不升反降的。人们的第二个想法，就是认为有另一种变量能够解释这些结果。于是，两位经济学家认真查验是否一年中的某些时刻会对这些结果产生影响。结果证明没有影响。相比之下，综合数据集的运用率日益提高，逐渐取代了小样本调查的方法，人类已经能够以小时甚至分钟为单位来放大数据了，这也让我们更加了解人类行为了。
有时，随时间的推移而产生的数据波动只要不那么离奇，还是很有趣的。那么，又该如何解释电影放映结束后犯罪率仍然呈现下降的趋势呢？那些犯罪学专家经过深思熟虑后，终于恍然大悟。他们知道酒精是导致犯罪行为的主要原因。也许暴力电影确实影响了一些人，使他们容易愤怒，充满攻击性。可你知道哪些因素对于人的暴力倾向有着不容置疑的影响吗？那就是与潜在的暴力犯一起喝酒和闲逛。

当我们放大数据时，另一个更为重要的关键点凸显出来：世界是复杂的。我们今天的行为可能会产生深远的影响，而其中大部分影响都是无意使然的。

人们对各种诱因和动机做出的回应行为通常是无法预知的。其内在的联系和外在的关系，激增和扩张，无法用小样本的调查或传统的数据方法来追踪。用小数据进行研究的话，这个本是如此简单的世界就显得过于复杂和丰富了。

预测棒球运动员未来最简单的方法，就是以其目前的状态来推测他接下来的表现。但这种年龄判定法可能也会有一些差池，并非所有球员都会沿着同一路径走完自己的职业生涯。棒球数据统计人员发现，不同类型的球员有不同的衰老过程。
二重身的搜索是数据放大的又一个例子，它放大了与特定人物最相似的一小部分人。而且，随着对这些人物的全面放大，掌握的数据越多，二重身就越准确。
二重身搜寻研究法在很多领域都有巨大的潜力，不仅仅局限于运动领域。我能找到与自己最为兴趣相投的人吗？也许如果找到了那个和我最相似的人，我们就可以一起出去游玩了。也许他会知道一些我们都喜欢的餐馆，也许他可以介绍一些我都不知道自己会喜欢的东西给我。二重身搜寻研究法可以放大个体乃至个体的特征，而且，与所有的放大一样，你获得的数据越多，它就越清晰。二重身并不是我们自身的完全复制，只是有相似的地方而已。为了使二重身搜寻完全准确，你不仅会希望找到一个“同好”的人，而且想找到一个与你“同恶”的人。
亚马逊便使用类似二重身搜寻的东西推荐你可能喜欢的书。它们能看到与你相似的人选择了什么，并以此为依据为你推荐图书。
想想二重身搜寻的影响之深，就会明白这种方法真正有趣的地方不在于现在有多常用，而在于它有多不常用。对我来说，放大行为比一项特定研究的特定发现更有价值，因为这种行为提供了一种看待和谈论生活的新方法。

第六章世界就是一个实验室

我们需要讨论一下相关性与因果关系，这是数据分析中的重大问题，也是我们尚未彻底解决的一个问题。
例如，总有人说适量饮酒可以让我们更健康。这就是一个相关性问题。这是否意味着适量饮酒有利于身体健康是一个因果关系问题呢？可能不是。很可能是良好的健康状况使人们想适量饮酒，社会科学家称其为因果互换。
**那么，如何才能更准确地建立因果关系呢？其黄金标准是一个随机的对照试验，试验是这样进行的：将人们随机分为两组，其中一组为试验组，要按照要求做某件事；另一组为对照组，不做这件事。然后你会看到两组的不同回应。两组的结果差异就是你要找的因果效应。**随机对照试验在任何领域都是最值得信赖的证据。

在数字世界中，随机试验成本低、速度快。你不需要招募参与者并支付其费用，仅需编写一行代码将其随机分入一组；你不需要用户填写调查，仅需测量鼠标移动和点击的数量；你不需要手动编码和分析答复，仅需建立一个程序来自动为你完成所有事项。你不必联系任何人，甚至不必告诉用户他们是这项试验的一部分。这是大数据的第四大功能：它让随机试验变得更加便捷，不论何时何地，只要你在线，它就能找到真正的因果效应。在大数据时代，整个世界就是一个实验室。

在这里随机对照试验有了一个新名字：“A/B测试”。

将这一方法引入了奥巴马首次总统竞选活动，于是有了根据A/B测试结果设计的网站主页、根据A/B测试结果投递的电子邮件和根据A/B测试结果发起的捐款行为。**这项开销极低、操作简易的黄金标准测试还有另一个很大的好处：它让我们进一步摆脱了对直觉的依赖。**正如第1章中所指出的那样，直觉有其局限性。A/B测试如此重要的根本原因就是人是不可预测的，我们的直觉往往无法预测人们将会做何回应。

该网站是一个新闻娱乐网站，极度依赖A/B测试来选择标题和网站设计方案。本森说：“一天到晚什么都别想，测试简直就是一切。”
A/B测试如此重要的另一个原因是，看似微小的变化可能会产生很大的影响。

广告可以提高销售额的观念显然对我们的经济发展至关重要，但这一点着实很难验证。事实上，这是一个教科书式的例子，能够告诉我们区分相关性和因果关系有多困难。

超级碗试验的一个优势就是没有必要刻意将任何人分配到试验组或对照组中，这个试验的发生完全取决于球赛中运气球出现的概率。换句话说，它是自然发生的。为什么说这算一个优势？因为非自然的随机控制试验虽然在数字时代极为强大，而且容易实现，但并非总能办到的。有时，我们无法同心协力地及时采取行动。有时，试验是无法实现的。几十年来，各个大学都建立了机构审查委员会，这些委员会将确定一个拟议的试验是否符合伦理。如果我们想知道在某种情况下的因果效应，而在当时的情况下做试验是不道德的或者说不可行的，那么我们应该怎么办呢？我们可以利用经济学家所说的自然试验——其定义极为广泛，橄榄球也可包含在内。

生活中总有一个巨大的随机因子，没有人确切地知道是什么东西或什么人来负责管理宇宙，自然一直在对我们做着试验。

事实上，这场基于暗杀的自然试验结果推翻了几十年来关于各国政权如何运作的传统观点。许多经济学家过去认为，领导人主要是受外力推动的无能傀儡，但根据琼斯和奥尔肯对自然试验的分析，情况并非如此。
**还有什么地方可以找到自然试验？换句话说，还有没有什么随机过程恰巧将人们置于试验组和对照组的情况呢？**最明显的例子就是彩票，这就是为什么很多经济学家喜欢它们，但我们发现有一点很不合理——他们并不玩彩票，只是研究它们。
为了检验意外横财的因果效应，经济学家比较了那些中彩票大奖的人和那些买彩票却没中的人。这些研究普遍发现，中彩票大奖短期内并不会使人快乐，但从长远来看会。

捷克作家米兰·昆德拉在他的小说《不能承受的生命之轻》中有一个精句，我引用于此：“人生只有一次，我们无法得知我们抉择的对错，因为在某种情况下我们只有一次选择的机会，没有两次、三次或四次生命去比较每次抉择的不同。”

最直截了当的方法就是将所有考上史岱文森高中的学生和没有考上的学生做比较。我们可以分析他们在大学预修课程考试和学术能力评估测试中的表现，再看看他们被哪所大学录取了。但正如本章已经讨论的那样，这种证据本身并不令人信服。也许史岱文森高中的学生表现得更好，首先是因为这所学校有更好的生源。这里的相关性无法证明因果关系。
为了测试史岱文森高中的因果效应，我们需要比较两个几乎完全相同的小组：一个是接受过史岱文森高中教育的试验组，另一个是没有接受过其教育的对照组。我们需要一个自然试验，但是到哪里去找这种对照组呢？答案是：像耶尔马兹这样的学生，他们的分数非常接近入读史岱文森高中的条件。没考上的学生是对照组，考上的学生就是试验组。
我们没有什么理由质疑分数线上下的学生在天资或动力方面有很大差异，毕竟一个人在考试中比另一个人多考一两分的原因可以有很多。或许那个得分较低的人少睡了10分钟，或者那天的早餐不够有营养。或许那个得分较高的人记得三年前与奶奶的一次谈话中一个特别晦涩的单词，而这个单词正好出现在考题中了。
这类（利用一刀切分数线的）自然试验的作用是非常强大的，经济学家还专门为其命名：断点回归。任何时候都有一个精确的数字（一个断点）把人们分成两个不同的群体，经济学家可以对极为接近截止点的人的结果进行比较或回归分析。
他们比较了在截止点分数上下的纽约学生的最后结果。他们评判成败的标准是这些学生的大学预修课程分数、学术能力评估测试分数和最终进入大学的排名。研究的结果令人震惊，几位学者已经将这些结果撰文明确呈现出来，文章标题为：“精英幻觉”。史岱文森高中带来的影响有多大呢？[插图]无！没有！零！纯属胡扯！分数线两边的学生最后的大学预修课程分数和学术能力评估测试分数都难分高下，所就读的大学也都是排名相当的名牌大学。人们根据经历调整自己，是金子总会发光的。让你成功的因素是你的才华和动力，而不是谁给你做开学演讲或名校提供的其他优势。尽管念一所好学校确实重要，然而顶尖的学校其实并不会为你带来很多东西。

斯泰西·戴尔（Stacy Dale）和艾伦·B.克鲁格（Alan B. Krueger）这两位经济学家想到了一种巧妙的方法来测试精英大学与毕业生未来收入潜力之间的因果影响。他们有一个跟踪高中生信息的巨大数据集，包括他们申请哪所大学、被哪所大学录取、就读于哪所大学、他们的家庭背景和他们成年后的收入等信息。
为了获得一个试验组和一个对照组，戴尔和克鲁格比较了家庭背景相近、被同样的几所大学录取但选择了不同学校的学生。
本书名为“人人都在说谎”，通过这个书名，我主要想说人们之所以（对朋友、对调查、对自己）都说谎，是为了让自己看起来更好一些。
这个世界也在通过向我们提供错误的、误导性的数据对我们说谎。
通过巧妙地运用自然试验，我们可以正确地理解这个世界的数据——发现什么是真正有用的，什么是无用的。自然试验也与上一章有关。这些试验经常需要放大试验组和对照组。正如上一章所讨论的那样，放大工作往往需要庞大而全面的数据集——随着世界的数字化，这类数据集越来越多。由于不知道大自然会选择进行什么样的试验，所以我们不能创建一个小的调查来衡量其结果。我们需要大量的现有数据来从这些干预中学习经验，总结教训。我们需要大数据。
这些控制试验或自然试验有一个更实际的倾向，它们的目标是改善我们的决策，帮助我们了解哪些干预起作用，哪些干预不起作用。
这些试验证明了大数据能够替代猜测、传统智慧和与实际效果相关的伪劣关系——因果关系。

《人人都在说谎：赤裸裸的数据真相》读书笔记2

第二部分大数据的力量

第四章数据吐真剂

第五章放大数据

第六章世界就是一个实验室

猜你喜欢

《人人都在说谎：赤裸裸的数据真相》读书笔记2

第二部分 大数据的力量

第四章 数据吐真剂

第五章 放大数据

第六章 世界就是一个实验室

猜你喜欢

第二部分大数据的力量

第四章数据吐真剂

第五章放大数据

第六章世界就是一个实验室