[转帖] 大数据时代的迷思

转自 http://jandan.net/2013/06/11/dictatorship-of-data.html

编译:Junius Lou

小编按:最近NSA窃听门惹怒了全美人民,翻看新闻10条有7条是在跟进这个事情,虽然从我们的处境,看美国政府好戏有点阿Q精神,但我们也应该思考一下为什么不能让政府打着国家安全的旗帜任意行事。其实道理很简单:谁都会犯错,但如果政府犯错,就必铸成大错。





「大数据」时刻准备着改造社会,从看病,到教娃,甚至可以教会汽车自己上路。数据正成为新的经济推动力,和重要的生产资料。企业,政府,谁都能通过数据,给看着不得劲的东西来个优化。

但,凡事总有两面性。「大数据」蚕食个人隐私。特别是,老子不就淘宝上搜了一下志玲姐嘛,连网易都给我推荐各种仿真玩具。这让一个老问题显得更加严重:看数据,拍脑袋的决策,往往错误百出。没有比罗伯特·麦克马拉的故事更适合说明这一点的了。

麦克马拉是个数据狂。他在1960年代越战战事趋紧时,被任命为美国国防部长。他热衷于收集任何他能得到的一切数据。通过严谨的统计学分析,他坚信可以从纷繁的复杂局势中,得到正确的决策。世界在他的眼里就是一锅混沌的数据汤,但通过描述,归类,筛选,定量,最终能被人的意志所驯服。麦克马拉寻找着真相,而真相就藏在数据中。他所收集的数据,其中就包括了「敌军阵亡数字统计」。

麦克马拉在哈佛商学院念书的时候就培养了对数字的迷恋,而且他在24岁就成为了助教。二战中,他在五角大楼挑选的精英团队里找到了施展才华的机会,在一个叫做「统计控制」小组,他们分析从战场获得的数据,进而为世界上最大的官僚机构提供决策建议。在此之前,军队如若眼盲。比如,军队不知道机场的数量,发布,位置的情况。数据分析帮了大忙,从而使弹药补给更有效率,在1943年就帮助节省了3.6亿美元军费开支。现代战争需要物资的合理高效分配,而麦克马拉所在的团队成就斐然。

战后,这个团队的成员,继续在美国经济领域施展才华。当时福特汽车正深陷危机之中,陷入绝境的亨利·福特二世把烂摊子交给他们。就和他们虽然不懂打仗,但也能帮了盟军大忙一样,他们对造车同样一窍不通。但,他们仍然如魔法神童一般,硬是把福特汽车从倒闭边缘救了回来。

麦克马拉很快地位飞升,开始插手福特生产的各个方面。强迫工厂经理按照他的计划生产,无论他的计划是对是错。当他命令所有库存的同一型号的汽车零件,必须在新型号开始生产之前用完,愤怒的生产线经理干脆把老的零件就近扔到河里。工厂里开玩笑说,被扔在河里的50年代的老车,多到都可以让人列队过河了。

麦克马拉就是把理性和对数据的依赖置于直觉判断之上的典型,他会用他的定量技巧去改造任何工业部门。1960年,他被任命为福特汽车主席,但这个位置干了没几周,他就被肯尼迪点将,成为美国防部长。

越南战事逐步升级,美军火烧屁股的时候,这场战争很明显已经成为一场「面子战争」,而不是为了什么国家利益。美国的策略就是想逼迫越南土共回到谈判桌上来。然而,衡量达到这个目的的进展,就是看敌军阵亡数。越共阵亡数字每天都见报。对于鹰派来说,数字就是进展;对于反对派,这就是这场非正义战争的证据。阵亡数字成了定义那个时代的标志。

麦克马拉依赖和迷恋这些。他梳着完美的大包头,系着一丝不苟的领带,觉得自己瞪着报表就能对千里之外的战况了如指掌,好像靠这些计算和图列,就能让他得到堪比上帝般的,接近事实的标准方差。

1977年,也就是越战结束后两年。前驻西贡大使,Douglas Kinnard将军,出版了一本意义重大的报告,叫做《战争经理人》,披露了数据量化决策的陷阱。仅有2%的美国将领认为「敌军阵亡统计」能代表战争进展。「纯属扯淡!」书中写道,「就是公然撒谎,部队故意夸张数字,目的就是取悦那位无比热衷于数字的麦克马拉。」

美军在越战中对于数据的错误迷信,误判,和对于信息的局限性的教训,对即将到来的大数据时代是个很好的前车之鉴。我们手里的数据可能是很不可靠的,数据可能带有主观偏见,可能被错误的分析和使用。更糟糕的是,数据可能没呈现它本该呈现的。

我们比想象地更容易被弊大于利的「数据执政」所统治。这种恐惧来自于,我们被无意识地被绑架在数据分析上,就算我们有理由相信有些分析根本就是错的。想知道低收入家庭孩子的教育情况?用标准化测验来衡量老师的表现,然后处罚老师和学校就行了。想预防恐怖主义袭击?简单,搞一张监视名单和禁止入境名单来管住领空就行了。想减肥,没问题,下载一个App算一下消耗的卡路里,连健身房都不用去。

就算在大数据执政里,一些行家里手也常掉入陷阱。Google的一切都是基于数据。基于数据的战略使他们走向今天的成功。但也时不时地给Google下套。两位创始人,Larry Page和Sergey Brin,长期坚持对应聘者提供高考成绩和毕业平均成绩。他们认为,高考成绩代表了一个人的发展潜力,而毕业成绩代表他们所取得的成就。就算40多岁的老江湖也被要求提供相关成绩,这让他们彻底懵了。Google坚持这样做,直到内部调查显示,学校成绩和工作业绩之间没有任何必然的关系为止。

Google应该多长个心眼。数据没有留给个人在一生中做出改变的空间。数据把数据的增长当做智慧的拓展。但数据根本无法体现人性的复杂,衡量一个人的能力要比科学工程计算难得多。Google的两位创始人也是从采取强调独立性,而不是成绩的蒙台梭利教育方法(wiki)的学校出来的才子,用基于数据招聘的方法显得很奇怪,因为照这样的标准,从比尔·盖茨到扎克伯格,就算是乔布斯也不可能被录用,因为他们拿不出像样的成绩单。

Google嗑数据已经走火入魔。前Google高管Marissa Mayer来到Yahoo后,竟然要求员工测试41种不同的蓝色,以决定哪种蓝色是人们最常用的,并用在自己的网站的工具栏上。2009年,Google的顶级设计师 Douglas Bowman 愤然辞职,因为他没法给所有事情定下明确的标准。

他说:「我最近的争执,是关于一个边框应该是3,4,还是5个像素宽,然后非要我证明。在这样的环境里,我真的没法干了。」他写了篇博客宣布了他的辞职决定,「当一家公司被工程师执掌的时候,浓郁的工程师文化决定了问题的解决方式,就是把所有问题都拆分成一个个琐碎的简单逻辑。所有事情都需要有数据支持,最后搞残了公司。」

这就是数据执政。这不得不让我们想起美国在越战的困境,「敌军阵亡统计」的片面性,和不是基于更严肃全面的评估,对越战的失败负有部分责任。1967年,当国内的反战浪潮高起,麦克马拉承认道:「事实就是,关于人的复杂处境,是无法用图表,小数点和负债表所能完全表现出来的。但,真相是可以通过缜密分析获得的。如果不去分析可以分析的对象,就是只满足于得到不完整的洞见。」如果正确的数据用在正确的地方,不相信数据就是有病了。

麦克马拉后来在1970年代掌管世界银行,在1980年代,他成一个鸽派,不但声讨核武器,而且是环境保护的支持者。晚年又出版了一本回忆录,在回忆中,他深刻检讨了自己在任国防部长期间的战争思想和决策,他说:「我们错了,大错特错。」他逝世于2009年,享年93岁。但他对包括数据质疑,特别是「敌军阵亡统计」上,他坚持己见。他承认,一些数据统计可能出错,但他认为,如果事物可以被统计,那就应该被统计上来,阵亡数字只是其中之一。

大数据可以成为改善药物生产,学习方式,个人行为的基础。但它具有的意料之外的力量,会让我们犯和麦克马拉一样的错误。使我们变成数据的奴隶,痴迷于数据的推论,而忽视了数据的误导性。



[Junius Lou via MITreview]
我知道什么?
这个顶起来,最近比较关心大数据。
我家有个玩笑:大数据总是在我们买完东西之后知道我们要买什么。
我知道什么?
蒂姆·哈德:大数据,还是大错误?
大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府和媒体炒得过热。

五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快得多。谷歌的追踪结果只有一天的延时,而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。谷歌能算得这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。

“谷歌流感趋势”不仅快捷、准确、成本低廉,而且没有使用什么理论。谷歌的工程师们不用费劲地去假设哪些搜索关键字(比如“流感症状”或者“我身边的药店”)跟感冒传染有相关性。他们只需要拿出来自己网站上5000万个最热门的搜索字,然后让算法来做选择就行了。

谷歌流感趋势的成功,很快就成为了商业、技术和科学领域中最新趋势的象征。兴奋的媒体记者们不停地在问,谷歌给我们带来了什么新的科技?

在这诸多流行语中,“大数据”是一个含糊的词汇,常常出现于各种营销人员的口中。一些人用这个词来强调现有数据量的惊人规模——大型粒子对撞机每年会产生15PB的数据,相当于你最喜欢的一首歌曲重复演奏15000年的文件大小。

然而在“大数据”里,大多数公司感兴趣的是所谓的“现实数据”,诸如网页搜索记录、信用卡消费记录和移动电话与附近基站的通信记录等等。谷歌流感趋势就是基于这样的现实数据,这也就是本文所讨论的一类数据。这类数据集甚至比对撞机的数据规模还要大(例如Facebook),更重要的是虽然这类数据的规模很大,但却相对容易采集。它们往往是由于不同的用途被搜集起来并杂乱地堆积在一起,而且可以实时地更新。我们的通信、娱乐以及商务活动都已经转移到互联网上,互联网也已经进入我们的手机、汽车甚至是眼镜。因此我们的整个生活都可以被记录和数字化,这些在十年前都是无法想象的。

大数据的鼓吹者们提出了四个令人兴奋的论断,每一个都能从谷歌流感趋势的成功中印证:

1)数据分析可以生成惊人准确的结果;

2)因为每一个数据点都可以被捕捉到,所以可以彻底淘汰过去那种抽样统计的方法;

3)不用再寻找现象背后的原因,我们只需要知道两者之间有统计相关性就行了;

4)不再需要科学的或者统计的模型,“理论被终结了”。《连线》杂志2008年的一篇文章里豪情万丈地写到:“数据已经大到可以自己说出结论了”。

不幸的是,说得好听一些,上述信条都是极端乐观和过于简化了。如果说得难听一点,就像剑桥大学公共风险认知课的Winton教授(类似于国内的长江学者——译者注)David Spiegelhalter评论的那样,这四条都是“彻头彻尾的胡说八道”。

在谷歌、Facebook和亚马逊这些公司不断通过我们所产生的数据来理解我们生活的过程中,现实数据支撑起了新互联网经济。爱德华•斯诺登揭露了美国政府数据监听的规模和范围,很显然安全部门同样痴迷从我们的日常数据中挖掘点什么东西出来。

咨询师敦促数据小白们赶紧理解大数据的潜力。麦肯锡全球机构在一份最近的报告中做了一个计算,从临床试验到医疗保险报销到智能跑鞋,如果能把所有的这些健康相关的数据加以更好的整合分析,那么美国的医疗保险系统每年可以节省3000亿美金的开支,平均每一个美国人可以省下1000美元。

虽然大数据在科学家、企业家和政府眼里看起来充满希望,但如果忽略了一些我们以前所熟知的统计学中的教训,大数据可能注定会让我们失望。

Spiegelhalter教授曾说:“大数据中有大量的小数据问题。这些问题不会随着数据量的增大而消失,它们只会更加突出。”

在那篇关于谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。这个工具曾经可靠的运作了十几个冬天,在海量数据分析和不需要理论模型的条件下提供了快速和准确的流感爆发趋势。然而这一次它迷路了,谷歌的模型显示这一次的流感爆发非常严重,然而疾控中心在慢慢汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。

问题的根源在于谷歌不知道(一开始也没法知道)搜索关键词和流感传播之间到底有什么关联。谷歌的工程师们没有试图去搞清楚关联背后的原因。他们只是在数据中找到了一些统计特征。他们更关注相关性本身而不是相关的原因。这种做法在大数据分析中很常见。要找出到底是什么原因导致了某种结果是很困难的,或许根本不可能。而发现两件事物之间的相关性则要简单和快速得多。就像Viktor Mayer-Schönberger 和 Kenneth Cukier 在《大数据》这本书中形容的那样:“因果关系不能被忽略,然而曾作为所有结论出发点的它已经被请下宝座了。”

这种不需要任何理论的纯粹的相关性分析方法,其结果难免是脆弱的。如果你不知道相关性背后的原因,你就无法得知这种相关性在什么情况下会消失。谷歌的流感趋势出错的一种解释是,2012年12月份的媒体上充斥着各种关于流感的骇人故事,看到这些报道之后,即使是健康的人也会跑到互联网上搜索相关的词汇。还有另外一种解释,就是谷歌自己的搜索算法,在人们输入病症的时候会自动推荐一些诊断结果进而影响到了用户的搜索和浏览行为。这就好像在足球比赛里挪动了门柱一样,球飞进了错误的大门。

谷歌将使用新的数据再次校准流感趋势这个产品,重新来过。这当然是正确的做法。能够有更多的机会让我们简捷地采集和处理大规模的数据,这当然有一百个理由让人兴奋。然而我们必须从上述例子中汲取足够的教训,才能避免重蹈覆辙。

统计学家们过去花了200多年,总结出了在认知数据的过程中存在的种种陷阱。如今数据的规模更大了,更新更快了,采集的成本也更低了。但我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上它们还在那里。

1936年,民主党人Alfred Landon与当时的总统Franklin Delano Roosevelt(富兰克林•罗斯福——译者注)竞选下届总统。《读者文摘》这家颇有声望的杂志承担了选情预测的任务。当时采用的是邮寄问卷调查表的办法,调查人员雄心勃勃,计划寄出1000万份调查问卷,覆盖四分之一的选民。可以预见,洪水般寄回的邮件将超乎想象,然而《文摘》似乎还乐在其中。8月下旬的时候他们写到:“从下周起,1000万张问卷的第一批回执将会到达,这将是后续邮件洪峰的开始。所有这些表格都会被检查三次,核对,交叉存档五份,然后汇总。”

最终《文摘》在两个多月里收到了惊人的240万份回执,在统计计算完成以后,杂志社宣布Landon将会以55比41的优势击败Roosevelt赢得大选,另外4%的选民则会投给第三候选人。

然而真实选举结果与之大相径庭:Roosevelt以61比37的压倒性优势获胜。让《读者文摘》更没面子的是,观点调查的先创人George Gallup通过一场规模小得多的问卷,得出了准确得多的预测结果。Gallup预计Roosevelt将稳操胜券。显然,Gallup先生有他独到的办法。而从数据的角度来看,规模并不能决定一切。

观点调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题:样本误差和样本偏差。

样本误差是指一组随机选择的样本观点可能无法真实的反映全部人群的看法。而误差的幅度,则会随着样本数量的增加而减小。对于大部分的调查来说,1000次的访谈已经是足够大的样本了。而据报道Gallup先生总共进行了3000次的访谈。

就算3000次的访谈已经很好了,那240万次不是会更好吗?答案是否定的。样本误差有个更为危险的朋友:样本偏差。样本误差是指一个随机选择的样本可能无法代表所有其他的人;而样本偏差则意味着这个样本可能根本就不是随机选择的。George Gallup费了很大气力去寻找一个没有偏差的样本集合,因为他知道这远比增加样本数量要重要的多。

而《读者文摘》为了寻求一个更大的数据集,结果中了偏差样本的圈套。他们从车辆注册信息和电话号码簿里选择需要邮寄问卷的对象。在1936年那个时代,这个样本群体是偏富裕阶层的。而且Landon的支持者似乎更乐于寄回问卷结果,这使得错误更进了一步。这两种偏差的结合,决定了《文摘》调查的失败。Gallup每访谈一个人,《文摘》对应的就能收到800份回执。如此大规模而精确的调查最终却得出一个错误的结果,这的确让人难堪不已。

如今对大数据的狂热似乎又让人想起了《读者文摘》的故事。现实数据的集合是如此混乱,很难找出来这里面是否存在样本偏差。而且由于数据量这么大,一些分析者们似乎认定采样相关的问题已经不需要考虑了。而事实上,问题依然存在。

《大数据》这本书的联合作者,牛津大学互联网中心的Viktor Mayer-Schönberger教授,曾告诉我他最喜欢的对于大数据集合的定义是“N=所有”,在这里不再需要采样,因为我们有整个人群的数据。就好比选举监察人不会找几张有代表性的选票来估计选举的结果,他们会记点每一张选票。当“N=所有”的时候确实不再有采样偏差的问题,因为采样已经包含了所有人。

但“N=所有”这个公式对大多数我们所使用的现实数据集合都是成立的吗?恐怕不是。“我不相信有人可以获得所有的数据”,Patrick Wolfe说,他是伦敦大学学院的一名计算机学家和统计学教授。

推特(Twitter)就是一个例子。理论上说你可以存储和分析推特上的每一条记录,然用后来推导出公共情绪方面的一些结论(实际上,大多数的研究者使用的都是推特提供的一个名为“消防水带”的数据子集)。然而即使我们可以读取所有的推特记录,推特的用户本身也并不能代表世界上的所有人。(根据Pew互联网研究项目的结果,在2013年,美国的推特中,居住在大城市或者城镇的,黑色皮肤的年轻用户比例偏高)

我们必须要搞清楚数据中漏掉了哪些人和哪些事,尤其当我们面对的是一堆混乱的现实数据的时候。Kaiser Fung是一名数据分析师和《数字感知》这本书的作者,他提醒人们不要简单地假定自己掌握了所有有关的数据:“N=所有常常是对数据的一种假设,而不是现实。”

在波士顿有一款智能手机应用叫做“颠簸的街道”,这个应用利用手机里的加速度感应器来检查出街道上的坑洼,而有了这个应用市政工人就可以不用再去巡查道路了。波士顿的市民们下载这个应用以后,只要在城市里开着车,他们的手机就会自动上传车辆的颠簸信息并通知市政厅哪里的路面需要检修了。几年前还看起来不可思议的事情,就这样通过技术的发展,以信息穷举的方式得以漂亮地解决。波士顿市政府因此骄傲地宣布,“大数据为这座城市提供了实时的信息,帮助我们解决问题并做出长期的投资计划”。

“颠簸的街道”在安装它的设备中所产生的,是一个关于路面坑洼的地图。然而从产品设计一开始这张地图就更偏向于年轻化和富裕的街区,因为那里有更多的人使用智能手机。“颠簸的街道”的理念是提供关于坑洼地点的“N=所有”的信息,但这个“所有”指的是所有手机所能记录的数据,而不是所有坑洼地点的数据。就像微软的研究者Kate Crawford指出的那样,现实数据含有系统偏差,人们需要很仔细地考量才可能找到和纠正这些偏差。大数据集合看起来包罗万象,但“N=所有”往往只是一个颇有诱惑力的假象而已。

当然这个世界的现实是如果你能靠某个概念挣到钱,就没人会关心什么因果关系和样本偏差。全世界的公司在听到美国折扣连锁店Target的传奇式成功(由《纽约时报》的Charles Duhigg在2012年报道出来)以后估计都要垂涎三尺。Duhigg解释了Target公司是如何从它的顾客身上搜集到大量的数据并熟练的加以分析。它对顾客的理解简直是出神入化。

Duhigg讲的最多的故事是这样的:一名男子怒气冲冲地来到一家明尼苏达附近的Target连锁店,向店长投诉该公司最近给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方地向他道了歉。可不久后店长又收到这名男子的电话要求再次道歉——只是这一次对方告知那个少女确实怀孕了。在她的父亲还没有意识到的时候,Target通过分析她购买无味湿纸巾和补镁药品的记录就猜到了。

这是统计学的魔法吗?或许还有更世俗一点的解释。

Kaiser Fung在帮助零售商和广告商开发类似的工具上有着多年的经验,他认为“这里面存在一个严重的虚假正面效应的问题”。他指的是我们通常都没有能够听到的无数的反面故事,在那些例子里没有怀孕的妇女们也收到了关于婴儿用品的优惠券。

如果只听Duhigg讲的故事,你可能很容易就觉得Target的算法是绝对可靠的——每个收到婴儿连体服和湿纸巾购物券的人都是孕妇。这几乎不可能出错。但实际上孕妇能收到这些购物券可能仅仅是因为Target给所有人都寄了这种购物券。在相信Target那些读心术般的故事之前,你应当问问他们的命中率到底有多高。

在Charles Duhiggs的描述中,Target公司会在给你的购物券中随机地掺杂一些无关的东西,比如酒杯的券。否则的话孕妇们可能会发现这家公司的计算机系统在如此深入地探测她们的隐私,进而感到不安。

Fung对此则有另外的解释,他认为Target这样做并不是因为给孕妇寄一份满是婴儿用品的购物手册会让人起疑,而是由于这家公司本来就知道这些手册会被寄给很多根本没有怀孕的妇女。

以上这些观点并不意味着数据分析一无是处,相反它可能是有高度商业价值的。即使能够把邮寄的准确度提高那么一点点,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。

一位名叫John Ioannidis的传染病学家在2005年发表了一篇论文,题目叫“为什么大多数被发表的研究结果都是错误的”,标题言简意赅。他的论文中一个核心的思想就是统计学家们所称的“多重比较问题”。

当我们审视数据当中的某个表象的时候,我们常常需要考虑这种表象是否是偶然产生的。如果这种表象看起来不太可能是随机产生的时候,我们就称它是“统计上显著的”。

当研究者面对许多可能的表象时,多重比较错误就可能发生。假设有一个临床试验,我们让部分小学生服用维他命而给其他小学生安慰剂。怎么判断这种维他命的效果?这完全取决于我们对“效果”的定义。研究者们可能会考察这些儿童的身高、体重、蛀牙的概率、课堂表现、考试成绩甚至是25岁以后的收入或者服刑记录(长期追踪观察)。然后是综合比较:这种维他命是对穷困家庭的孩子有效,还是对富裕家庭的有效?对男孩有效,还是女孩?如果做足够多不同的相关性测试,偶然产生的结果就会淹没真实的发现。

有很多办法可以解决上述的问题,然而在大数据中这种问题会更加严重。因为比起一个小规模的数据集合来说,大数据的情况下有太多可以用作比较的标准。如果不做仔细的分析,那么真实的表象与虚假表象之比——相当于信号噪声比——很快就会趋近于0。

更糟的是,我们之前会用增加过程透明度的办法来解决多重比较的问题,也就是让其他的研究者也知道有哪些假设被测试过了,有哪些反面的试验结果没有被发表出来。然而现实数据几乎都不是透明的。亚马逊和谷歌,Facebook和推特,Target和Tesco,这些公司都没打算过跟你我分享他们的所有数据。

毫无疑问,更新、更大、更廉价的数据集合以及强大的分析工具终将产生价值。也确实已经出现了一些大数据分析的成功实例。剑桥的David Spiegelhalter提到了谷歌翻译,这款产品统计分析了人类已经翻译过的无数文档,并在其中寻找出可以自己复制的模式。谷歌翻译是计算机学家们所谓的“机器学习”的一个应用,机器学习可以在没有预先设定编程逻辑的条件下计算出惊人的结果。谷歌翻译是目前所知的最为接近“无需理论模型、纯数据驱动的算法黑盒子”这一目标的产品。用Spiegelhalter的话来说,它是“一个令人惊讶的成就”。这一成就来自于对海量数据聪明的处理。

然而大数据并没有解决统计学家和科学家们数百年来所致力的一些难题:对因果关系的理解,对未来的推演,以及如何对一个系统进行干预和优化。

伦敦皇家学院的David Hand教授讲过一句话,“现在我们有了一些新的数据来源,但是没有人想要数据,人们要的是答案”。

要使用大数据来得到这样的答案,还需要在统计学的方法上取得大量长足的进展。

伦敦大学学院的Patrick Wolfe说,“大数据就好像是蛮荒的美国西部。那些头脑灵活野心勃勃的人会想尽办法利用一切可能的工具,从这些数据中淘出点值钱的东西来,这很酷。但目前我们做的还有些盲目。”

统计学家们正争先恐后地为大数据开发新的工具。这些新的工具当然很重要,但它们只有在吸取而不是遗忘过去统计学精髓的基础上才能成功。

最后,我们再回头来看看大数据的四个基础信条。其一,如果简单地忽略掉那些反面的数据,比如Target的怀孕预测算法,那么我们很容易就会过高地估计算法的精确度。其二,如果我们在一个固定不变的环境里做预测,你可以认为因果关系不再重要。而当我们处在一个变化的世界中(例如流感趋势预测所遇到的那样),或者是我们自己就想要改变这个环境,这种想法就很危险了。其三,“N=所有”,以及采样偏差无关紧要,这些前提在绝大多数的实际情况下都是不成立的。最后,当数据里的假象远远超过真相的时候,还持有“数据足够大的时候,就可以自己说出结论了”这种观点,就显得过于天真了。

大数据已经到来,但它并没有带来新的真理。现在的挑战是要吸取统计学中老的教训,在比以前大得多的数据规模下去解决新的问题、获取新的答案。

(英文原载英国《金融时报》网站2014年3月28日,原标题:Big data: are we making a big mistake;霞飞/译)
诗酒风流近散场,心情无限对斜阳,如今只剩燕双双。
病酒願爲千日醉,看花誤惹一身香,夜來有夢怕還鄉。
当一家公司被工程师执掌的时候,浓郁的工程师文化决定了问题的解决方式,就是把所有问题都拆分成一个个琐碎的简单逻辑。所有事情都需要有数据支持,最后搞残了公司。

做个记号,接着读。