[连载] 萨尔斯伯格《女士品茶》



The Lady Tasting Tea









How Statistics



Revolutionized Science



in the


Twentieth Century




作者序


进入19世纪时,科学界奉行着一种固化的哲学观,即机械式宇宙观(clockwork universe)。这种哲学观认为,为数不多的几个数学公式,像牛顿的运动定律(Newton’slaws of motion)和玻意耳的气体定律(Boyle’s laws of gases),可以用来描述现实世界的一切,并能预测未来即将发生的事件。而对这种预测,所需要的不过是一套完整的公式,以及一组具有足够精确度的相关数据。然而,对于一般大众来说,整整花了40年时间,他们的思想才跟上这种科学观念。
这种思想上的落差,典型地体现在19世纪早年拿破仑皇帝(Emperor Napoléon)与皮埃尔·西蒙·拉普拉斯(Pierre Simon Laplace)的一次对话中。拉普拉斯写了一本历史性的权威著作,论述如何根据地球上少数观察数据来计算行星和彗星的未来位置。据说拿破仑问道:“拉普拉斯先生,我发现你的论述中没有提到上帝啊!”拉普拉斯的回答则是:“我不需要这个假设条件。”
机械式宇宙观认为,宇宙如同一个庞大的时钟机器,所有的物体都按照一定的规律运动,宇宙永续运转而不需要神的介入;所有将来发生的事件都决定于过去的事件。许多人对这种无神论的思想感到恐慌,从某种意义上说,19世纪浪漫主义运动的兴起,正是对这种精确应用推理的冷冰冰的哲学观的回应。然而,19世纪40年代出现了对新科学的证明,这叫一般人难以想象:牛顿的数学定律被用来预测另一颗行星的存在,而海王星(the planet Neptune)正是在这些定律所预测的位置被发现的。于是,几乎所有对机械宇宙观的反抗都被粉碎了,这一哲学立场很快成为大众文化的基本部分。
不过,就算拉普拉斯在他的公式中不需要上帝,他还是需要一种被他称为误差函数(errorfunction)的东西。从地球上对行星和彗星的观察,与用公式所预测的位置并不绝对吻合,拉普拉斯和他的科学家同伴将这归结于观察中的误差,有时是由于地球大气层中的扰动,有时则是人为的。拉普拉斯把所有这些误差都放在一个附加项(误差函数)里,从而将之纳入他的数据描述。这个误差函数吸收了所有的误差,剩下的只是用来预测宇宙星体实际位置的绝对运动定律。当时科学家相信,随着越来越精确的测试,对误差函数的需求将逐渐消失。由于有误差函数来表示预测值与观察值之间的微小差异,19世纪早期的科学可以说是受到了哲学上决定论(determinism)的掌控,即相信所发生的任何事情都预先地决定于两点:(1)宇宙的初始条件;(2)描绘其运动的数学公式。
到了19世纪末,误差并没有消失,反倒是增加了。当测试越来越精确,误差也越来越多。机械宇宙观处于动摇之中,试图发现生物学定律和社会学定律的努力也失败了。在物理和化学等传统科学中,牛顿和拉普拉斯所用的那些定律,逐渐地被证明只是粗略的逼近。这样,科学便渐渐开始在新的范式(paradigm)下运作,这新范式就是现实世界的统计模型。到20世纪末期,几乎所有科学都转而运用统计模型了。
大众文化还是没有跟上这种科学革命,尽管一些含混的观念和表述,像相关(correlation)、胜率(odds)和风险(risk)等等,已经渗入了大众的词汇,并且多数人意识到了不确定性问题,这是与诸如医学和经济学等学科领域相联系的。但就已经发生的哲学观的深层转变而言,学界之外没有人能够对此有什么理解。这些统计模型是什么?它们是怎么来的?在现实生活中它们意味着什么?它们是现实的真实描述吗?本书正是试图来回答这些问题,其中我们也想介绍一些先生和女士的生平故事,这些人曾涉身于这场革命之中。
在处理这些问题时,必须把三个数学概念区分开:随机(randomness)、概率(probability)和统计(statistics)。对大多数人而言,随机只是不可预测性(unpredictability)的另一个说法。犹太教法典(Talmud)中的一则格言,传达了这种通常的看法:“不应该去探寻宝藏,因为宝藏的发现是随机的;按照定义,没有人能够寻找只会被随机发现的东西。”但是,对现代科学家来说,随机性有许多不同的类型。概率分布(probability distribution,这将在第2章中讨论)的概念允许我们对随机性加以限制,并赋予我们有限的能力去预测未来的随机事件。因此,对现代科学家而言,随机事件并不是杂乱的、不可预期的和不可预测的,它们有一个可以用数学来描述的结构。
概率是一个非常古老概念的现代用语,它曾出现在亚里士多德(Aristotle)的著作中。这位先哲声称:“不可能事件将会发生,这正是概率的特性。”起初,概率只是涉及到个人对什么事件即将发生的预测,在17和18世纪,一批数学家,其中包括贝努里(Bernoullis)父子、费尔马(Fermat)、棣莫弗(de Moivre)、帕斯卡(Pascal)都在以机会博弈(games of chance)为起点去研究概率的数学理论。他们发明一些非常高级的方法,用来计算等可能事件,棣莫弗设法在这些技术中加进微积分的方法,贝努里则可以领悟出非常基础的定理,叫大数定律(Laws of large numbers)。到了19世纪末期,数理概率主要由一些非常高级的技巧构成,但还缺少坚实的理论基础。
尽管不够完善,还是可以证明概率理论对发展统计分布(statisticsdistribution)观念的作用。当我们考虑一个特殊的科学问题时,就会产生一个统计分布。例如,在1971年,哈佛公共卫生学院所做的一项研究发表在英国的医学期刊《柳叶刀》(Lancet)上,这项研究旨在检验喝咖啡是否与下泌尿道癌有关。研究的报告以一级病人为对象。其中一些人患有下泌尿道癌,另一些人则患有其它疾病。报告的作者还搜集了这组病人的其它资料,如年龄、性别和家族的癌症病史等。结果证明,并不是每个喝咖啡的人都会得泌尿道癌,也不是每个得泌尿道癌的人都圆角咖啡,所以存在着与他们的假设相矛盾的事件。然而,25%的此类癌症患者习惯每天喝4杯以上咖啡,只有10%的非癌症患者是这种咖啡嗜好者,因而,似乎有一些证据支持这种假设。
这种资料的搜集给研究者提供了一个统计的分布。运用数理概率的工具,他们为这个分布建造了一个理论公式,称之为概率分布函数(probability distribution function),或简称分布函数(distributionfunction),以此来检验所研究的问题。它与拉普拉斯的误差函数相似,但却复杂许多。运用概率论来建造理论分布函数,而这个函数用来描述从未来数据中所能得到的预期结果,这些数据是以随机方式从同一总体的人群中提取的。
我不想使本书成为一本关于概率和概率论的书,那是抽象的数据概念。本书涉及的一些概率定理在科学问题上的应用,涉及统计分布和分布函数的世界。概率论本身不足以说明统计方法,有时甚至会出现这样的情形:科学中所用的统计方法违背了概率的定理。读者会发现本书中概率时隐时现,需要时被用到,不需要时则被忽略。
由于现实世界的统计模型都是数学化的,充分理解它们只能用数学公式或符号的方式。本书是一种野心不那么大的尝试,我打算描述发生在20世纪科学界的统计革命,而手法是通过介绍一些参加过这场革命的人物(其中不少人至今还健在)。我只是涉猎他们创造性的工作,试图让读者从中体会他们的个别发现是如何适应整个统计革命的。
仅就本书而言,读者并不会学到对科学数据进行统计分析所需要的足够知识,那需要几年的循序渐进的学习。但我希望读者看过本书后,能够对科学的统计观所代表的基本哲学的重大变革有所理解。那么,不懂数学的人要理解这场科学革命,应该从哪里开始呢?我以为,一个不错的选择是与女士一道品茶。
附件: 您所在的用户组无法下载或查看附件
豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280
目录
第1章        女士品茶
第2章        偏斜分布
第3章        可爱的戈塞特先生
第4章        在“垃圾堆”中寻觅
第5章        收成变动研究
第6章        “百年不遇的洪水”
第7章        费歇尔获胜
第8章        致命的剂量
第9章        钟形曲线
第10章        拟合优度检验
第11章        假设检验
第12章        置信诡计
第13章        贝叶斯异论
第14章        数学界的莫扎特
第15章        “小人物”之见解
第16章        非参数方法
第17章        当部分优于总体时
第18章        吸烟会致癌吗?
第19章        如果您需要最佳人选
第20章        朴实的德克萨斯农家小伙
第21章        家庭中的天才
第22章        统计界的毕加索
第23章        处理有瑕疵的数据
第24章        重塑产业的人
第25章        来自黑衣女士的忠告
第26章        鞅的发展
第27章        意向治疗法
第28章        电脑随心所欲
第29章        “泥菩萨”

        附:作者后记
            大事年表
            参考书目
    Chapter 01 The Lady Tasting Tea
Chapter 02 The Skew Distribution
Chapter 03 That Dear Mr. Gosset
Chapter 04 Raking Over the Muck Heap
Chapter 05 “Studies in Crop Variation”
Chapter 06 “The Hundred-Year Flood”
Chapter 07 Fisher Triumphant
Chapter 08 The Dose That Kills
Chapter 09 The Bell-Shaped Curve
Chapter 10 Testing the Goodness of Fit
Chapter 11 Hypothesis Testing
Chapter 12 The Confidence Trick
Chapter 13 The Bayesian Heresy
Chapter 14 The Mozart of Mathematics
Chapter 15 The Worm’s-Eye View
Chapter 16 Doing Away With Parameters
Chapter 17 When Part is Better than the Whole
Chapter 18 Does Smoking Cause Cancer
Chapter 19 If You Want the Best Person
Chapter 20 Just A Plain Texas Farm Boy
Chapter 21 A Genius in the Family
Chapter 22 The Pieasso of Statistics
Chapter 23 Dealing with Contamination
Chapter 24 The Man Who Remade Industry
Chapter 25 Advice From the Lady in Black
Chapter 26 The March of the Martingales
Chapter 27 The Intent to Treat
Chapter 28 The Computer Turns Upon Itself
Chapter 29 The Idol With Feet of Clay
豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280
第1章 女士品茶
那是20世纪20年代后期,在英国剑桥一个夏日的午后,一群大学的绅士和他们的夫人们,还有来访者,正围坐在户外的桌旁,享用着下午茶。在品茶过程中,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。在场的一帮科学精英们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。
他兴奋地说道:“让我们来检验这个命题吧!”并开始策划一个实验。在实验中,坚持茶有不同味道的那位女士被奉上一连串的已经调制好的茶,其中,有的是先加茶后加奶制成的,有的则是先加奶后加茶制成的。
写到这里,我可以想象,部分读者会对这种实验不以为意,认为它不过是一帮精英们于夏日午后的一个小消遣。他们会说:“这位夫人能不能区分两种不同的注茶方式,又有什么大不了的呢?这个问题并没有什么科学价值,这些大人物更应该把他们的天才用在对人类有所裨益的事情上去。”
不幸的是,不管外行对科学及其重要性怎么想象,从我个人的经验来看,大多数科学家之所以从事科研活动,只是因为他们对结果感兴趣,或者能够在工作中得到理性的刺激。好的科学家很少会想到工作的最终重要性,剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来,但这无关紧要,因为,实验的真正乐趣,在于找到一种判断该女士是对还是错的方案来。于是,在蓄着胡须先生的指导下,大家开始讨论应该如何进行实验判断。
接下来,在场的许多人都热心地加入到实验中来。几分钟内,他们在那位女士看不见的地方调制出不同类型的茶来。最后,在决战来临的气氛中,蓄短胡须的先生为那位先生为那位女士奉上第一杯茶,女士品了一小会儿,然后断言这一杯是先倒的茶后加的奶。 这位先生不加评论地记下了女士的说法,然后,又奉上了第二杯……

科学的合作性质
这个故事是我在20世纪60年代后期,从一个当时在场的先生那里听到的。这位先生就是休•史密斯(Hugh Smith),但他都是以H•费尔菲尔德•史密斯(H. Fairfield Smith)的名义发表科研论文。我认识他的时候,他在位于斯托尔斯(Storrs)的康涅狄格大学(the University of Connecticut)任统计学教授,而我则是两年以前在这个大学拿到了统计学博士学位。在宾州大学(the University of Pennsylvania)教了一阵子书后,我加入到了辉瑞公司(Pfizer Inc.)的临床研究部门。这是一家大型制药公司,它的研究园区坐落在格罗顿(Groton),离斯托尔斯大约一个小时的车程。当时,我是那里唯一的统计学家。在辉瑞期间,我要处理许多疑难的数学问题,还要负责给他们讲解这些问题,并告诉他们,对这些问题,我个人的结论是什么。
在辉瑞工作期间,我发现,科研工作几乎不能独立完成,通常需要不同智慧的结合。因为,这些研究太容易犯错误了。当我提出一个数学公式作为解决问题的工具时,这个模型有时可能并不适合;或者我就所处理情况而引入的假设并不真实;或者我发现的“解”是公式中的失误部分推导出来的;甚至我可能在演算中出了错。
无论何时,我去斯托尔斯的大学拜访,与史密斯教授探讨问题,或者,与辉瑞的化学专家、药理专家坐在一起讨论,我提出的问题都会受到欢迎,他们对这种讨论充满兴趣和热情。对大多数科学家来说,工作中令他们最感兴趣的,就是解决问题时那种兴奋感。因此,在检验并试图理解问题时,他们期盼着与他人交流。

实验的设计
剑桥那个夏日午后的情形正是如此,那个留着短胡须的先生就是罗纳德•艾尔默•费歇尔(Ronald Aylmer Fisher),当时他只有三四十岁。后来,他被授予爵士头衔。1935年,他写了一本叫《实验设计》(The Design of Experiments)的书,书的第2章就描述了他的“女士品茶”实验。在书中,他把女士的断言视为假设问题,他考虑了各种可能的实验方法,以确定那位女士是否能做出区分。设计实验时的问题是,如果只给那位女士一杯茶,那么即使她没有区分能力,她也有50%的机会猜对。如果给两杯茶,她仍可能猜对。事实上,如果她知道两杯茶分别以不同的方式调制,她可能一下子全部猜对(或全部猜错)。
同样,即便这位女士能做出区分,她仍然有猜错的可能。或者是其中的一杯与奶没有充分地混合,或者是泡制时茶水不够热。即便这位女士能做出区分,也很有可能是奉上了10杯茶,她却只是猜对了其中的9杯。
在这本书中,费歇尔讨论了这个实验的各种可能结果,他叙述了如何确定这样一些问题:应该为那位女士奉上多少杯茶?这些茶应该按什么样的顺序奉上?对所奉各杯茶的顺序应该告诉那位女士多少信息?依据那位女士判断的对错与否,费歇尔搞出了各种不同结果的概率。但在讨论中,他并没有指明这种实验是否真的发生过,也没有叙述这次实验的结果。
费歇尔书中有关实验设计的著述是科学革命的要素之一,这场革命在20世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前,科学实验已经进行了几百年。在16世纪后期,英国的威廉•哈维(William Harvey)用动物做实验,他将不同动物静脉和动脉里的血液堵住,试图追踪血液从心脏到肺,回流到心脏,流向全身,再回到心脏的循环路线。
费歇尔没有发现实验是增长知识的方法。费歇尔之前,实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验,而二流的科学家常常从事的是积累数据的实验,但对知识增长没有什么用处。为说明这点,可以举发生在19世纪后期的一个例子。那时的科学家就测量光速做了许多无关要旨的努力,而直接到美国物理学家艾伯特•米切尔森(Albert Michelson)用光线和镜子建造了一个特别精巧的系列实验,才第一次得到好的估计。
在19世纪,科学家很少发表实验结果。他们所做的是论述自己的结论,并发表能证明结论真实性的数据。格雷戈尔•门德尔(Gregor Mendel)没有展示出他全部豌豆培育实验的结果,他叙述了他的系列实验,然后写道:“两组系列实验的前10个数据可以用来说明……”在20世纪40年代,费歇尔检验了门德尔用来说明结论的数据,发现这些数据过分完美,以至于失真,它们并没有表现出应该具有的随机程度。
尽管科学从审慎思考、观察和实验发展而来,但从来不清楚应该怎样从事实验,实验的全部结果通常也没有展现给读者。
19世纪末和20世纪初的农业研究中,上述情况尤为明显。20世纪早期费歇尔在农业实验站工作,在费歇尔去那儿工作之前,这个实验站已经进行了约90年的肥料构成(称之为人工肥料)实验。在一个典型的实验中,工人将磷肥和氮肥的混合物撒在整块田中,然后种植作物,测度收成和整个夏季的雨量。这里有精巧的公式用来“调整”某年或某块地的产量,以便与另一块地、或同一块地的另一年产量相比,这被称为“肥力指数”。每一个农业实验站都有自己的肥力指数,而且都认为自己的指数是最精确的。
90年的实验结果不过是一堆未经发表、了无用处的混乱数据。看来某些品种的小麦对某种肥料反应优于其它品种,但只是在降雨过量的年份如此。其它实验似乎显示:第一年用钾硫化物,第二年用碳酸硫化物,会使某些品种的马铃薯增产,而对其它品种并非如此。因此,就这些人工肥料,充其量可以说,其中有些在有的时候,可能或大概有效。
作为一个卓越的数学家,费歇尔审视了农业科学家用来修正实验结果的肥力指数,这些指数是用来解释不同年份气象变化所造成的差异的,他还检查了其它农业实验站所用的同类指数。当简化为基本的代数式时,这些指数不过是同一公式的不同表现形式,换句话说,看似激烈争斗的两个指数,其实起着同样的修正作用。1921年,费歇尔在农业科学领域的领军期刊《应用生物学年报》(the Annals of Applied Biology)上发表了一篇论文,文中他指出了采用哪种指数并没有什么差异,并且,所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续20多年的科学论战。
费歇尔接着检查了过去90年来的雨量和收成数据,指出年度间不同气候的影响远远大于不同肥力的影响。用费歇尔后来在他的实验设计理论里发明的一个词来说,“混合”(confounded)的,这意味着用已有的实验数据是不能将二者分开的。90年的实验和20年的科学论战几乎是无谓的浪费。
这使得费歇尔专注于实验和实验设计的思考。他的结论是:科学家需要从潜在实验结果的数据模型开始工作,这是一系列数据公式,其中一些符号代表实验中将被搜集的数据,其它则代表实验的全部结果。科学家从实验数据开始,并计算与所考虑科学问题相应的结果。
让我们考虑一个关于一个老师和某个学生的简单例子。这个老师非常想找出一些关于这个孩子学习情况的测试数据,为了达到这个目的,老师对孩子进行了一组考试,每一个考试都在0到100之间评分,任何一个单一的考试都不可能对孩子知识的掌握提供可靠的评估;这个孩子可能是没有学习多少考试所涉及的内容,但是知道不少考试以外的事情;可能是这个孩子在参加考试那天头疼;还可能是参加考试那天早上孩子与父母发生了争执。由于种种原因,单一考试不能对知识量提供好的估计,所以老师进行了一组考试,然后计算出所有考试的平均分来评价孩子的知识量。这样的估计结果会更好,多少分是孩子知识量的实验结果,而每一个单独考试的分数则是数据。
那么老师应该如何组织考试?是搞那种只包括几天前所教授内容的系列考试,还是每次考试都从考试前所教授的全部内容中提取一部分?考试是一个星期搞一次,还是每天搞一次?或者在每个教学单元结束时搞?所有这些都是实验设计涉及到的问题。
如果农业科学家想知道某种人工肥料对小麦生长的效用,就要构建一个实验以取得效用估计时所需要的数据。费歇尔表明,实验设计的第一步是建立一组数学公式,用以描述待搜集数据与欲估计结果之间的关系,因此,任何有用的实验必须是能够提供估计结果的。实验必须是有效的,能够让科学家测定出气候的差异和不同肥料的使用对产量差别的影响。特别是,有必要包括同一实验中打算加以比较的实验处理(treatments),即那些后来被称为“控制组件”(controls)的东西。
在他那本关于实验设计的书中,费歇尔提供了几个实验设计的范例,并导出优秀设计的一般原则。然而,费氏方法中所涉及到的数学非常复杂,多数科学家设计不了自己的实验,除非他们遵循费歇尔书中提出的实验设计中的某个模式。
农业科学家认识到费歇尔工作的伟大价值,在大多数说英语的国家中,费氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发,用来论述不同实验设计的完整科学文献发展起来。这些设计被应用到农业以外的领域,包括医学、化学和工业质量管理。在许多案例中,所涉及的数学高深且复杂,但此时此刻,我们不妨停下来想想,科学家不可能不假思索地动手实验,这通常需要长时间的审慎思考,而且,其中通常会有大量的、高难的数学。
至于前面所说的女士品茶——那个在剑桥晴朗的夏日午后所做的实验中,那位女士怎样了呢?费歇尔没有描述这项实验的结果,但史密斯教授告诉我,那位女士竟然正确地分辨出了每一杯茶!
豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280
咦,这个有趣。
我知道什么?
4# ironland 女士品茶中译本(高清,287页,电脑阅读).pdf
http://ishare.iask.sina.com.cn/f/19616819.html
word版
http://ishare.iask.sina.com.cn/f/5803981.html
豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280
第2章 偏斜分布
像人类思想史上的许多革命一样,要想找到统计模型成为科学组成部分的确切时刻,也是很难的。人们可以在19世纪初德国和法国数学家的工作中找到可能存在的特例,甚至在17世纪伟大的天文学家约翰尼斯•开普勒(Johannes Kepler)的论文中,也能找到某种启示。正像本书前言中所提到的那样,拉普拉斯(Laplace)发明了误差函数来说明天文学中的统计问题,但我仍然倾向于把统计革命的发生定位于19世纪90年代K•皮尔逊(Karl Pearson)的工作。查尔斯•达尔文(Charles Darwin)把生物变异认作生命的基本面,并将之作为适者生存理论的基础。然而,是他的英国伙伴K•皮尔逊首先认识到统计模型的根本性质,以及这种模型对19世纪科学中的决定论观点提供了哪些不同的东西。
当我在20世纪60年代开始学习数理统计时,K•皮尔逊的名字在课上很少被提到。当我与这一领域的大人物共同探讨一些问题时,也听不到对K•皮尔逊及其著作的参考。他或者是被忽略了,或是被视为行为早已出局的次要人物。例如,美国国家标准局(the U.S. National Burean of Standards)的邱吉尔•艾森哈特(Churchill Eisenhart)当时正在伦敦大学学院(University College,London)学习,那是K•皮尔逊人生的最后几年,艾森哈特记忆中的K•皮尔逊不过是一个精神头不足的老头儿。统计研究的步伐已经将他推出局外,他和他的工作被埋进故纸堆中,青年学生神采飞扬,集聚在新的大人物周围学步,其中之一,便是K•皮尔逊自己的儿子,但是没有人去拜见老皮尔逊,他的办公室孤零零地坐落在那里,远离着活跃的、振奋人心的新研究。
当然并不总是如此,在19世纪70年代,年轻的K•皮尔逊离开英国,到德去从事政治科学的研究生学习。在那里,他倾心于卡尔•马克思(Karl Marx)的著作,为了表达崇拜之情,他把自己名字的拼法从Carl改成Karl。带着政治学博士的学位,他回到了伦敦,并在这个领域写过两本值得重视的著作。在维多利亚时代的英国,伦敦的拘谨之风最甚,K•皮尔逊却大胆地效仿德国和法国上流社会的沙龙,组织了一个青年男女谈话俱乐部(Young Mens and Womens Discussion Club)。俱乐部的青年男女平等地聚焦在一起(未婚少女并没有人陪伴),讨论世界上重大的政治和哲学问题。K•皮尔逊正是在那种环境下与夫人相遇而结缘的,这个事实使人感到发起这类俱乐部可能另有动机。这个小小的社会冒险对我们进入K•皮尔逊的内心世界提供了帮助,可以见证他对已经建立起来的传统是那样地不以为意。
尽管拿的是政治学博士学位,K•皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。19世纪80年代,他发表了《科学的法则》(The Grammar of Science),这本书后来再版了多次。在第一次世界大战之前的一段时间里,它被视为关于科学和数学性质最伟大的著作之一,其中充满了闪光的、原创性的、最具洞察力的见解,这使该书成为科学哲学的一本重要著作。同时,它又是以流畅、简单的风格写成,任何人都可以接受,你不必懂得数学就可以理解《科学的法则》。尽管从写作之日算起,这本书已经有100多年的历史了,但其中充满洞察力的见解和思想,对21世纪的数学研究,仍然是适用的。而它所提供的对科学性质的理解,至今也是真实的。

高尔顿的生物统计实验室
在人生的这个时段,K•皮尔逊感受到了英国科学家弗朗西斯•高尔顿(Francis Galton)爵士的影响。大多数人知道高尔顿这个名字,缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对每一个人都是独特的,此外,还有通常用于识别和分类指纹的方法。指纹的唯一性存在于手指类型中出现的不规则标识和切面,这被称为“高尔顿标识”(Galton Marks)。高尔顿做的远比这多,作为一个只是将生物学算作其业余爱好的科学家,通过数字模型的研究,他寻求将数学的严密引入生物学,这同样是富有价值的。他所初创的各种调查当中的一项,是对天才遗传的研究。在这项研究中,他搜集了有关父子的信息,这些人因智商高而闻名。但由于当时对智力的测量没有什么好的办法,他发现研究这个问题特别困难,于是他决定转向诸如身高之类的遗传特性的研究,因为这更容易测量些。
高尔顿在伦敦成立了生物统计实验室(biometrical laboratory),并打广告动员不同的家庭来做测量。在这个实验室,他搜集身高、体重数据,测量特殊的骨骼和家庭成员的其它特性。他和他的助手将这些数据列成表格,并一再检验,他是在寻找利用父母测度数据来推断子女的某些办法。比如说,很明显,高个子父母很容易有高个子的小孩,但是不是存在某些数学公式,只用父母的身高就可以预测孩子将有多高呢?

相关与回归
高尔顿用这种方法,发现了他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回归。在第5章到第7章,我们将看到,费歇尔如何能够将高尔顿向平均值回归的思想纳入统计模型,而这种模型现在支配着经济学、医学研究和工程学的很多内容。高尔顿仔细思考了他的惊人发现,而后认识到这必定是真实的,在进行所有观察之前这就是可以预言的。他说,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样高,在这种情况下,一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者这一代人的儿子也将如此,那么会有一些儿子身材更高。这个过程将一代一代延续下去。同样地,将会有一部分儿子身材比他们的父亲矮小,而且有一部分孙子将更加矮小,如此下去,不用多少代,人类种族就将由特别高和特别矮的两极构成。
上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。只有当非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子的平均身材变高,才能出现这种稳定。向平均值回归是一种保持稳定性的现象,它使得某给定物种代际之间大致相同。
高尔顿发现了这种关系的一种数学测度,他称之为“相关系数”(coefficient of correlation)。高尔顿给出了明确的公式,以计算这个系数,所用的资料则是在生物测量实验室搜集的。这是一个非常详细而明确的公式,它只计算了向平均值回归的一个方面,但没有告诉我们任何有关这种现象原因的信息。正是在这个意义上,高尔顿最先使用了“相关”这个字眼,这之后它演变进入了大众词汇。与高尔顿特定的相关系数相比,“相关”经常被用来表示更为模糊的东西,尽管“相关”本身有严格的科学含义。科学圈外的人经常说到这个词,似乎它描述了两种事物如何相联系,但除非你涉及到高尔顿的数学测量,否则,当你使用高尔顿用于特别目的的“相关”这个词时,它不必那么精确。

分布与参数
有了这个计算相关的公式,高尔顿实际上已经非常接近新的革命性观念了,这个观念革命在20世纪几乎修正了所有的学科。但却是他的弟子K•皮尔逊,在非常完整的意义上第一个规范地阐明了这个观念。
为了理解这个革命性的观念,你必须将已有的关于科学的成见抛开。通常我们被教导,科学就是测量,我们进行精心的测量,并用它来寻找描述自然的数学公式。在高中的物理课中我们学过,当时间给定时,一个自由落体的运行将遵循一个含有符号“g”的公式,这里的“g”是关于重力加速度的常量。我们学过可以用来确定“g”的值的实验。然而,当高中生们进行一系列确定值的实验时,顺着斜板滚动小球,并测量小球需要多长时间到达不同的位置时,发生了什么呢?这就是很少得出确切的结果。学生进行实验的时间越长,困惑就越多,因为不同的实验得出了不同的“g”值。老师仅凭自己优越的知识来审视学生的实验,并认定学生之所以得不到正确的结果,要么是因为工作草率,要么是因为不够细致,要么是抄错了数据。
老师没有告诉学生的是:所有的实验都是草率的,并且,即使是最精心的科学家,也很少得到确切的数值。不可预见和不可观察的小扰动在每一个实验中都有:室内的空气可能太潮湿,或者落体在滚动前卡住了一个微秒,旁边飞过的蝴蝶可能会有其影响:造成气流的轻微扰动。人们从一个实验中真正得到的是散乱的数据,其中没有一个单个数据是确切的,但所有这些数据可以用来对确切值进行近似的估计。
武装了K•皮尔逊的革命性观念,我们就不再将实验结果看作精心测量得出的数据,它们也不是本来就确切的,用更容易接受的术语来代替:它们是一组散布数据,或一个数据分布中的样本。数据的分布可以写成数学公式,它告诉我的数值是不可预测的,我们只能谈论概率值而不是确定值,单个实验的结果是随机的,在这个意义上看它们是不可预测的,然而,分布的统计模型却使我们能够描述这种随机的数学性质。
科学家花了一些时间才认识到观测值所固有的随机性质。在18和19世纪,天文学家和物理学家创造出描述他们观察值的数学公式,达到了可接受的精确程度,在为测量工具不够精确,所以观察值与预测值之间的是预料之中的,可以忽略不计。星体和其它天体的运动被假定遵循运动基本公式所确定的精确路径,其不确定性是由于简陋的测量工具造成的,并不是其固有的性质。
随着物理学中更为精确的测量工具的发展,随着将这种测量科学扩展到生物学和社会学的尝试,大自然所固有的随机性越来越明显了。怎么处理它?一种办法是坚持数学公式的精确性,将观测值与预测值之间的离差视为小的、无关紧要的误差。事实上,早在1820年,拉普拉斯的数学论文描述了第一个概率分布,即误差分布,那是一个与这些小的、无关紧要的误差相联系的概率的数学公式。这个误差分布以钟形曲线(bell-shaped curve)或正态分布(the normal distribution )的说法进入了大众的词汇。
这使K•皮尔逊比正态分布或误差分布更进了一步,审视生物学中积累的数据。K•皮尔逊认为,测量值本身,而不是测量的误差,就具有一种正态分布。我们所测量的,实际上是随机散布的一部分,它们的概率通过数学函数——分布函数被描述出来。K•皮尔逊发现了被他称为“偏斜分布”(skew distribution)的一组分布函数,他宣称,这组函数可以描述科学家在数据中可能遇到的任何散布类型,这组函数中的每一个分布由四个数字所确定。
用来确定分布函数的这些数字与测量中的数字不属于同一类型,这些数字决不会被观察到的,但可以从观测值散布的方式中推导出来。这些数字后来被称为参数(parameters——源自希腊语,意思是“几乎测量”(almost measurements))。能够完整地描述K•皮尔逊体系中数字的四个参数分别被称为:
1.        平均数(the mean)——测量值散布状态的中间值;
2.        标准差(the standard deviation)——测量值的散布与平均值偏离有多远;
3.        对称性(symmetry)——测量值在平均值一侧规程的程度;
4.        峰度(kurtosis)——个别的观测值偏离平均值有多远。
用K•皮尔逊偏斜分布体系去考虑问题,思路会有一种微妙的转移。在K•皮尔逊之前,科学所处理的事情都是真实的。开普勒试图发现行星如何在空间运行的数学规律;威廉•哈维的实验打算确定血液如何在某一特定动物的静脉和动脉中游动;化学则处理元素和由元素组成的化合物。然而,开普勒所试图追踪的“行星”实际上是一组数据,用来给地球上的观测者所看到的天空中微弱的光点定位。单匹马身上血液通过静脉流动的实际情形,也许与在另一匹马或者一个人身上所可能看到的不同。没有人能够生产出纯铁的样本,尽管谁都知道铁是一种元素。
K•皮尔逊提出,这些观测到的现象只是一种随机的映像,不是真实的,所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的,它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的,是分布的四个参数。从某种意义上说,我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它们。
K•皮尔逊并没有意识到这关键的一点,他以为,如果我们能够搜集到足够的数据去估计参数,就会得到参数的真实数值。而他的年轻对手费歇尔指出,K•皮尔逊的许多估计方法并不是最优的,在20世纪30年代末期,当K•皮尔逊临近他漫长生命的终点之际,一位杰出的波兰年轻数学家耶日•奈曼(Jerzy Neyman)表明,K•皮尔逊的偏斜分布体系并没有包含所有可能存在的分布,许多重要问题不能用K•皮尔逊的体系解决。
还是让我们离开1934年那个被离弃的老皮尔逊吧。回到他三四十岁、精力充沛的时期,那时的他对自己所发现的偏斜分布充满了热情。1897年,他接管了高尔顿在伦敦的生物统计实验室,带领一支年轻的娘子军(被称为“计算员”),计算高尔顿所积累的人种测量数据的分布参数。在20世纪之交,高尔顿、K•皮尔逊和R•韦尔登(Rerhael Weldon)共同努力,创办了一个新的科学期刊,这将使K•皮尔逊的观点应用到生物数据上。高尔顿用他的个人财富建立了一个信托基金支持这个期刊。在第一期,编辑们提出了一个雄心勃勃的计划。

生物统计计划
当时,英国科学家中有一位杰出的人物,他就是达尔文,同期的科学家们致力于探索达尔文富有洞察力的见解,高尔顿、K•皮尔逊和韦尔登便是其中相当热心的骨干。达尔文的进化理论认为,生命形式随着环境压力而变化,他提出,变化的环境会给更适应新环境的随机变化提供些许的优势,渐渐地,伴随着环境改变和生命形式继续发生随机转变,新物种将会出现并且更适于在新的环境中生存和繁殖。这一思想被简称为“适者生存”(survival of the fittest)。当恣意妄行的政治学家将其用于社会生活,宣称那些在经济竞争中取得胜利的富人比身陷贫困的穷人更为适于生存时,这一理论对社会就有不好的影响——适者生存理论成了猖狂的资本主义的辩护者,在那里,富人被授予了道义上的特权去鄙视穷人。
在生物科学中,达尔文的思想似乎很有道理。达尔文可以指出相关物种的相似性,作为现代物种从先前物种演化而来的佐证。达尔文表明,物种上些许不同的小型鸟类,即使是生活在孤岛上,也有许多解剖学上的共性。他指出,不同物种胚胎之间的相似性,这包括人类的胚胎,在开始是有尾巴的。
有一件事是达尔文做不到的,那就是他不能给出人类历史的时间框架中,新物种实际出现的例子。达尔文设定新物种由于适者生存而出现,但没有证据,他不得不做的只是展示现代物种很好地适应了它们所处的环境。达尔文的说法似乎只是表明了已知的事情,而且理论本身有一个很吸引人的逻辑结构,但是如果套用犹太人的一句老话就是“举例并不是证明”(For instance is no proof)。
K•皮尔逊、高尔顿和韦尔登打算在他们的新期刊中将这事搞清楚。在K•皮尔逊看来,只有概率分布是真实的,达尔文的雀鸟(他在书中用到的一个重要例子)并不是科学调查的对象,而某一种雀鸟的总体随机分布才是这个对象。对某一给定雀鸟种类而言,如果能够测量其全体的喙长,这些喙长的分布函数将有四个参数,这四个参数将是这一种雀鸟的喙长。
K•皮尔逊说,假如存在着某种环境力量,通过提供优越的生存能力,使得某一物种产生某种特定的随机变化,我们也许不能生存得那么久,以看到新物种的出现,但我们能够看到分布的上个参数的变化。在他们期刊的创刊号上,三位编辑宣布:他们的新期刊将从全世界搜集数据,以确定这些分布的参数。最终期望表明,样本参数的变化与环境变化相关。
他们将新期刊定名为《生物统计》(Biometrika),高尔顿创建的生物统计基金会给予它慷慨资助。由于资金是这样地充裕,以至于该期刊成为世界上第一本印有全彩照片的期刊,甚至还带着画有复杂图画的下班纸折页。期刊以高品质的优质纸印刷,连最复杂的数学公式也展示了出来,尽管那意味着极端复杂和昂贵的排版工艺。
接下来的25年里,《生物统计》发表了通讯员们从各地发来的数据:有的深入非洲的丛林,测量原住民的胫骨和腓骨;有的从中美洲的雨林抓到奇特的热带鸟类,测量其喙长;还有的甚至偷盗古墓,揭开死人头盖骨灌铅,以测量其脑的容量。在1910年,该期刊发表了几幅全彩照片,画面是俾格米男人裸躺在地上,的生殖器旁还摆着量尺。
在1921年,一个年轻的女通讯员朱莉亚•贝尔(Julia Bell)描述了她在试图对阿尔巴尼亚新兵进行人类形体测量时所遇到的困难。她离开维也纳去阿尔巴尼亚一个边远的基地,本以为可以得到讲德语军官的帮忙,当她抵达时才发出,那里只有一个士官能说三句德语。她无所畏惧地拿出了测量所用的铜标尺,通过形体动作让那些年轻人理解她要干什么,直到他们按要求抬起手臂和脚。
对每一组这样的数据,K•皮尔逊和他的计算员们都计算出分布的四个参数,论文将展示最佳分布的图示,并评论该分布与其它相关数据的分布有何不同。回顾过去,很难看出所有这些行动怎样帮助证明了达尔文的理论。浏览《生物统计》的这些作品,我得到这样一种印象:这些工作不久就变成为自身原因而进行努力,除了给特定数据组估计参数外,没有实际目的。
在期刊中还夹杂着其它类型的论文,其中一些涉及理论数学,以处理发展概率分布时遇到的问题。比如在1908年,一个不知姓名的作者,以“学生”(“student”)为笔名发表了论文,提出了后来几乎在所有现代科学工作中都有作用的研究成果——“学生”的“t检验”。接下来的几章我们还会遇到这位匿名的作者,并将讨论他在K•皮尔逊与费歇尔之间作调解时的不幸角色。
高尔顿死于1911年,而韦尔登则于这之前死于阿尔卑斯山的一次滑雪事故。只剩下了K•皮尔逊这唯一的编辑和信托基金的支配者。在接下来的20年中,期刊成了K•皮尔逊个人的了,期刊发表什么完全以K•皮尔逊的判断为准,由他确定重要与否。K•皮尔逊为期刊写了很多社论,他让自己丰富的想象驰骋在各个领域。比如,在对一个古老的爱尔兰教堂翻修时,墙壁中发现了一副骨骼,K•皮尔逊通过对这些骨骼的测量和所涉及的数学推理,来确定它们事实上是不是某个中世纪圣徒的遗骨。再比如,一个据称是奥利弗•克伦威尔(Oliver Cromwell)的头骨被发现了,K•皮尔逊以一篇精彩的文章对其进行了研究。该文描述了所知的克伦威尔尸体的下落,并且还将对克伦威尔画像所做的测量结果和该头骨 所做的测量进行了比较。在另外一些论文中,K•皮尔逊检验了古罗马各君主的统治期和贵族阶级的没落,还涉猎了社会学、政治学和植物学。所有这些,都带有复杂的数学解释。
就在去世之前,K•皮尔逊还发表了一篇题为“论犹太人与非犹太人关系”(On Jewish – Genlile Relationships)的短文。文中他分析了从世界各地收集到的犹太人与非犹太人的人体测量数据,最后得出的结论是:德国国家社会主义(the National Socialists)(正式的名称是纳粹(Nazis))的种族理论纯粹是胡说八道,根本就没有犹太种族(Jewish race)或亚利安种族(Aryan race)那回事。这最后一篇论文与他以前的工作一样,组织清晰,有逻辑性,推理谨慎。
K•皮尔逊运用数学研究了人类思想的许多领域,而很少有人将这些领域视为科学的正宗地盘。浏览生物统计上他所写的社论,你仿佛看到了一个兴趣十分广泛的人,他具有直切问题核心的惊人能力,并能用数学模型去加以处理。还有浏览这些社论,你就像遇上一个意志坚定、主见鲜明的人。说实话,如果不需要与他争辩的话,我想我是很乐意与K•皮尔逊共处一天的。
K•皮尔逊他们是否证明了达尔文适者生存的进化论理论呢?也许是吧。通过将古墓中头骨的容量分布与现代男女的比较,他们设法证明:经历了几千年深化的人类种群保持了相当的稳定。他们表明:对澳洲原住民的人类学测量与对欧洲人的测量结果有着相同的分布,据此,他们推翻了某些澳洲人关于原住民不是人类的断言。K•皮尔逊从这些工作中发展了一种被称为“拟合优度检验“(goodness of fit test)的基本统计工具,这是现代科学所不可缺少的。它使科学家能够确定一组给定的观测值是否适合于某一特定的数学分布函数。在第10章我们会看到,K•皮尔逊的儿子E•皮尔逊(Eqon Pearson),是如何用这种拟合度检验是否定他父亲所完成的许多项工作的。
随着20世纪的来临,《生物统计》中讨论数理统计理论问题的文章越来越多,少量的文章仍停留在处理特定数据的分布。当K•皮尔逊的儿子E•皮尔逊接班成为编辑时,期刊的性质就完全转型为理论数学了。时至今天,《生物统计》仍是这个领域中卓越的刊物。
但他们到底有没有证明适者生存这个说法呢?20世纪初曾经有一个最接近的研究。韦尔登构想了一项宏大的实验:18世纪英格兰南部瓷器工厂的发展,导致了一些河道被粘土淤塞,普利茅斯(Plymouth)港和达特茅斯(Dartmouth)港也都受到了影响,近陆地区比近海地区淤得更为严重。韦尔登从这些港口抓了几百只螃蟹,分别放入广口瓶中,其中一半用内港的淤泥水,另一半用外港的较干净的水。一段时间后仍有螃蟹存活,韦尔登测量它们的壳,以确定两组螃蟹的分布参数。
正像达尔文所预言的那样,淤泥水中戚的螃蟹在分布参数上有了变化!这是不是证明了进化论呢?不幸的是,韦尔登在写出实验结果前就死了,K•皮尔逊对数据进行了粗略的分析,他描述了这个实验及其结果,但最后的分析却始终没有搞出来。为这项实验提供资助的英国政府要求提供最终报告,但报告了无踪影,韦尔登死了,实验也夭折了。
就生命周期很短的生物,如细菌和果蝇而言,达尔文的理论最终被证明是真实的。用这些物种,科学家可以在较短的一个时间段里完成几千代的实验。现代的DNA研究,作为遗传的基石,已经为物种之间的关系提供了更为有力的证据。如果我们假定突变率在过去千万年或更长的时间里保持不变,那么DNA的研究可以用来估计灵长类和其它哺乳动物出现的时间框架,至少它经了几百万年。大多数科学家现在都把达尔文的进化论作为正确的东西接受下来。没有其它理论与所知数据吻合的如此之好,于是科学界满足了,原来人们认为需要通过确定分布参数转变来表明较短时间里的进化过程,一日三餐这种观念已经被放弃。
K•皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是不可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。今天,医学研究运用精巧的分布数学模型来确定治疗方法对长期存活的可能效果;社会学家和经济学家用数学分布来描述人类社会的行为;物理学家用数学分布来描述次原子粒子。科学里没有哪一个方面从这场革命中逃脱。有的科学家宣称,概率分布的使用只是一时的权宜之中,最终我们会找到一种途径回到19世纪科学的决定论。爱因斯坦有句名言,他不相信上帝在和宇宙玩骰子,就是这种观点的例子。其他人则相信,大自然基本上是随机的,真实性只存在于分布函数之中。不管一个人的基本哲学是什么,事实仍然是,K•皮尔逊关于分布函数和参数的思想统治了20世纪的科学,并在21世纪初仍保持着优势。
豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280
第3章 可爱的戈塞特先生
爱尔兰都柏林的吉尼斯酿造公司(Guinness Brewing Company)是一个声誉卓著的老牌酿造公司,该公司于20世纪初开始投资于科学。年轻的吉尼斯刚刚继承这家企业,他就决定雇用牛津和合格大学在化学上顶尖的毕业生,以便将现代科学技术引进到公司的业务中来。在1899年,他招募威廉•西利•戈塞特(William Sealy Gosset)进入公司,那是个23岁的牛津大学新秀,拥有化学和数学两个学位。戈塞特的数学背景在当时是传统的,包括微积分、天文学和机械式宇宙观下的其它科学分支,K•皮尔逊的创新和后来成为量子力学的萌芽观念,还没有进入大学的课程。戈塞特是由于他的化学专长而被吉尼斯雇用的。对一个酿酒企业来说,要一个数学家又有什么用呢?
戈塞特成为吉尼斯一项很好的投资,他表明自己是一个很能干的管理者,最后他在公司里升任负责大伦敦区业务的主管。事实上,他对本行工艺做出了第一项主要贡献是以数学家的身份来完成的。几年前,丹麦电话公司(the Danish telephone company)是第一个雇用数学家的实业公司,但他们有一个明确的数学问题:制造多大的电话交换板?可制造啤酒又有什么数学问题需要解决呢?
戈塞特在1904年发表了第一篇文章,处理的是这样一个问题:麦芽浆准备发酵的时候,需要仔细地测量所用酵母的量,酵母是活的有机体,酵母培育需要保持鲜活,加入麦芽浆前它在瓶中的液体里系列。工人们得到测量清楚某个给定的瓶中有多少酵母,以便决定用多少液体,它们提取一定量的液体,在显微镜下检验,计量他们所看到的酵母细胞数。这种测量有多精确?了解这一点是很重要的,因为麦芽浆中所用的酵母数应该精确地控制。酵母太少,发酵不充分;太多了,啤酒又会发苦。
注意这个问题与K•皮尔逊对科学的观念是多么的吻合。测量的是样本中酵母细胞的量,但所寻求的真实“东西”是整个瓶中酵母细胞的浓度。由于酵母是活的,而细胞不断地分裂和繁殖,那个“东西”实际上并不存在,在某种意义上,真正存在的是单位液体中酵母细胞的概率分布。戈塞特检验了数据,确定酵母细胞的数量可以用所知的泊松分布(Poisson distribution )来描述,这并不是K•皮尔逊偏斜分布家族中的一种概率分布。事实上,它是一种只有1个(而不是4个)参数的特殊分布。
确定了样本中的活酵母细胞数服从泊松分布,戈塞特就能够设计规则和测量方法,从而得到对酵母细胞浓度更为精确的测量。用戈塞特的方法,吉尼斯能够生产质量更稳定的啤酒。

“学生”的诞生
戈塞特想找一份适合的期刊发表这个结果,泊松分布(或相应的公式)已经被发现100多年了,过去一直试图在现实生活中寻找实例,其中之一,便是计量普鲁士军队中被马踏死的士兵人数。在酵母细胞计量中,戈塞特有一个清楚的实例,还有对统计分布新观念的重要应用。然而,这违背了公司不准许雇员发表文章的政策。几年前,吉尼斯一位优秀的酿造师写了一篇文章,其中泄露了他们某个酿造过程的秘密成份。为了避免进一步损失,吉尼斯禁止它的雇员发表文章。
戈塞特成了当时《生物统计》编辑之一的K•皮尔逊的好朋友,而K•皮尔逊对戈塞特的数学能力印象很深。1906年,戈塞特说服了他的老板,数学的新思想对啤酒公司是很有用的,并到高尔顿生物统计室在K•皮尔逊门下脱产学习一年。这之前两年,当戈塞特描述他处理酵母的结果时,K•皮尔逊急于将之付印于他的期刊。他们决定用匿名的方式发表文章,于是,戈塞特的首次发现是仅是以“学生”的名义发表的。
在其后30年中,“学生”写了一系列极为重要的论文,几乎所有的都发表在《生物统计》上。从某些方面看,吉尼斯家族已经发现了他们“亲爱的戈塞特先生”违反了公司的规定,一直私下里撰写并发表科学论文。“学生”的数学活动大多是在家里进行,并且是在正常的工作时间之外。戈塞特在公司升迁到了负更多责任的位置,这表明他的副业并没有使吉尼斯公司受损。有这样一种不足为凭的说法:吉尼斯家族第一次知道这件事是在1937年,戈塞特突然死于心脏病,他数学界的朋友与吉尼斯公司探讨,想帮助支付其论文集的印刷成本。不管这事真实与否,美国统计学家哈罗德•霍特林(Harold Hotelling)的回忆录里清楚地记载,霍特林在20世纪30年代后期要与“学生”会谈,安排是秘密的,带有间谍小说的各种情节。这表明“学生”身份的真正确认,对吉尼斯公司仍是个秘密。“学生”在《生物统计》发表的论文涉及理论和实践的尖端问题,戈塞特将非常实际的问题带入有难度的公式,又把结论带回现实实践,后来者便照此办理。
尽管有很高的成就,戈塞特仍是个谦逊的人。在他的信中,人们经常可以发现这样的字眼:“我的研究只是提供了粗浅的想法”;或者,当他的某些发现被给予过多的荣誉,他会说:“费歇尔实际上已经能完成了整个数学结构。”在人们的记忆中,戈塞特是一个和善的、体贴的同事,很在意别人的情感。他去世的时候61岁,离开了他的妻子马乔里(Majory)(一个精力充沛的运动员,曾经担任英国女子曲棍球队的队长)、一个儿子、两个女儿和一个孙子,当时他的父母还健在。

“学生”的t检验
如果不算别的,所有的科学家都受惠于戈塞特的一篇短文,该文的题目是“平均数的可能误差”(The Probable Error of the Meam),1908年发表在《生物统计》上。是费歇尔点出这篇杰出论文的一般性意义。对戈塞特来说,有一个特定的问题需要解决,一到晚上,他就习惯性地带着耐心和小心投入于这个问题。发现了结论,他就用其它资料来检查,重新验证他的结果,努力去确认是否遗漏了什么细微的差别,考虑他必须设定哪些假设,并一再重复计算自己的发现。他提前采用了现代计算机基础上才出现的蒙特卡罗技术(Monte Carlo techniques),这是一种一再模拟的数学模型,以确定相关数据的概率分布。然而,当时他没有计算机,只能不辞辛苦地加总数据,从上百个样本中计算平均数,并绘制所得出频率的图表,所有这些都靠手工完成。
戈塞特所专注的特定问题是小样本(small sample)问题。K•皮尔逊计算了某一分布的4个参数,这是在单一样本就积累了上千个测量数据的基础上完成的,因为使用了大样本,他设定所得到的参数估计是正确的。费歇尔要证明他的错误。根据戈塞特的经验,科学家很少能三八线以有如此大的样本,更为典型的实验通常能够看到10到20个观测数据,他还理解到,这种现象在所有的学科中都很普遍。在一封给K•皮尔逊的信中,他写道:如果我是你遇到的用小样本工作的唯一一人,那你太特异了,在这个题目上我与斯特拉顿(Stratton)(剑桥大学的一位研究员)相伴,他曾经用4个样本来做说明。
K•皮尔逊所有的工作都假定:样本足够大,以至于确定参数可以没有误差。戈塞特设问:如果是小样本会怎么样?我们将如何处理自己的计算中肯定会出现的随机误差?
晚间,戈塞特坐在自己的餐桌旁,取出一小组数据,算出平均值和标准差估计值,再将二者相除,并将结果绘在图纸上。他发现这个比率与K•皮尔逊的四个参数相关,并与K•皮尔逊的偏斜分布系列中的某一分布相配。他的伟大发现在于:你不必知道原始分布的4个参数的确切值。前两个参数估计值的比率有一个可以制表的概率分布,不管数据从哪里来,或者标准差的真实值是多少,计算这两个样本估计值的比率,你就可以得到一个已知的分布。
正如弗雷德里克•莫斯特勒(Frederick Mosteller)和约翰•图基(John Tukey)所指出的那样,没有这一发现,统计分析注定要使用无限次的回归,没有“学生”的t检验 (这是该发现后来的称谓),分析者将不得不估计观测数据的4个参数,再估计这4个参数估计值的4个参数,接着估计4个新估计值的4个参数……这样继续下去,没有机会得到最终的结果。戈塞特表明,分析者可以在第一步就停止这种估计。
戈塞特的工作有一个基本的假设,即原始测量值服从正态分布。多年以来,科学家使用着“学生”的t检验,许多人渐渐相信,并不需要这项假设。他们经常发现:不管原始测量是否服从正态分布,“学生”的t检验都有相同的分布。在1967年,斯坦福大学(Stanford University)的布拉德利•埃弗龙(Bradley Efron)证明了这一点,更确切地说,他发现了不需要戈塞特假设的一般条件。
随着“学生”t检验的发展,我们不知不觉地习惯于统计分布理论的应用,这一理论在科学界广为流传,相伴而来的是更深层次的哲学问题,这就是我们所说的“假设检验”(hypothesis tests)或“显著性检验”(significance tests)的使用。后面我们会剖析这个问题,现在我们只想强调:“学生”提供了几乎每个人都使用的科学工具,尽管没有多少人真正理解它。
与此同时,“可爱的戈塞特先生”成了两个长期不和的超级天才——K•皮尔逊和费歇尔之间的中间人。尽管他经常对K•皮尔逊抱怨他看不懂费歇尔写给他的东西,他还是保持了与两个人的友谊。他与费歇尔的友谊开始于费氏在剑桥大学读本科的时候,那是在1912年,费歇尔刚刚成为剑桥大学数学学位甲等及格者(最高的数学荣誉),他的天文学导师 介绍两个人认识。当时费歇尔正在研究一个天文学问题,他写了一篇论文,在其中他重新发现“学生”在1908年得到的结果。年轻的费歇尔显然不大知晓以前戈塞特所做的工作。
在费歇尔给戈塞特看的这篇论文中,有一个小错误被戈塞特指了出来。当戈塞特回家的时候,他发现费歇尔写的两大页数学论证正等着他。这个年轻人把自己原先的工作又做了一遍,并加以扩充,还批评了戈塞特所犯的一个错误。戈塞特在给K•皮尔逊的信中写道:“附上一封信,它证明了我关于“学生”t检验的频率分布公式,您是否介意替我看一下。即使我可以理解,超过三维空间我还是觉着不自在。”费歇尔用多维几何证明了戈塞特的成果。
在这封信中,戈塞特说明了自己的如何到剑桥去与朋友会面,而这个朋友恰巧在冈维尔与凯厄斯学院(Gonville and Caius College),是费歇尔的导师,他如何被介绍给这位22岁的学生。他接着写道:“费歇尔这小子写了一篇论文,提出概率的新标准或诸如此类的东西,看起来不错,但就我所能理解的,是一种不切实际且不大管用的认识事物方式。”
在描述了他在剑桥与费歇尔的讨论后,戈塞特写道:
对我们之间的讨论,他的回复是两大页书写纸,上面用最深的墨水写满了他所证明的数学(跟着是一组数学公式)……我看不大懂这些内容,回复他说等我闲下来时准备研究它,实际上我去湖区时随身带着它,可弄丢了。
现在他将这封信寄给我,我觉得如果它还可以的话,您也许愿意发表这个证明,它是这样的完美和数学化,对某些人也许有吸引力。
K•皮尔逊在《生物统计》上发表了费歇尔的短文,就这样,20世纪最伟大的天才之一面世了。3年以后,经过了一连串俯就的信件往来,K•皮尔逊发表了费歇尔的第二篇论文,但事先约定论文须以这种形式出现:它不过是对K•皮尔逊合作者之一所做工作的细微补充。K•皮尔逊再也没有允许他的期刊发表费歇尔的论文。费歇尔继续在K•皮尔逊许多最感自豪的成就中挑毛病,而K•皮尔逊则在稍后几期的《生物统计》中,以社论的方式点出“费歇尔先生”或“费歇尔先生的学生”在其它期刊所发表论文中的错误。这些都将是下一章介绍的内容,戈塞特会在以后几章中的某些地方再度出现,作为一个和蔼可亲的良师益友,他帮助年轻男女进入统计分布的新世界。他的许多学生和合作者都对新数学做出了重要贡献。尽管他本人谦逊地表示异议,但戈塞特的确做出了许多影响深远的贡献。
豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280
不错的,进来欣赏一下啊
陈希孺的《数理统计学简史》,据说也很不错。
豆瓣http://www.douban.com/people/knowcraft
博客http://www.yantan.cc/blog/?12226
微博http://weibo.com/1862276280