点评:夏结来 编辑:刘健
【引言】我国教育研究的专家张力学友突然推送一文于我,标题令我倒吸一口凉气:《美国顶级学术期刊宣布禁用p值,原来p值很危险》!我本是药品临床研究的“门外汉”,但十几年“浪迹”中药CRO,深植于心一种“p值崇拜”,乃认为“无p值,不临床。”然,1月22日,美国政治学顶级学术期刊《政治分析》在其官方twitter上宣布,从2018年开始的第26辑起禁用p值。据该刊之声明,其主要原因是:“p值本身无法提供支持相关模式或假说之证据。”顶级政治期刊的“禁p”想必会引起连锁效应,导致其他刊物跟进,是否也会波及到药品临床评价呢?当“天狗食月(指1月31日的月全食)”时,不觉杞人忧天。据说,一直以来,关于p值的争论不断,长文《看电影学统计:p值的陷阱》是2016年6月6日美国德州大学奥斯汀校区政府系林泽民教授在台湾政大社科院的演讲稿,他说,为何我们使用的各种药物,都是经过这么严格的 p 值检定出来、具有显著性,可是在真正临床上,却不见得很有用。其实很多对 p 值的质疑,都是从这里出来的。今将此文连载刊出,并在每期文后附上我国医学统计学专家、学者以及统计学爱好者的“微点评”,目的是“抛玉引玉”,唤起业界同仁更多、更深的思考。以此为引,请君静览!
0 o- S8 H1 n" c1 o7 z看电影学统计:p值的陷阱院长、陈老师,各位老师、各位同学:
今天很荣幸能够到政大来,和大家分享一个十分重要的课题。
今天谈的当然是不一样的题目,虽然它是一个很重要、很严肃的题目,但我希望大家可以轻松一点,所以也要放两部电影片段给大家看,一部是《玉兰花》,另一部则是《班杰明的奇幻旅程》,这两部电影都有助于我们来了解今天要谈论的主题:p 值的陷阱。
科学的统计学危机:p 值有什么问题?
为什么要谈论 p 值的问题?因为在近十多年来,不只是政治学界,而是很多学门,特别是在科学领域,有很多文章讨论传统统计检定方法、尤其是 p 值统计检定的问题,甚至有位很有名的统计学者,Andrew Gelman 写了篇文章,叫作《科学的统计学危机》(The Statistical Crisis in Science),说是危机一点都不言过其实。这就是为何我说:今天要讨论的其实是很严肃的问题。
投影片上这些论点,大部分是说我们在传统统计检定的执行上,对 p 值有各种误解跟误用。现在很多人谈到“p 值的危险”、“p 值的陷阱”、“p 值的误用”、还有“p 值的误解”。甚至有些学术期刊,也开始改变他们的编辑政策。像有本叫作 Basic and Applied Social Psychology 的心理学期刊,已经决定以后文章都不能使用 p 值,大家能够想像吗?我们作计量研究,都是用 p 值,各位一直用,在学界用了将近一百年,现在却说不能用。甚至有些文章,说从前根据 p 值检定做出来的研究成果都是错的,有人更宣告 p 值已经死了。
所以这是一个很严重的问题。在这本期刊做出此决定后,美国统计学会(ASA)有一个回应,表示对于 p 值的问题,其实也没这么严重,大部分是误解跟误用所造成,只要避免误解与误用就好。可是在今年,ASA 真的就发表了正式声明,声明里面提出几点,也是我今天要讨论的主要内容,包括 p 值的真正的意义,以及大家如何误用,换句话说就是:p 值到底是什么?它又不是什么?(图一) 今天除了会深入探讨这些议题之外,也请特别注意声明的第三点提到:科学的结论,还有在商业上、政策上的决策,不应只靠 p 值来决定。大家就应该了解这问题影响有多大、多严重!
2 B# w/ q& w0 I4 u0 ?
图一
我举个例子,美国的 FDA,他们在批准一项新药时,一定要看实验的结果,而且实验结果必须在统计上要显著。可是 ASA 却告诉我们说,决策不该只根据统计的显著性,大家就可想像这影响会有多大。甚至有其他这里没有列出来的文章,提到为何我们使用的各种药物,都是经过这么严格的 p 值检定出来、具有显著性,可是在真正临床上,却不见得很有用。其实很多对 p 值的质疑,都是从这里出来的。
有关 p 值的讨论,其实并非由政治学门,而是从生命科学、例如医学等领域所产生的。ASA 声明的第四点说:正确的统计推论,必须要“full reporting and transparency”,这是什么意思呢?这是说:不但要报告 p 值显著的研究结果,也要报告 p 值不显著的研究结果。
但传统方法最大的问题是:研究结果不显著,通通都没有报告。在英文有个词叫 ,摘樱桃。什么叫摘樱桃?摘水果,水果熟的才摘,把熟的水果送到水果摊上,大家在水果摊上看到的水果,都是漂亮的水果,其实有很多糟糕的水果都不见了。我们在统计上也是,大家看到的都是显著的结果,不显著的结果没有人看到。
可是在过程中,研究者因为结果必须显著,期刊才会刊登、新药才会被批准,所以尽量想要挤出显著的结果,这之中会出现一个很重大的问题:如果我们作了 20 个研究,这 20 个研究里面,虚无假设都是对的,单独的研究结果应该是不显著。可是当我们作了 20 个统计检定时,最少有一个结果显著的或然率其实很高。虽然犯第一类型错误的或然率都控制在 0.05,可是 20 个里面最少有一个显著的,或然率就不是 0.05,大概是 0.64。如果就报告这个显著结果,这就是 cherry-picking。
ASA 给的建议是:实验者必须要 full reporting and transparency,就是一个研究假如作了 20 个模型的检定,最好 20 个模型通通报告,不能只报告显著的模型。ASA 这个声明是今天要讨论的主要内容。(未完待续,敬请关注)
& E" x" h% a0 W4 X: y
【微点评】:夏结来
以方差已知的正态分布为例,根据随机抽取的样本计算得出的检验统计量Z=丨X bar-μ丨*√n/σ,如果Z>1.96,则p值小于0.05。p值是什么呢?如果H0为真,p值就是随机抽到Z大于1.96的样本的概率,p值=p(Z>1.96丨H0)。
如果p小于给定的检验水准α,譬如,0.05,则拒绝H0,接受H1; 反之则不拒绝H0。这就是假设检验的推断原则。
也就是说,假定H0为真,根据这个原则,如果p<0.05,则错误的拒绝H0的概率不超过0.05,即一类错误不会超过5%。
无论是α或p都不是H0本身成立的概率,H0成立的概率p(H0)是无法知道的,即使我们想知道当p<0.05时H0成立的可能性:
p(H0丨Z>1.96)=p(Z>1.96丨H0)p(H0)/{p(Z>1.96丨H0)p(H0)+p(Z>1.96丨H1)p(H1)},你也必须知道p(H0),除了计算机模拟,否则这个概率是无法计算出来的,其实也没有必要计算。
假设检验不是逻辑推理,只是“说理”而已。你要知道两根竹竿哪根长,你有必要真的去测量每根竹竿的确切长度吗?
好比说,刚认识一位朋友,你把他当做好人,但是他连着做坏事,你就不把他当好人了,但他到底是不是好人,那是不知道的。道理和假设检验一样。
(夏结来 博士第四军医大学卫生统计学教研室主任、教授、博士生导师,中国信息协会统计理论与方法专业委员会副主任委员、中华预防医学会生物统计学分会侯任主任委员,中国卫生统计杂志编委、CCTS副组长、CDMC组长)
[注]本文资料自微信公众号【经管世界】
【声明】我们崇尚分享,但若有损您的权益,请通知我们,必改之!! j! {! E$ f( B
\/ y$ a2 U- Y% e. q) a) \& F