Benjamin等(2017)提出重新定义显著性阈值的文章发表后,在网上引起了激烈的讨论。其中,Amrhein和Greenlan在同一期刊Nature Human Behavior上对Benjamin的文章做了回应,表示我们要抛弃显著性阈值。

p<0.05 versus p<0.005

回应首先用三分法(Trichotomy)总结了Benjamin等人的建议,即p<0.005为显著(significant),p<0.05为提示性(suggestive)证据,p>0.05为不显著(nonsignificant)。这里”三分法”的提法似乎在暗讽其与传统的二分法(Dichotomy)没有多大区别。

接下来,Amrhein和Greenlan引用原作者关于“p-hacking,selective reporting和publication bias等问题,相对于随机产生的false positives要严重的多”的描述,表面上赞同,实际上确以此引出了该回应的重点,即采用更高的阈值实际上会加剧上述提到的几个更为严重的问题,比如更多的p hacking和selective reporting问题。

Amrhein和Greenlan还指出了研究者中经常存在的一种对p值的误解,即误将显著与否等价于假设的真假,而忽略了实际数据中存在的不确定性。作者认为,在这种误解将持续的情况下,该“三分法”的提出,极有可能增加一些研究者在数据不显著时,对零假设的过度置信,造成盲目接受零假设而否认备择假设。如此,将严重减缓科学发展进程。

基于此,Amrhein和Greenlan提出,既然所有问题的来源都是显著性阈值,我们干脆抛弃这个阈值好了。作者认为,科学结论需要汇总多个研究汇总的信息以及一系列的证据,而不是依据某一个研究。为了确保文献汇总的有效性,研究结果不论其是否显著都应该予以发表。在这一模式下,p值只被看做为一个连续性值,而不是基于二分法或三分法的显著与否。

整个回应可以简单概括为依一句话:减低显著性阈值只会加剧现有的各种问题,我们不如完全抛弃显著与否这个概念,老老实实汇报原始的统计结果。

虽然笔者不是很赞同减低显著性阈值来解决研究结果可重复性的问题(显著性阈限是用来控制错误拒绝零假设造成的false positives,理论上如果没有人为干扰,这个阈限可以很好的发挥作用,比如采用p=0.05阈值时,模拟数据显示,false positive rate可以很好的控制在5%。实际上,之所以存在可重复性问题,更多的是人为的不合理行为,比如p-hacking和publication bias),但是如果完全抛弃显著性阈值,报告原始的p值的话,笔者着实好奇,如此做,学术界将会是怎样一副光景。

Benjamin, D. J. et al. Nature Hum. Behav. 1, 0189 (2017).
Amrhein,V. and Greenland S. Nature Hum. Bahav. (2017)