他们说科学假说是负担,激起多位学术大牛反对,课文介绍科学家提出的假说是

在《基因组生物学》杂志的夜间科学系列中,分子生物学者 Itai Yanai 与 Martin Lercher提出了一个具有争议性的观点:科学假说是一种负担。他们强调开放式探索的重要性,认为过早的假说可能反而束缚创造力,是科学探索中的“负担”。在文章发表后,同一期刊刊登了另一派的观点,是由五位不同领域的杰出学者组成的跨学科团队,他们坚信科学离不开假说的指引,认为任何观察都不可避免地预设理论框架,数据只有在假说的照亮下才具有意义。两方立场不同,背景迥异,却共同试图回答一个关于科学方法的核心问题:假说和数据的关系,我们究竟如何“看到”数据,又如何从中产生理解?这一场横跨生命科学、认知科学与科学哲学的争论,也恰好展示了科学知识和思想的复杂形成方式——数据与假说彼此牵引,在对话之间不断生成新的理解。

撰文 | Kestrel

在“夜间科学”系列文章中,《反教科书观点:假说是科学探索中的负担》(A hypothesis is a liability,作者Itai Yanai和Martin Lercher)[1]发表后,五位不同领域的当代杰出学者——战略学教授Teppo Felin[注1]、物理学与心理学家Jan Koenderink[注2]、认知与心理科学教授Joachim I. Krueger[注3]、系统生物学先驱Denis Noble[注4]和数学物理学家George F.R. Ellis[注5]持相反观点,就相关话题与原作者产生了一系列讨论文章【均发表于同一期刊《基因组生物学》(Genome Biology)】,双方交锋两个回合。持相反观点的五位作者某种意义上也是夜间科学的实践者,他们从更广阔的交叉领域探索认知、演化以及科学方法论等。本文沿用各自在文章中对对方的指代,将双方分别缩写为Y&L和FENKK(姓氏首字母)。

首先,FENKK回击的文章为《数据—假说关系》(The data-hypothesis relationship)[2],随后Y&L进行了回复《数据—假说对话》(The data-hypothesis conversation)[3],而FENKK再次回应发表《数据偏爱》[4](Data bias)。

在第一篇回复《数据—假说关系》中,FENKK开宗明义对“假说是科学探索的负担”表示不同意。他们虽然认为坏的假说可能是负担,但指出并不存在毫无假说的数据探索,观察结果及所收集的数据总是带有某种假说或理论的色彩;即便是很不正式的一点点直觉或者猜测也是一种“原型假说”(proto-hypothesis);而那些看似不需要假设的统计工具和计算技术,其实也蕴含着关于“什么才是重要的”“什么值得被测量或关注”的潜在假说与理论。因此。FENKK认为,不基于假说的数据分析既不可能实现,也不可取;而假说才是推动科学创新与发现的主要动力。

大猩猩实验的玄机

Y&L原文提出了一个大猩猩实验,旨在隐喻科学探索中出乎意料或者隐藏的线索。FENKK则认为在现实中的科研中,这样无关紧要的发现并不能模拟真实的科学洞察——“就像气象学家看到一朵长得像大猩猩的云朵一样”,并无科学价值。并且,他们认为Y&L关于“假说存在风险”的这一总结,本身正依赖于他们自己的一个强烈假说。

FENKK指出,原始的大猩猩实验类似于魔术中的“注意力误导”,“实验是被刻意构造出来用在证明某个特定假设,即人类会忽视视觉场景中的巨大物体”。而视觉场景和数据中蕴含着无数的可能性、用途及意义,总会有许多东西被忽略掉。如果没有正确的提问方式、假说或理论作为指导,我们往往无法理解某些现象的含义。

由于大猩猩图是一种视觉信息,而在FENKK团队的背景中有视觉领域专家,他们从这一实验探讨了更深层次的还原论科学范式的问题:还原论认为,线索和数据会凭借其自身的特性(即物理世界)主动“显现”相关性和重要性。他们使用另一版本的大猩猩实验来说明这里面的逻辑漏洞:

研究者将大猩猩的图像嵌套到病人的CT扫描影像中,并且大猩猩图像是结节的48倍大,然后让执行肺癌筛查的影像科医生在图像上找肺部结节,结果83%的医生没有发现嵌套的大猩猩。FENKK用该实验说明,图像异常的奇异程度和大小跟其视觉凸显性(salience;视觉科学和认知科学中的概念)关系不大。也就是说,在还原论中大猩猩图像和图像的大小是两个“物理的”异常值,应该能被自然发现并显示出其意义,但大部分医生都没发现。

FENKK写道,“若是一开始就提示他们去找图像中的异常,他们八成就能够找到大猩猩”。而如果有警惕的被试一开始就怀疑任务的目的,他们可能故意不去管给的任务而去猜他们应该要得到什么样的发现。FENKK使用此例是想说明,原始线索或数据向信息与证据的“转化”并非一个简单直接的过程——它需要某种形式的假说作为支撑。

在《数据—假说对话》中,针对FENKK对大猩猩实验的批评,Y&L也做了相应的回应。他们指出,注意力误导并不是他们实验设计的缺陷,而恰恰是他们实验设计的目的——他们想要去验证,带着假说去看数据会不会真的有分散注意力的作用。他们实验设计中的大猩猩只是一个验证学生们有没有去对数据作图的工具。同时反驳,“一朵云的形状可能对气象学家来说无关紧要,但是对科学家分析数据来说绝不是:它引导我们发现聚类结构、识别异常值、解释数据趋势对分组的依赖性,这些都需要靠绘制数据完成。”

争议假说定义

在《数据—假说关系》中,FENKK肯定了Y&L提到的被称为“捕鱼式取证”中的核心观点有意义,即更具探索性和想象力的研究方式对科学研究至关重要。但是,他们强调“捕鱼式取证”不是没有假说的:你要捕鱼,要有渔网,什么样的渔网捕什么样的鱼,捕鱼的每一步都蕴含假设。因此,FENKK认为对研究数据,不管是如何初步的探索,就算只是粗看一下,都必然会带着某些“原型假说”。

FENKK指出,别人可能会认为他们在尝试拓展假说的定义,从而把期望、猜想甚至统计学和计算工具包括进来;但他们认为,很重要的一点是,任何工具,不管是认知的、计算的,还是统计的,作用就像鱼钩一样,已经包含了一些关于什么重要、什么不重要的隐性假说。所谓假说,就是“关于研究人员寻找或者想要发现的事物的某种形式的期望或者问题”。在FENKK看来,Y&L提出的相关性研究就是一种鱼钩,但这种相关性的强度很难说明问题。他们用全基因组关联研究举例,除了少见的异常情况,如罕见遗传病,绝大多数关联水平都很低;通过定量建模进行严格检验因果假设,才能揭示遗传变异、表观遗传与疾病之间的关联。

Y&L认为FENKK提出“原型假说”就是扩展了假说的定义(“宽泛得离谱”),原型假说可以涵盖任何潜在内容、猜想和期望,那么就“假说”变成了“精神构想”的同义词,这样一来,任何有意识的人类活动都不可能是“不涉及假说的”。Y&L认为FENKK完全错失了假说对科学的意义。他们回到了假说在科研中最基本的层面,即待验证的想法,研究者应该用开放的心态而非某种预先假设来对待数据。从这个意义上讲,假说可能成为一种负担。

核心观点的交锋

实际上,在《数据—假说对话》开篇,Y&L就对FENKK的文章进行了讽刺。“某些思想家还像古人一样认为人类处于宇宙的中心,坚持认为人类思想具有特殊性,能够通过纯粹的直觉和哲思获得新的洞察,而不需要依靠数据和观察。但科学思想和假说并不凭空降临于人脑,一旦出现就完全成型可以放到日间科学里去验证。”“FENKK忽视了重要一点,即整个现代科学不仅仅是一个科学家与科学家之间长长的对话,还是数据与假说之间的长对话。”Y&L引用Leonard Cohen的名言,“科学不是理性的胜利游行,而是与数据之间冰冷而破碎的对话。”

在最初的文章《反教科书观点:假说是科学探索中的负担》中,Y&L的核心观点是“没有数据则没有科学发现”。而在《数据—假说关系》一文中,对于Y&L的观点,FENKK表示即使这是原则上正确的说法,但他们通过偏向数据,错误地规定了“数据—假说”的关系;他们忽视了理论和假说的时间优先性。“假说告诉我们应该寻找什么样的数据。数据在响应假说时出现并成为证据。”

FENKK用了物理学里面的一个例子,引力波的存在早已被预言,一直是一个假说。这个假说引导科学家们设计和建造了激光干涉引力波天文台(LIGO和VIRGO),直到2015年终于发现了引力波的存在。数据的最终出现是由于为测量而设计并建造的设备出现,数据因为假说而显现,而不是相反。

FENNK还引用了爱因斯坦对于数据和假说之间关系的观点:“你是否能够观察到一个东西取决于你用哪种理论。什么能够被观察到是由理论决定的。” FENNK还指出,爱因斯坦的观点可以用所谓的DIKW层级来说明,即由下而上分别是数据(Data)—信息(Information)—知识(Knowledge)—智慧(Wisdom)。目前流行的数据优先的方法是认为科学理解是由下而上建构的,即通过数据最终得到知识和理论。但他们强调反过来的重要性,许多伟大的科学发现是由上而下的,例如狭义相对论的构建始于对“同时性与运动状态无关”的基本假设的质疑。

DIKW通常被视为“自下而上”的模式。但FENNK认为,自上而下的机制在发现数据中的关联性及内在含义方面发挥着至关重要的作用。图源:Felin, T., Koenderink, J., Krueger, J.I. et al. The data-hypothesis relationship. Genome Biol 22, 57 (2021).

FENKK担心,由下而上的方法——相当于Y&L提出的“无假说数据探索”的概念,会不经意地导致过于描述性的科学,即物理学家卢瑟福(Ernest Rutherford)所说的“集邮”。FENKK引用了达尔文写给朋友信件里的文段,里面有一句话:“但凡要产生一点用途,任何观察都必须用来支持或者反对某种观点。”

在《数据—假说对话》中,Y&L回击了FENKK。Y&L首先指出,“研究人员要去验证的假说从来都不是凭空而来的,而是从数据的手里艰难获得的。如果假说都可以常规地从不涉及数据的哲思中产生,那我们都可能还做着亚里士多德所做的自然哲学。”Y&L认为FENKK所误解的是:“正如数据是从思想上建构起来的,同样程度地,思想也是从数据上建构起来的。它们互相交换,循环往复,最好称其为一种对话。”

对于爱因斯坦的观点,Y&L指出,爱因斯坦也不是一开始就质疑经典力学时空观的基本假设,在此之前,他花了数年尝试修正麦克斯韦方程组,以让它与实验数据相符。只是在这个尝试失败之后,他才意识到需要修改的是时间的概念。

为了阐明“数据—假说”之间的关系,Y&L反过来举了Denis Noble(FENKK中的“N”)和其合作者的一项具有影响力的工作的例子。该工作是关于心率模型的,Denis Noble还在自己著作《跟随生命的旋律起舞》(Dance to the Tune of Life)中描述了研究历程。该工作关键的开端是一个特别的电流的发现,这个电流被叫作if,这里的f是funny的缩写,因为他们觉得这个电流“有趣”。Y&L设问,这个“有趣”是哪里来的呢?是实验前的假说的一部分吗?是理论的产物吗?在Y&L看来,这些都不是。它是凭借与关于“正常电流是什么样子”的背景知识的对照发现的,但不是实验者一开始想要去验证的;而有了数据,他们得以做出新工作。“数据带来的问题比它解答得多,这是任何伟大数据集的标志。”

Y&L以此例说明,知识是遵循曲折路径形成的,实际过程比DIKW分层模型复杂得多。这个例子正印证Y&L关于数据导致新问题,进而做出新假设和模型,最终在日间科学中验证的模式。此外,Denis Noble等人的工作也符合Y&L在最初文章中写的,实际的科学发现历程很少被直接说明,只是传闻于研究人员沟通时,或者像Denis Noble一样写一本相关的书。

Y&L提出,数据—假说对话可以抽象为一个螺旋,在日科学和夜科学的迭代周期中发生。图片来源:Yanai, I., Lercher, M. The data-hypothesis conversation. Genome Biol 22, 58 (2021).

在Y&L看来,FENKK的批评最令人惊诧的是,他们完全忽视了原文章的语境,即原作者在夜间科学系列文章中论述的日间科学与夜间科学之间的区别与联系。抛开语义的争论,将问题还原到本质,这场争论其实是先有蛋还是先有鸡的问题,只是两者变成了数据和假说、日间科学与夜间科学。FENKK认为假说应该占主导作用,但Y&L认为两者并不能有一方占据第一性。

在共识中辩论

在Y&L的《数据—假说对话》发表后,FENKK仍未结束关于假说在科学研究作用的争论。FENKK再次发表了文章《数据偏爱》。FENKK认为,Y&L错误地规定了数据和假说在科学中的角色,后者的论点中带着一种对数据的偏爱,即数据可以某种程度上独立于假说和理论。而FENKK则强调,没有某种假设或理论,数据本身不会具有任何特质——“只有当苹果的落地被一个问题或假说所引导时,它才具有意义。”“如果没有假说或理论,数据便没有任何性质——不重要,不惊人,不有趣。只有当遇到了问题或者假说时,数据才带上了意义。分析苹果掉下来这件事情,把掉落事件选作数据去考虑的过程,说明了假说在科学发现中的中心作用。”

在经过前面的交锋之后,双方也得到了共识——关于科研中知识背景的重要性,以及科学是递归的,是数据与理论的对话(在FENKK看来,这两点使Y&L的原始观点变得温和)。

不过,FENKK认为,“这些并不意味着科学发现和进步是决定性或必然的。”特别针对《数据—假说对话》中提出的“每个新的问题或假说又反过来由早期数据集的分析所触发”,FENKK指出这种循环并非自动发生,科学发现过程必然受到人类推理和做出假说的创造力的影响。FENKK再次强调,任何观察必然带着假设,无论多么非正式;有假说才能告诉我们寻找什么数据、构建什么实验以及如何解释发现。

对于假说可能让科学家误入歧途这一观点,FENKK也表示同意,但他们认为并不存在无假说的替代选择,“坏的假说的替代选择只能是换一个假说”。FENKK强调,数据、经验发现和显然的事实有可能让科学家误入歧途;任何观察必然是充满假说的,不管其包含的假说多么不正式。数据中并不存在任何固有的东西来告诉我们如何去做假设。

在《数据偏爱》中,针对Y&L举的关于Denis Noble和其合作者工作的反例,FENKK予以了回击。Y&L所设问的,“该数据的有趣性是实验前假说的一部分吗?”做出了该工作的原作者们的回答是:“是的。”他们的结果建立在当时心律模型的争议之上(那时主流理论是McAllister-Noble-Tsien(MNT)提出的传导系统心率模型)。1979年,团队将心肌传导系统的MNT理论拓展到窦房结,发现了一个离子通道,其门控动力学和电压范围几乎完全符合预测,但是它在超极化(hyperpolarization)的时候不逆转。FENKK强调,电流迹线(trace)“有趣的性质只在那个模型的语境下才是funny的,许多别的离子通道也会在超极化时显示出电流继续增加。如果没有在电生理的理论框架下去看,便没有什么funny可言,研究者会迷失在过量未解释的数据中,甚至不知道为何他们可以预期出现逆转电位。”

对于Y&L说“Noble及其合作者终于找到了构建模型所需证据”,FENKK表示这是一个更深的误解。他们是先建立了将逆转电位数据和门控动力学数据区分开来的理论,再依赖这个理论来进行实验。实验数据本身并不会自己告诉你哪部分是所需要的(关于门控动力学的),哪部分是误导性的(关于逆转电势的)。而这个理论提供了因果解释,为何一个常态传导起搏点节律中最大部分去极化电流的离子通道会被伊伐布雷定(ivabradine)阻断——“不存在一种与假设无关的方法能够揭示这一现象”。总之,FENKK认为Y&L的观点是对Denis等人的工作的误读。

涌现的观点

在《数据偏爱》的最后,FENKK也提到了Y&L在这系列文章中所引用过的《自私的基因》,认为Y&L对数据的重视隐含着一种科学还原论的观点,以及将研究对象视为独立于具体生物体的存在这一理念;以数据为中心的方法鼓励科学研究的还原论形式,常常忽视科学中自上而下、特定于生物体和观察者的因素。FENKK解释说,演化不仅在基因水平上发生,也依赖涌现性质和生态语境。对演化的理解除了应该关注自下而上的基因因素,也应该同等地关注自上而下的生物体特异性和环境因素(即生理、表观遗传因素,这些对基因来说是环境因素)。这一点是回应他们在前文中提到的DIKW模型“从上到下”和“从下到上”都具有意义。他们担心,由于能够轻松获取低层次数据(如遗传信息)以及拥有强大的计算工具,研究人员过于专注于低层次数据的研究,而忽视了对各种自上而下作用机制的探索。

最后,FENNK提到了人类拥有进行科学研究的独特能力,能够形成预测和猜想,但比较生物学家发现,所有生物在探索环境时都会进行某种形式的问题解决和探测。这不能被还原到基因和任何其他形式的低水平数据。最后这点有回应Y&L在《数据—假说对话》中批评其像某些思想家“还像古人认为自己的世界是宇宙的中心那样,坚持认为人类思想具有种特殊性”的意味。

结束语

纵观以上观点交锋,双方在假说的定义方面始终存在分歧。FENKK的假说定义具有理论和哲学色彩,而Y&L的假说定义则有些偏向实用。FENKK所说的假说包含对所关心科学问题的整个思路、对科学基础的审视,而Y&L所说的假说关注的是科学问题的一个个末端。因此双方对“假说是否是科学探索中的负担”这个问题所持有的看法也呈现出不同的风格。FENKK的观点纯粹而截然,假说引领了科学,其重要性先于数据;而Y&L的观点更加调和,数据和假说是两条腿走路,假说即使先于需要的数据存在,也是从对以往数据的观察中得来的。

双方的争论由Y&L的争议性标题引起,而Y&L将这个“在科学探索中的假说”的议题置于“夜间科学”的语境下,但FENKK则始终没有采纳这个语境。笔者认为这反映了双方对人与科学探索之间关系的不同心境。Y&L引入“夜间科学”的说法和“无假说数据探索”的手段,似乎是在训练自己的大脑,去更好地做科学研究,让自己的大脑能够更经常处于能够捕获好的科学思想的状态下。“无假说数据探索”是一种大脑的漫游,其方向是随机的。但FENKK的“假说优先”的心境则是更主动的,科学探索的方向是“我”发起,即科学研究者决定的,假说就是这里所指的方向。

无论如何,双方都是杰出的科学家,他们的争论也可以表明两种心境都能做出优秀的科学研究,也许这样的心境的形成与他们所从事的不同领域的特点有关。

学者点评:

科学探索并非在“日间”与“夜间”中二选一,二者实为互补而非对立的有机整体。理想的科研流程应当在两种模式间灵活切换:先开启“夜间模式”进行头脑风暴,挖掘无限可能的假说;随后切换至“日间模式”执行快速验证(MVP),精准测试核心指标;在得出初步结论后,再次回到“夜间模式”对数据进行整体扫视,确保没有遗漏“意外惊喜”。

以抗体中和机制研究为例,这一流程的具体应用如下:

夜间模式(发散): 研究之初,不要预设抗体只能“阻断受体结合”,而是开放构想它可能通过病毒交联沉淀、衣壳破坏或诱导吞噬等多种路径起效。

日间模式(MVP执行): 挑选可能性较高的1-2个方向(如受体阻断和交联沉淀),设计一个快速实验进行验证。这能保证效率,避免无休止的“捕鱼式”空转。毕竟科学工作者也是人,需要适当的正向反馈来维持热情,否则容易因长期迷茫而失去兴趣。

夜间模式(整体扫视):拿到实验数据后,不要只盯着“阻断率”这一个数值。再次打开“远光灯”,审视是否有其他可能。

正是这一步“回马枪”,能让你发现被“受体阻断”假说掩盖的真相——即抗体实际上是通过“扭曲病毒导致裂解”发挥作用的。通过这种“发散—聚焦—再审视”的循环,我们既避免了假说带来的视野盲区,也保证了科学探索的高效与严谨。

——南京农业大学生命科学学院副教授徐颖

注释

[1] Teppo Felin是牛津大学赛德商学院的战略学教授,在组织理论、战略管理和微观基础(microfoundations)研究领域的有开创性贡献。他主张,若要真正理解宏观的组织现象(如企业能力、绩效和变革),必须深入探究其微观基础——即个体层面的认知、决策、偏好与互动。他的研究巧妙融合了经济学、哲学、心理学乃至生物学视角,提出了“感知先于激励”等观点,重塑了学界对个体在组织中角色的认知。

[2] Jan Koenderink是代尔夫特理工大学物理系的著名视觉科学家和心理学家,在计算视觉、心理物理学和图像感知领域的贡献广泛。他开创性地提出了“尺度空间”理论,为图像的多尺度分析奠定了数学基础,深刻影响了计算机视觉和图像处理的发展。

[3] Joachim I. Krueger是布朗大学认知、语言与心理科学系教授,他提出并发展了“社会投射”理论,揭示个体在推断他人态度与行为时,往往倾向于以自身认知为参照,形成“虚假共识效应”。他通过整合进化心理学与认知实验,剖析了社会判断中启发式(heuristics)与偏见的根源,其工作深刻影响了人们对社会互动、群体决策与身份认同的理解。

[4] Denis Noble是牛津大学生理、解剖与遗传学系荣誉教授,他通过计算机建模揭示了心脏节律的起源,挑战了传统的基因中心论,提出了“生物体自上而下”的调控理论。作为现代系统生物学的奠基人之一,他的研究证明了生物复杂性不能简化为分子层面的简单加总,强调生物体是多层级相互作用的结果。这些思想深刻影响了当代生物学哲学,推动了对生命本质的重新思考。

[5] George F.R. Ellis是开普敦大学数学系荣誉教授,是理论宇宙学和广义相对论领域的巨擘,他与斯蒂芬·霍金合著《时空的大尺度结构》(The Large Scale Structure of Space-Time),为现代宇宙学的理论基础做出了奠基性贡献。Ellis深入研究了宇宙的初始奇点、因果结构与整体演化,并率先将复杂性科学、意识等跨学科思想引入宇宙学,探讨人择原理与宇宙的道德维度。作为“宇宙学标准模型”的构建者之一,他始终强调科学的哲学基础,倡导一种兼顾物理严谨性与人文关怀的“有原则的宇宙学”,深刻影响了我们对宇宙起源、演化及人类在宇宙中地位的理解。

参考文献

[1]Yanai, I., Lercher, M. A hypothesis is a liability. Genome Biol 21, 231 (2020). https://doi.org/10.1186/s13059-020-02133-w

[2] Felin, T., Koenderink, J., Krueger, J.I. et al. The data-hypothesis relationship. Genome Biol 22, 57 (2021). https://doi.org/10.1186/s13059-021-02276-4

[3] Yanai, I., Lercher, M. The data-hypothesis conversation. Genome Biol 22, 58 (2021). https://doi.org/10.1186/s13059-021-02277-3

[4] Felin, T., Koenderink, J., Krueger, J.I. et al. Data bias. Genome Biol 22, 59 (2021). https://doi.org/10.1186/s13059-021-02278-2

注:本文封面图片来自版权图库,转载使用可能引发版权纠纷。

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。

版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。


nginx