2025 年 10 月,Meta 宣布裁减 AI 部门约 600 名员工,这场剧烈的人事震荡,将田渊栋推向了公众视野的中心。作为 Meta FAIR(Facebook AI Research,Facebook 人工智能研究院)的研究科学家总监,田渊栋在这家公司工作了超过十年,主导了从围棋 AI Dark Forest/OpenGo,表示学习(Representation Learning),打开模型黑箱,到大模型长文本快速高效推理,还有连续思维链(Coconut,Chain of Continuous Thought)等一系列前沿研究。
他离职的消息传出后,OpenAI、英伟达、xAI 等公司纷纷在社交媒体评论区公开抢人,场面颇为壮观。
两个月过去,当硅谷的喧嚣逐渐平息,我们在年末与田渊栋进行了一次长谈。彼时他已卸下管理者的身份,正处于一个“比较好的时间段”——用他自己的话说,可以做一些探索。
在年末的这次对话中,我们请他一起回顾这一年。他谈到了为什么 Scaling Law“肯定有效果,只是不那么有趣”;为什么他相信一定存在某条隐藏的路线,“可以让现在的智能以一千倍的效率来达成”;为什么当前的 Transformer 框架可能不是最终的解,“必须有一个完全不一样的跳跃”。他也坦言,关于 AI 能否达到人类学习效率这个问题,今年的研究让他“更清楚地看到了差距”。更近,还谈不上。
他认为未来研究者最需要的是 taste,“本质上是指方向的能力,用强化学习的话说,就是那个值函数”。谈到未来个体的工作方式,他说:“以后一定会出现一人 CEO 的情况,我自己是公司的 CEO,下面有一堆 AI 帮我把事情干了。”
以下是我们的对话实录。
十年最大的收获,是形成独立的 research taste
DeepTech:你在 Meta 工作了十年,现在回头看,最大的收获是什么?离开之后有什么新的感受?
田渊栋:十年里面应该说发生了很多事情,仅仅一两句话很难概括。总的来说,这十年最大的收获还是让自己通过努力获得了独立和独特的研究品味(research taste),能够从初心出发立项,逐步追逐自己想要做的长期研究。
当然,最近一两年的最大收获是积累了很多大模型研发的实战经验,包括参与 Llama 项目,对推理模型的具体问题有了更深的理解。
虽然最后 Llama 4 由于种种原因没有太成功,但我们还是在强化学习训练的核心问题上有一些探索,比如说训练稳定性、训推互动、模型架构设计,和预训练/中期训练的互动,长思维链的算法,数据生成的方式,后训练框架的设计等等。这个经验本身是很重要的,对我的研究思路也带来了很大的改变。
离开之后,很多偏管理的事务消失了,我能更集中地做自己真正想做的事情,亲手推进一些工作。而且我现在想做的一些方向,并不完全依赖大规模资源,因此这是一个相对合适的阶段,可以开展探索。
今年做了什么:围绕泛化与训练效率的几条关键线索
DeepTech:你每年都会在知乎上写年终总结,今年也快到尾声了。能不能先带大家回顾一下你今年的主要研究工作?它们之间有什么联系?
田渊栋:今年应该也会写。距离 12 月 31 号还有几天,而且有大语言模型帮忙,写作效率会比以前高一些。
今年大部分时间都在 Llama 那边帮忙,研究工作如果要找一个主线的话,大概是:如何找到更有效率的训练方法,找到更好的方式打开模型的黑箱,知道泛化能力的来源。我觉得这些是比较有意思的方向。
值得一提的是几篇文章。比如我自己做的关于 Grokking(顿悟现象)的分析,探讨神经网络在训练的时候如何达到泛化的效果,数据的多寡是否能得出顿悟和泛化的深层次数学规律。
还有一篇叫“The Path Not Taken”,分析了强化学习和监督学习微调之间有什么区别,为什么会导致最终效果的不同。之前已经有文章指出,如果你用 on-policy data(即由模型自己生成的数据)去训练模型,模型会较少产生灾难性遗忘或者过拟合的问题。但如果你用外来的数据强制让模型学习,它就会产生一些奇怪的现象。
图丨相关论文(来源:arXiv)
后来我们进一步发现,二者对内部权重的改动方式并不相同。强化学习改变权重时,不会去触动那些最大的特征向量的方向,只在比较小的特征方向上进行改变,这样其实没有影响模型的筋骨,只是做了一些微调。但如果你直接在模型上做微调,且数据并非模型自生成,就有可能改变它的筋骨,导致一些本质行为的变化。
还有像 Deep Confidence 那篇论文,研究怎么样通过置信度来提高效率。这篇更偏工程和实用化一点,也许我并不用打开黑箱子,只要观察第一层某些 token 之间的置信度变化,就能大致判断当前推理过程是否存在问题;先剔除那些不太好的推理轨迹,保留更自信的推理过程,最终效果往往会更好。
通过这些工作,我们可以更好地了解模型在推理和学习过程中,什么样的权重变化是本质的变化,什么样的方式能够让模型变得更强。我觉得这应该是以后比较重要的一个方向。
DeepTech:我们还注意到,你今年在研究实践上做了一个新的尝试,就是用 AI 辅助研究?
田渊栋:对,这篇关于 Grokking 的文章,其实是通过我自己和 GPT 相互脑暴之后做出来的,跟之前的做法完全不一样。效率比以前高很多,也许以前四五个月做一篇文章,花很多时间。现在可能只需要几个礼拜,就能做一篇比较好的、至少对业界的难题有一些洞察(insights)的文章出来。
像八月之前我们都还在 Llama 团队,没有太多时间去做研究,回到 FAIR 之后,我本来以为重新开始研究工作需要花些时间,想不到换这种方式之后,很快就有突破了,这点让我很有触动。
所以我觉得整个研究的范式和学习的范式,都可能会发生很大的变化。2026 年会有很大的区别。
DeepTech:我注意到你今年的很多工作都在探讨一个主题:模型思考和推理的效率。比如 Deep Confidence 通过自信度筛选提高推理效率,GSM-∞ 探索长文本推理的复杂度,Grokking 揭示如何用更少的样本实现泛化。这条主线最终想解决的问题是什么?
田渊栋:最终目标当然是希望找到更好的算法来训练模型,或更好地优化模型推理过程。我们希望达到人的那种能力:数据很少,但模型能力依然能变强。
但是我觉得从长期上来说,这条路可能需要一个完全不一样的算法。现在 Transformer 框架可能不是最终的解,我倾向于认为必须出现一次完全不一样的跳跃,从当前的算法跳入到另一套完全不同的算法。
过去大家已经在现有算法架构上已经做了非常多改进,但是如果你要再往下走得更深,有可能要对这个问题的本质进行一个比较好的理解。像我这篇关于顿悟的文章,对“模型如何学到更好的表示”给出了一种比较新的想法,算是一个新的突破,后面应该也会继续深入。
DeepTech:我也觉得目前这些思路,包括 test-time scaling(推理时扩展)之类的,似乎是有上限的。真正重要的就是像你在 grokking 所研究的,在训练过程中找到合适的内部表示。
田渊栋:是的,我觉得 TTS 还是有上限的,最终还是要靠更好的表示来达到泛化目的。试想预训练的数据里面全是枚举法,做 RL 使劲刷 token 能顿悟出数学归纳法吗?我觉得以现在大模型的能力,这个不太可能。
这也解释了为什么像伽罗华(群论的奠基人)这样的人是天才,他能在几乎没有多少样本的情况下发现新的抽象和思维方式。这种跨时代的“科学发现”,现在的大模型还是做不到的。以后如果有一个更好的方式学到这些表示,对后训练会有很大的帮助。
Scaling 还能继续,但解决不了学习效率
DeepTech:你在去年的年终总结中提到,等到 Scaling Law 到了极限,理解内在机制才会变得关键。最近伊利亚(Ilya Sutskever)也在说我们从 Scaling 时代到了研究时代。从你今年的研究来看,我们现在靠近 Scaling 的真正极限了吗?什么信号才会告诉我们这条路到头了?
田渊栋:我在两月前的硅谷 101 访谈里面也提到了比较相似的观点,比如说人脑的数据效率很高,模型泛化能力从哪里来,研究品味(research taste)很重要等等。Scaling Laws 应该说现在还没有完全到极限。因为还是有很多办法可以提高效果,你看 Gemini 3 出来之后,还是有很多办法可以让模型变得比原来更强很多。
只是说现在的问题是,这个 Scaling 最终能不能达到人这样的效率,也就是人能在小样本下迅速学会新东西的能力。
大厂当然可以继续堆样本、堆训练,把模型越做越大。我听说 Gemini 3 模型就非常大。通过这种方式,总能不断塞入更多知识,让模型越来越强。
但是另外一方面,我们也必须面对这个现实:人的头脑功耗非常低,吃的东西也是有上限的,但是人不管怎么样,在某些方面还是要远远超过 AI 现在的能力。所以作为科学家或者做基础研究的人,你还是要去思考这种问题:到底是为什么?也许存在一条隐藏的路线,可以让现在的智能以一千倍的效率来达成。
如果我们再继续卷这个 Scaling,肯定是有效果的,只是说对于像我这样的人来说,可能会觉得这不是特别有趣,还是想要做些别的。所以就是总要有人去探索不一样的路线,而不是所有人都扎堆在同一方向。毕竟智能的终级答案还没有揭晓。
DeepTech:你在去年的年终总结里给 AGI(Artificial General Intelligence,通用人工智能)下的定义是看 AI 能否达到人类的学习效率,尤其是从小样本中顿悟的能力。从你今年的研究来看,我们离这个定义的 AGI 是更近了,还是差距更清楚了?
田渊栋:应该说是更清楚看到差距了。更近应该还谈不上,因为毕竟那篇 Grokking 的文章并没有完全给出一个更好的算法,只是用来做分析。我们可以分析出来它内部的学习过程是什么样子,明白了为什么,之后才能想办法做改进。
这篇文章跟以前很多对 Grokking 的分析文章相比,应该说是开了一个新的思路,而且这个新思路现在看起来是越来越像是对的了。本来这篇文章是要假设训练中存在正则化才可能出现特征涌现,这个和实验不太符合;但后来在评审的压力下我又有了新的发现,同样的框架,可以证明没正则化也会出现特征涌现。总体而言,我认为这是一个较大的突破。
至少对于这个领域来说,有很多人在做 feature learning(特征学习),那么这些特征是通过什么过程学出来的?我们这篇文章可能会给大家带来一些有意思的、新的思路。
DeepTech:明年会继续在这个研究的基础上做进一步探索吗?
田渊栋:应该会的,在最近的一次访谈中我谈到过一些可能的思路:核心还是 feature learning,也就是如何超越线性化视角(例如 NTK),理解特征如何从数据中被抓取出来并进入网络权重。一旦 feature learning 这一层被解开,我们就有机会做 reverse engineering,更清楚地看见模型究竟如何学习、如何预测。
再往下一步,我认为应当回到对称性。群的本质正是对称性。数据构成的流形应当存在某种全局结构,这才是泛化性的基础;如果输入具有群结构,在其之上就会产生更紧致的表示,从而超越单纯的记忆能力,获得泛化的结果。
不过更具体的细节我暂不便展开,因为我这边接下来会有比较大的变化。
DeepTech:好的,期待你之后的研究成果。你之前提到目前的 AI 研究需要“从炼金术到化学的转变”。你认为这个转变会是渐进的,还是需要一个“顿悟”的时刻?需要基础范式的改变吗?
田渊栋:我觉得还是需要范式的改变。可能我们最终的算法不是跟现在一样的,肯定会出现完全不一样的算法体系。
如果我们观察人类大脑,会发现它是在一套极其严苛的硬件约束下,实现了一套极高效率的逻辑。
在生物学上存在各种各样的约束,比如说人是不能做梯度传递的,人神经元之间的传导速度非常慢,是毫秒级而不是纳秒级,而且人脑不可能以很高的带宽把大量数据从一端传到另一端,这些都是人脑的很大局限。
所以我们现在看到的 AI 系统,是大量人类精心设计出来的体系,在某些能力上远超人脑本身。但是为什么人作为一个整体能够做出很好的预测,能够有这样的认知能力?我觉得有可能是整个算法是不一样的。
至于新算法的转变是不是渐进的,我觉得可以参考历史。一开始有一些人在尝试,后来发现有效果了,尝试的人就越来越多,最终变成下一个时代的主流。
DeepTech:那除了学习人类本身的思考方式之外,会不会让 AI 更强大的方法,反而可能与人脑思维模式完全不同?
田渊栋:这个是有可能的。但是我一直有一个信念:对于人也好,机器也好,或者其他生物也好,某种底层的数学原理都应该是比较接近的。因为数据在那儿,大家都看到一样的数据,通过某种比较有趣的数学变换,最终达到相似的表示,同时对问题有相似的理解。
已经有一些研究把人脑神经元放电表示与大模型的表示进行对比,发现两者相关性较强。虽然算法不同,但表示可能相近。这也解释了为什么今天的 AI 和人类还蛮相似的,比如都会举一反三,都会有幻觉,都会犯错误,不像以前科幻小说里描述的 AI 非常精确、没有情感。现在的 AI 更像是个“文科生”。
也许就是两条不同的道路可能得到相似的内部表示。但人脑得到这个表示的效率远远高于现在 AI 的效率,这是为什么 AI 现在还是需要很多很多样本去把这个表示学出来。如果我们能够找到更好的对于这个表示的学习过程,也许就能得到更高效的新算法。
DeepTech:今年你有没有看到一些在新的方向上比较有意思的探索?
田渊栋:最近有一些,比如 sparse/linear attention(稀疏/线性注意力)怎么做,如何对自注意力机制做更多变体;还有进一步加速推理的一些手段,我们也做了一些(例如 DeepConf 和 ThreadsWeaver)。
另一个方向是隐空间推理。现在已有很多人在探索这条路。我们去年年底有一篇文章叫 Coconut(连续思维链),做完之后整个组被拉去做 Llama,没有时间做后续。但明显能看见整个 community 都非常有热情,大家想要在上面做各种各样的工作,特别在后训练和强化学习上也有些比较有意思的结果。
我觉得以后推理过程本身可能真的是在连续隐空间中进行的,连续的内部表示其实很重要——思考未必用语言 token 表达,有些思考并不以语言形式呈现,而是通过某种抽象的高维向量来表示思考过程,这有时候会变得更有效率。
我们有一篇文章证明,隐空间推理的效率其实比显式的 token 效率要高,并分析了两者差异。隐空间推理的推理链长度可以显著短于显式空间,可能呈平方关系。而且可以看出来为什么能做到这一点,很多时候所谓思维链并不是推理的过程本身,往往是人类在得到了答案之后,再用答案反推出一个看起来合理的解释。真正的推理可能是在这个思维链产生之前发生的。
图丨相关论文(来源:arXiv)
在这篇文章中这一点被体现得很清楚:搜索时我可以保留所有可能的路径,但当某条路径达到目的地后,才回过头去找那条“应该思考”的路径。这比显式把所有路径都写出来更高效。所以如果继续深挖,我相信会出现更高效的推理方式。
变革性答案会出现在哪里
DeepTech:那么,可能带来变革性研究的突破会出现在哪里?最近 IBM 总裁克里希纳说,现有研究路径可能很难达到 AGI,而变革性答案可能来自学术界而非产业界,你怎么看?
田渊栋:这有可能,但学术界也有学术界的问题。我倾向把答案看得更广,它可能来自一些不被看好、或者不被看好却坚持下去的方向。这些方向可能来自学术界,也可能来自小公司或小实验室。
因为大的实验室有些时候研究方向太过于集中了,大家都在追赶。所有的时间和精力都花在怎么样让最终的数字从 5% 变成 10%,或者 10% 变成 20%。其实很难去想到一个全新的疯狂想法。
长期追赶,会使人更难提出全新的、甚至“疯狂”的想法。相反,如果有时间去思考新路径,这些地方可能产生新范式,而新范式也可能与 AGI 结合起来。
所以这个地方不一定是在学术界,可能在别的地方,完全看最聪明的头脑和最前沿的资本怎么样结合起来。
DeepTech:包括 Meta 最近的一系列变革,比如 FAIR 的一些基础研究人员转入新的超智能实验室,还有其他一些巨头的变动。这种变化是不是意味着大厂的实验室将来会更注重商业化方向,更基础的理论性研究将来会是什么样的存在?
田渊栋:应该这样说,每个巨头现在都处于一个比较焦虑的状态。因为大家都不希望在这场比赛中落后,落后可能会意味着全面的落后。如果真的 AGI 来了,它可能在很快的时间内学会所有的东西。第一个造出来的系统会越跑越快,就是所谓的 recursive self-improvement(递归自我改进),不断自我迭代,最终的模型变得非常强,理想上超过人类的能力,达到所谓超人工智能(Superintelligence,或者简写为 ASI)。
如果大家知道模型能力在超过某个临界点是指数增长的话,那么一旦你的指数增长比别人快一点点,以后就会越来越快、越来越多,最终会把整个市场全部吃掉。这个是之前一个未来学家科兹威尔讲的“吓尿指数”(St-Your-Pants Index),也是大家的一个焦虑的点。
因为这种焦虑,巨头很难投入大量时间做基础研究:他们可能会觉得这就是我们现在的目的,如果不做这个我们就完蛋了,所以会花很多时间和精力去做这个。
当然你可以说这个事情不太可能发生,但一旦发生了,那就是 0 和 1 的区别,要不就登上 ASI 的快车,要不就成为无关人士。和将来的无穷大相比,现在手上的几百亿美金,其实和街边的乞丐也没什么区别了。大模型最近的飞速发展,也是会给人这样的印象——之前的知识或者积累什么的,好像都没什么用了。
这个可能是大家深层次的焦虑所在。应该说不仅 Meta,其他公司最近也频繁有一些变化。大厂高管的职业稳定性也不像以前那么稳定。过去相对稳定,很多事可以做很多年;现在如果做不出来,就会发生进一步调整。至少投资方或 CEO 会更紧张,于是出现这些变化。
那么基础性、理论性的研究,要怎么做呢?大公司还有很多组,每个组都有自己的一些小生态。在那么大的一个生态位里面,总是存在一些角落是可以做一些基础性研究的。
但是这些生态在时间空间上不够连续,可能这两个月可以做,明年那两个月就不行;今天这个组可以做,明天那个组就不行。因为变动很大,就会出现这种问题。如何解决,我们也没有答案,因为这确实是很新的局面。
研究方式正在重写
DeepTech:关于 AI 辅助研究,这也是一个非常新的变化。AI 给你最大的价值是什么?有没有被 AI 启发过的时刻?
田渊栋:AI 现在其实更像一个博士生,或者说是一个博闻强记、知道很多东西的人,但是很多时候它抓不住重点,思路和想法都没有那么锐利。
什么叫他的思维非常锐利?就是说他能一针见血地发现问题在哪里,话也不多。我们说“He is very sharp”,或者有个形容词是“人狠话不多”。看了一下之后,“这句话不对”,或者“这地方有问题,你快点把它解决”,没有空话套话。这样的能力,现在 AI 是没有的。现在 AI 是倒过来的,就是那种话特别多但是没有一句话是重点,这个时候会非常烦恼。
但即便如此,它仍然非常有价值。第一,它很博学,能给出大量想法。大多数想法可能不对,但偶尔会有一两个让人觉得“有点意思”,值得继续深挖。这时人充当 verifier(验证者),或教练、法官,把有价值的部分抓出来并判断方向,这一点非常重要。AI 提供候选想法,人负责筛选与判断,最终找到好方向。
所以我也有很多时候是被 AI 启发的,觉得某些角度很有意思,可能挖下去能体现出更好的东西,从而发现新方向。
另外当然是 AI 可以帮你做很多脏活累活,有些代码你不用写。如果你用过 Claude Code 或者 Codex,你会发现现在编程的方式已经完全不一样了。
最早大模型出来之后,它辅助编程的方式是加速,变成 Copilot,我先写一段 comments,述接下来要做什么,再让它生成代码,这个还没那么快,是第一代 AI 辅助编程。
第二代 AI 辅助编程变成了类似于 agent 这种类型,我告诉它怎么改文件,让它自动修改。现在基本进入第三代:给它一个很大的代码库,甚至我也未必完全理解代码库细节,只要提出需求,比如重构、加功能、找 bug,它就能协助完成。
所以人慢慢从写代码的人变成项目经理,变成教授那样的角色。通过这个方式,我就不要再参与具体执行,可以把精力集中在这个问题怎么样去建模,怎么样往正确的方向去走,以及做指导和判断。很多脏活累活 AI 可以自己做了,这是最大的价值。人的洞察力越强,AI 对人的帮助就越大。
综合下来,跟一年前的我相比,加上这个 GPT-5 的话,我效率可能提高了四到五倍的样子。而且还有很大空间,还有很多地方可以让它继续把事情做得更好。
DeepTech:现在 AI 就像一个非常勤恳的博士生,一天不知疲倦地干活,可以帮你发现一些以前人们可能发现过但没有注意到的方向,然后给你提出来。你识别到了之后,又可以在这些方向上进一步去挖掘。
田渊栋:对,这是 AI 现在最大的助力。而且这个事情,如果一个人越聪明,或者说越有见地,或者对这个业内有经验的话,他加 AI 的效率提升是高于一个新手加 AI 的提升。所以这其实是一个强者越强的模式,是一个很不一样的趋势。反过来,新手加 AI 可能会把事情搞砸,因为一些可能出错的代码被不加甄别地放进去了。
DeepTech:你认为一个人加顶尖 AI 这种工作模式,未来有可能达到一个小型研究团队的产出效率吗?
田渊栋:我觉得是有可能的,甚至还会超过。因为人与人协作需要时间,比如周末晚上我不可能发消息要求你立刻做事,就算发了,你也未必马上做,可能两天后才完成。
但 AI 永远在线,你给它一个 idea,它立刻开始做。这个过程应该说是远远高于以前老师带学生这样的过程。只要老师清楚自己要做什么,这种效率往往高于传统“老师带学生”的方式。
DeepTech:如果这样的话,会对未来做研究的组织形态意味着什么样的影响?
田渊栋:其实现在已经有发生变化了。今年我已经知道不少学术界的老师已经出走学术界,要么创业,要么加入大厂的一些团队,做一些 hands-on 的工作,参与大模型研发。这种从学术界到工业界的迁移非常突然,而且在加速。
之后会发生什么,没人能确定。而且确实有不少博士生可能已经提前毕业或者很早毕业,比如以前博士需要五六年,但现在有时两三年就毕业,因为不毕业机会就会错过。为什么?因为对他们来说,一个博士毕业的文凭和一个大厂的机会相比,权衡在变化:过去可能倾向先读完再找工作,现在天平开始倾斜。由此,很多老师未必能招到学生,也会带来一系列连锁变化。
DeepTech:在这种研究模式下,你认为未来的研究者最需要的核心能力是什么?是想象力,执行力,还是我们现在经常提到的研究品味(research taste)?
田渊栋:我觉得 taste 是很重要的,因为 taste 本质上来说是一个指方向的能力,你认为这个方向有道理,就会坚持并往下走。用强化学习的角度来说,taste 就是那个在当前路径还不完整不清晰时的值函数(value function)。
值函数能告诉你在这个研究还没有开展之前,或者刚刚开展的时候,哪条路不能走、哪条路可以走,这就是研究品味的关键作用。如果没有 taste,那么能探索的方向太多,但很多方向到不了你想要的结果,会浪费大量时间;有 taste,值函数就能引导你走向更可能正确的道路。
除此之外,执行力与恒心也很重要。现在大家都有大模型,但很多人只是尝鲜,用一用觉得不错,就放下了。真正能做成事的人,往往能够长期使用工具,在同一件事上持续深挖,把它做到足够好。
以前的武侠小说,大家都在抢一本武功秘籍,或者大家去找阿拉丁神灯许愿望。但是现在是倒过来的逻辑:武功秘籍到处都有,人手一本,或者人手不止一本,很便宜就可以看到,卖家还天天愁你不用,每天使劲推销。但很多人没有时间和精力去学;就算看了,也钻不进去,也就学不会。
在这种情况下,更重要的是专注与恒心:愿意长期投入;同时具备行动力,愿意去看、去做,而不是每天刷手机。再加上一点运气与探索,最终才能做出与他人不同的东西。
总之,想象力、研究品味、恒心与行动力,这些能力都需要具备,才更可能成功。
DeepTech:你也会写小说,前段时间刚看了你的小说《幽夜星火》。这个小说是有用 AI 在辅助创作吗?
田渊栋:这个没有,这是之前写的。《幽夜星火》是《破晓之钟》的后续,还没写完,我现在不是很满意,之后可能会做较大修改,修改后再出版会更好。当然,当时的写作方式和现在也不一样了。现在有很多 AI 工具可用,可以建立工作流,提高写小说的效率,这也是现在在做的事情。
DeepTech:你在《破晓之钟》的序言里写了一句话:小说和做研究都是去找出一条新的路径来。反过来看,小说创作对于你做 AI 研究有什么反哺吗?
田渊栋:我觉得目前看起来还是更像是一个思维的放松,跟做研究本身不一样的一个思维方式,能去探索一些不一样的东西,去想、去思考,这个会很有趣。对换脑筋、同时保证思维的活跃性挺有帮助的。有些时候会想到一些奇怪的事情,这些事情不是特别清楚,但是如果换换脑子再回来会有很多想法。
DeepTech:明年小说创作上会有什么计划吗?
田渊栋:看时间吧,我可能还是会比较忙。但应该会找一些时间写一写,因为这也是一种放松与调剂。希望把第二部写完,给大家一些有意思的内容。其实第二部很多高潮桥段早就想好了,只是需要在新的环境里把它们真正写出来。
DeepTech:你前面提到的一句话我觉得非常有感触。就是 AI 行业变化非常快,模型的迭代、公司的战略调整之类的。作为刚刚经历过这种调整或动荡的研究者,你觉得在这种不确定的环境当中如何保持自己的方向感或者掌控感?
田渊栋:首先是要有自己的信念,就是 research belief,这个很重要。更具体说,就是 taste。现在每天有无数文章发布,随便刷 arXiv 都是新论文。如果一直追赶,就会产生强烈不确定感,仿佛今天不看完就会落后于时代。
这不是一个正确的思维方式。因为如果这么做,那会非常累,而且也永远处于追赶地位。更好的办法是我有一个想法,我一定要把它做出来,或者相信这个想法很重要,认为它能通向正确的路径。有这样一个信念之后,再去找相应的文章。这样一方面有更多时间思考,另一方面也更容易做出与别人不同的东西。
DeepTech:我看你之前的访谈下面有评论说“优秀的人是先有世界观,然后才有方法论”,这和你刚才说的很契合。
田渊栋:对,是这样子。世界观是一个提纲挈领的关系,这个提纲告诉我这个人我要做什么,然后再去寻找方法。因为如果要学会所有东西再去做,那是不可能的,永远学不完。有提纲之后再去搜索的话,效率永远高于你把所有的知识都学完的,因为你会知道什么细节是关键的,什么则无关紧要。
DeepTech:你个人是怎么判断什么研究或者什么方向值得长期投入的呢?
田渊栋:这有三样不同的东西。首先是你内心喜欢什么,这是内在的动力。比如说你做这件事情很开心,也不必先考虑它对这个世界有什么价值,这是一个很重要的要求。
其次是你的能力能做到什么程度,有些人能力强,随随便便就把一件别人觉得困难的研究问题解决了,自己也不会觉得特别辛苦。第三是看对外的经济和社会价值,做出来的东西是不是为大众所称道。
这三样东西必须得占一样,然后才能保证这个事情能往前推进。只是不同的人权重不一样——有些人说我特别想要外界对我的承认,或者工资很高,这个也是可以的,那他就会做那些待遇很丰厚的工作。还有一些人说我并不指望外面给我很多工资,但是我做这件事情让我觉得很开心,也一样成立。最终还是要看每个人在这几根轴上的权重有多少,用它来去衡量自己想做什么工作。
我当然会建议所有人在这三根线上都试一试,看哪些工作是你最喜欢、最有内心满足感但是不赚钱的,哪些工作是你能赚到更多钱但是内心不满足的,还有什么工作是你能力很强但是你不愿意做的。这些东西都可以组合,最终你发现有一些交集,有一些东西既能让你赚到足够的钱,又能够让你有内心满足感,那么这些方向可能是你将来的职业。
DeepTech:这也可能是一个比较理想的状态。
田渊栋:是,但是要不停地去尝试。最怕的是不尝试,天天抱怨不喜欢现在的工作,却不去试别的可能性,也不去寻找真正让自己开心的方向。长期陷在抱怨里,对个人并不好。
DeepTech:是的,也许可以先赚够钱再去尝试更喜欢的方向;或者先做满足的事,再努力赚钱。
田渊栋:对,都是有可能的。而且不同阶段的权衡不一样。刚毕业时更需要经济基础,那当然可以先去赚钱;如果经济压力不大,时间就会变得更重要。人的一生时间有限,用这段时间做出最有意思的东西很重要。不同阶段心态不同,最终判断也会不同。
DeepTech:那如果你现在可以完全自由地选择一个研究方向,不受任何资源或者发表压力的话,你最想攻克的问题是什么?
田渊栋:自然而然就是我之前做的那些,关于神经网络如何有好的表示,如何进行顿悟,怎么样能够获得泛化能力,怎么样让它变得更强,怎么样让它变得有跟人一样的效率,这些都是我想要做的问题。应该说我的研究方向一直以来都比较特立独行,当然与此同时也注重与整个人工智能大方向的结合,这样至少还能跟上,而不是被时代淘汰。
2026 我们可以期待什么
DeepTech:最后做一个总结和展望。2025 年对你来说也是一个比较重要的节点,如果给今年做一个小结,你最大的收获是什么?
田渊栋:收获还是不小的。一个是参与了 Llama 项目,会有很多经验,对大模型的研发和具体问题有更深的理解。至少对于我们来说有这样 hands-on 的 experience,虽然只有几个月,但改变了我对于很多问题的一些想法和思路,这是很重要的。而且对我的人生也会带来很大的改变。在离职之后,基本上我所有时间都在自己动手,应该说也有更多 hands-on 的经验了。
另外就是怎么样用 AI 和人的相互交互,如何让 AI 帮助研究变得更快、更高效,并帮助我们找到更好的方向。今年我找到了更有效的方法,让 AI 更好、更快地提高研究速度与效率。
在这种变化下,我们的研究方式会和过去非常不同。我们正处于一个特殊的节点上,继续往后走,世界,至少学术世界,可能会与过去完全不同。这是很大的变化。当然,研究本身也有不少进展,比如隐空间推理被更多人使用;对顿悟的理解更深入;对强化学习、对 fine-tuning 的理解也更深入一些。
当然之后我的年终总结会讲得更详细一点。
DeepTech:在你看来,明年 AI 领域最值得期待的进展会是什么?
田渊栋:我同意最近大家的一些新看法。因为至少在两三年前,AI 仍偏实验室阶段,这两年大家更多在“刷榜”,推理模型很强,很多问题被解决,包括 IMO(国际数学奥林匹克)、ICPC(国际大学生程序设计竞赛)这类数学与编程竞赛也能解决。
2026 年的话,我觉得可能大家不再满足于刷榜了,因为大家都会刷。之前也有看到一条有意思的推特说“只要是有榜就能上去”。这句话虽然说是夸张的,但我觉得它是对的。只要有榜,总有办法可以刷上去,我也从各种途径知道各种刷榜的技巧。但是问题就在于:第一,没有榜你怎么刷?第二,AI 能否落地,能否给大家带来实际结果?
大家花了那么多钱,多少个 billion 的钱去做 AI,AI 确实给大家提供很多帮助。但经济上这些投入能得到多少回报,会影响整个投资环境与投资人心态。所谓回报,核心就是:能不能通过 AI 得到真实的 business value(商业价值),这会成为下一阶段更主流的方向。
比如 OpenAI 发布 GPT-5.2 时,你看 Sam Altman 会强调“能带来什么价值”,而不再强调刷榜到什么程度,因为大家都知道能刷上去,关键是能否产生实际价值。
再比如说 AI 帮你做 PPT,最近 Nano Banana 非常火,为什么?是因为它很快地帮你做 PPT。这个完全改变了办公室的流程。类似地,能否用 AI 做 Excel 表格、做各种报表文档,这些都会成为重点。
(来源:田渊栋)
所以 2026 年有很多的变化可能会跟我们日常生活息息相关。包括学术,AI 参与学术工作后,它能否比以前做得更好?如果我们通过 AI 能够极大地提高 scientific discovery(科学发现)的速度,那它就非常有价值。应该说明年或后年,可能是 AI 如何证明自己价值的关键阶段。
DeepTech:非常期待明年能看到一些突破的进展。很多人甚至说 26 年、27 年是 AGI 的元年,我觉得这个可能还是稍微有点远,但一些大的突破应该还是可以看到的。
田渊栋:我觉得是这样子的。这个是比较有趣的一个状态,我们既作为研究员,又作为一个观察者,看能否见证一些有意思的事情。AGI 可能还需要一点时间,还需要一些突破,我觉得按照现在的方案堆数据还是不行的。
另外再从写小说这件事来说,AI 写小说的风格跟以前也是完全不一样的。以前可能容易写出一些无聊套路,比如“最终王子公主幸福地生活在一起了”,没什么意思。
但是现在 AI 已经学到更多有意思的套路,或者有意思的思路,能够让小说本身变得非常有趣。未来也许会出现 AI 在创作与文学上的突破,关键看大家怎么用,但我认为应该会发生。
DeepTech:我前段时间用 Gemini 3 和 Claude 4.5,我觉得它们的文笔已经非常出色了。
田渊栋:对,大概是这样子。这是一个非常大的变化,而且很多时候看文笔已经出色了,文笔不再是壁垒。那么有壁垒的地方就是你的创意和你的思路,你的想法到底是什么。
我现在的感受是:AI 在写局部段落时已经非常好,但对整个故事走向或结局的把控还是差一点。比如像 Gemini3 能写出那么多有意思的小点子,然后发现最后的结局居然比较平凡没有张力,就会失望。相比之下,顶级的小说家在这方面其实还是比较厉害的,所以应该说人在这方面还有不少优势的。
DeepTech:未来可能我们更多要扮演的角色更像是一个 CEO,去把控底下的各种 AI 做事的方向。
田渊栋:是,以后一定会出现一人 CEO 的情况。就是我自己是公司的 CEO,然后我下面有一堆 AI 帮我把事情干了。
运营/排版:何晨龙



































