Apr 27, 2026·essay·7 min

我已经不再优化学术论文

为什么我不再优化学术论文,以及写论文这些年给我留下的东西。

发表论文数量随年份变化

从 2025 年初开始,我不再以第一作者主导新的学术论文。已经一年多了。

1. 我也写过学术论文

我在 USC 读 PhD 期间在 C.-C. Jay Kuo 教授组里工作,做 representation learning。从 PhD 到后来在新加坡 NUS 当 Research Fellow、在 A*STAR I²R 做 Scientist,再到 MiroMind 之前的几年,我累计在 ACL、EMNLP、IEEE TASLP、IEEE TNNLS、KDD 等地方发表过 60 多篇论文,期间拿过一些 best paper / outstanding paper 奖。

写这一段不是为了立 credibility——而是把这篇文章接下来要讲的事情 anchor 在一个事实上:我接下来要说的,不是因为我写不下去了,而是因为我写了相当长一段时间之后做出的一个选择。

2. 写学术论文教给我的事

写论文这件事本身,我现在回头看,是一个非常完整的训练过程。它训练的不是"如何发论文"——是几样底层能力:

  • 严谨——任何一个数字、任何一个 claim、任何一个对比,都要能 trace 回去。这个习惯一旦养成,做工程时也会自动应用:审 PR 时第一反应是问"这个 metric 是怎么测的",写 design doc 时第一反应是把假设和已知拆开。
  • 批判性思维——你写论文时会预设每一个 reviewer 都在挑你逻辑里的洞。久而久之,这种"自我审稿"成了背景思考方式,不需要外部 reviewer 在场也会自动启动。
  • 严谨的实验设计——控制变量、跑足够多 random seeds、报告置信区间、不藏 negative result。这套训练让你看任何 ML benchmark 数字时都不会轻易 buy in。
  • 清晰的文字表达——把一个复杂的工作压缩到 8 页之内,让 reviewer 看懂,还要把它的 contribution sell 出去。这是一项相当稀缺的写作能力,工程世界里很多人写不清楚一段技术内容,是因为从未被强迫到这个程度。

这些训练我已经接受过了。它们现在融在我每天的工作里——做 agent 系统时怎么设计实验、写 design doc、review 同事的代码、和 collaborator 讨论。**我不再以第一作者发论文,不是因为不再需要这些能力,是因为获取它们的那条通道已经走完。**第 61 篇论文带给我的新增训练,比第 30 篇少;第 30 篇又比第 10 篇少。边际收益不断下降,到了某个点之后投入的产出比就翻转了。

这一节的意思不是"我已经修炼好了,可以下山了"——这种语气会显得过于自信。我想说的是更朴素的一件事:发论文这件事的训练价值,对我来说已经基本兑现了。继续发,更多是在 maintain 状态而不是在 grow。

3. 转变是怎么发生的

转变不是一夜之间发生的,它是在加入 MiroMind、开始做 agent 系统之后慢慢积累起来的。这种工作的形状,和我之前做 NLP research 那种工作的形状,很不一样。

agent 系统这种工作的核心价值在"系统能稳定跑起来、被真实用户用上、并且在生产环境中持续迭代"。一段工作做得好不好,最直接的判断就是:它在用,还是没在用?跑了多少 query?崩了几次?用户回来用第二次、第三次了吗?

这些是工程指标,不是研究指标。要把它们包装成一篇会议论文,你得做几件事:找一个相对干净的 benchmark,把工作的某一切片在那个 benchmark 上跑出 +N 个百分点;把工作的"为什么"重写成一个 contribution-clean 的故事,去掉所有"因为公司里另一段代码写成那样所以这里只能这样"的真实约束;然后投到合适的 venue,等 reviewer,处理 rebuttal,再修改,再等。从动笔到落地通常半年到一年半。每一步都在让产出物离原本的工作更远一点。

4. 论文跟我的工作开始失去对应关系

这是这篇文章的核心论证:对我现在做的工作来说,论文这个产出物的成本-收益已经翻转了

具体说几个失去对应的方面。

Smallest paperable unit 引导出来的工作,不是我现在该做的工作。一个 agent 系统最有价值的部分,往往不是某一个独立的算法 trick,而是一整套工程决策的组合——某个 retrieval 怎么 fallback、某个工具调用怎么超时、某个状态怎么持久化、某个 prompt 怎么收敛。把这些拆成"可投稿的最小单元"是把整体变成碎片,整体的工程美感和决策成本在拆分中全部消失。

时间尺度不匹配。Production 工作的有效迭代周期是一两周——周一发现一个 bug,周三上 fix,周五观察用户行为变化。论文的最短周期是半年。等论文出来的时候,被论文描述的那段工作可能早就被推翻或者重新设计过了,论文里的 finding 也可能已经不是 finding。

Reviewer 的反馈信号在我目前的工作中价值很低。Peer review 在好的状态下是过滤错误的有效机制——但前提是 reviewer 跟你处在同一个工作语境里。我现在做的事情,能给我有用反馈的人不在 review pool 里——他们是用户、是同事、是用着这个 agent 跑业务的工程师。Reviewer 给我的"建议在 X benchmark 上加一个对照",跟我手里这件事的真实改进路径,已经基本不重叠。

包装成本高于产出价值。把工程内容重写成 academic prose、去除所有"非研究"的真实约束,是一种 frame 切换的劳动。这种劳动本身有价值(它逼你想清楚抽象层),但对我目前阶段的工作来说,付出与收获已经不成比例。

5. 两条路的诚实对比

把发论文 vs 做能用的东西放在一起对比一下。这不是说哪条更好,是把两条路各自真实的成本和收益摊开来。

| | 发论文 | 做能用的东西 | |---|---|---| | 优势 | · 公共可访问的归档记录,可累积、可引用
· Peer review 在最好状态时能 catch 错误
· 学术圈认可度直接,对求职、升职、申请基金有清晰的对应 | · 反馈直接、节奏快——用户证伪比 reviewer 证伪快一个数量级的时间
· 解决的是真实存在的问题,不是 benchmark 上构造的问题
· 工作产出物本身就是 deliverable,不需要二次包装 | | 劣势 | · 周期长,从 idea 到 published 通常 6 个月到 2 年
· 包装成本高,真实工作要被改造成 contribution-clean 的故事
· Peer review 质量在退化——reviewer 池过载、AI 审稿争议
· "Smallest paperable unit"倾向引导出更碎、更增量的工作 | · 没有外部 archive。换公司、换项目,工作就消散,新人难以追溯
· 不利于走学术 career path
· 贡献不容易量化——"我帮这个产品稳定跑了两年"对外人是黑箱
· 对其他研究者的可继承性弱——代码、约束、数据通常都不公开 |

我现在的判断是:对我目前做的这种工作来说,右边那一栏的 trade-off 更合适。但这个判断只对、只对目前的工作成立——它不是给任何其他人的处方。

6. Academia 还在做对的事

这一节不是为了政治正确,是真诚的承认。

Peer review 在最好的状态下是有用的:它过滤掉 obviously wrong 的工作、它强迫作者把论证打磨到一个最低的清晰度、它建立了一个跨地区跨机构的最低共同语言。这些功能没有完美的替代品。

archival 这件事更重要。一篇 2010 年的论文今天还能被引用、被 build upon、被纠正——这是知识能跨代累积的基础设施。我手里做的工程工作没有这个属性,这是它的内在劣势之一,不是优势。

理论计算机科学、统计、数学、物理这些领域,论文仍然是知识唯一稳定的载体。我对论文这个载体的反思完全不适用于这些领域。我说的是 applied AI / 系统工作这个特定子集。

所以这不是"academia 已死"或者"论文没意义"——是"对我目前做的事情,论文不是最合适的载体"。这是一个关于个体工作与产出形式匹配度的判断,不是一个关于整个学术体系的判决。

7. 那我现在拿什么做衡量

工作的好坏总要有一种度量。我换成了几个新的:

  • 它在生产中跑得起来吗?——最低门槛。一段工作如果只在 demo 里能跑、在 production 里挂掉,它就是没做完。
  • 它有多少人在真实使用?——使用量是最忠实的反馈。Daily query 数、unique user 数、留存率,这些数字不会撒谎。
  • 它崩的频率和恢复时间是多少?——SRE 指标。一段能经得起两年时间考验的健壮系统,本身就是有价值的事。
  • 如果开源了,它会被别人 fork、提 issue、贡献 PR 吗?——开源活跃度是一种去中心化、跨机构的同行评议。
  • 我自己服不服气?——最主观但也最重要的一条。一段工作做完之后,我心里有没有那个"对,这就是我目前能做到的最好"的判断。

这几个指标加在一起,构成了我对自己工作的新衡量。它们没有 archival 属性、没有 citation 数字,但它们在反馈速度、信号真实度、以及和工作内容的对应关系上,比一篇论文更贴近我现在做的事。


写在最后:这是我个人的转向,不是给任何人的处方。如果你正在读 PhD、正在投自己的第一篇论文、或者你觉得论文这个载体仍然在描述你工作的真实样子——继续。这条路对你来说可能仍然是对的。我只是把这件事写下来,告诉跟我处境相似的人:转向不可耻,而且未必是退出,可能只是换了一个 metric。