我已经不再优化学术论文

为什么我不再优化学术论文，以及写论文这些年给我留下的东西。

从 2025 年初开始，我不再以第一作者主导新的学术论文。已经一年多了。

1. 我也写过学术论文

我在 USC 读 PhD 期间在 C.-C. Jay Kuo 教授组里工作，做 representation learning。从 PhD 到后来在新加坡 NUS 当 Research Fellow、在 A*STAR I²R 做 Scientist，再到 Apodex 之前的几年，我累计在 ACL、EMNLP、IEEE TASLP、IEEE TNNLS、KDD 等地方发表过 60 多篇论文，期间拿过一些 best paper / outstanding paper 奖。

写这一段不是为了立 credibility——而是把这篇文章接下来要讲的事情 anchor 在一个事实上：我接下来要说的，不是因为我写不下去了，而是因为我写了相当长一段时间之后做出的一个选择。

2. 写学术论文教给我的事

写论文这件事本身，我现在回头看，是一个非常完整的训练过程。它训练的不是"如何发论文"——是几样底层能力：

严谨——任何一个数字、任何一个 claim、任何一个对比，都要能 trace 回去。这个习惯一旦养成，做工程时也会自动应用：审 PR 时第一反应是问"这个 metric 是怎么测的"，写 design doc 时第一反应是把假设和已知拆开。
批判性思维——你写论文时会预设每一个 reviewer 都在挑你逻辑里的洞。久而久之，这种"自我审稿"成了背景思考方式，不需要外部 reviewer 在场也会自动启动。
严谨的实验设计——控制变量、跑足够多 random seeds、报告置信区间、不藏 negative result。这套训练让你看任何 ML benchmark 数字时都不会轻易 buy in。
清晰的文字表达——把一个复杂的工作压缩到 8 页之内，让 reviewer 看懂，还要把它的 contribution sell 出去。这是一项相当稀缺的写作能力，工程世界里很多人写不清楚一段技术内容，是因为从未被强迫到这个程度。

这些训练我已经接受过了。它们现在融在我每天的工作里——做 agent 系统时怎么设计实验、写 design doc、review 同事的代码、和 collaborator 讨论。**我不再以第一作者发论文，不是因为不再需要这些能力，是因为获取它们的那条通道已经走完。**第 61 篇论文带给我的新增训练，比第 30 篇少；第 30 篇又比第 10 篇少。边际收益不断下降，到了某个点之后投入的产出比就翻转了。

这一节的意思不是"我已经修炼好了，可以下山了"——这种语气会显得过于自信。我想说的是更朴素的一件事：发论文这件事的训练价值，对我来说已经基本兑现了。继续发，更多是在 maintain 状态而不是在 grow。

3. 转变是怎么发生的

转变不是一夜之间发生的，它是在加入 Apodex、开始做 agent 系统之后慢慢积累起来的。这种工作的形状，和我之前做 NLP research 那种工作的形状，很不一样。

agent 系统这种工作的核心价值在"系统能稳定跑起来、被真实用户用上、并且在生产环境中持续迭代"。一段工作做得好不好，最直接的判断就是：它在用，还是没在用？跑了多少 query？崩了几次？用户回来用第二次、第三次了吗？

这些是工程指标，不是研究指标。要把它们包装成一篇会议论文，你得做几件事：找一个相对干净的 benchmark，把工作的某一切片在那个 benchmark 上跑出 +N 个百分点；把工作的"为什么"重写成一个 contribution-clean 的故事，去掉所有"因为公司里另一段代码写成那样所以这里只能这样"的真实约束；然后投到合适的 venue，等 reviewer，处理 rebuttal，再修改，再等。从动笔到落地通常半年到一年半。每一步都在让产出物离原本的工作更远一点。

4. 论文跟我的工作开始失去对应关系

这是这篇文章的核心论证：对我现在做的工作来说，论文这个产出物的成本-收益已经翻转了。

具体说几个失去对应的方面。

Smallest paperable unit 引导出来的工作，不是我现在该做的工作。一个 agent 系统最有价值的部分，往往不是某一个独立的算法 trick，而是一整套工程决策的组合——某个 retrieval 怎么 fallback、某个工具调用怎么超时、某个状态怎么持久化、某个 prompt 怎么收敛。把这些拆成"可投稿的最小单元"是把整体变成碎片，整体的工程美感和决策成本在拆分中全部消失。

时间尺度不匹配。Production 工作的有效迭代周期是一两周——周一发现一个 bug，周三上 fix，周五观察用户行为变化。论文的最短周期是半年。等论文出来的时候，被论文描述的那段工作可能早就被推翻或者重新设计过了，论文里的 finding 也可能已经不是 finding。

Reviewer 的反馈信号在我目前的工作中价值很低。Peer review 在好的状态下是过滤错误的有效机制——但前提是 reviewer 跟你处在同一个工作语境里。我现在做的事情，能给我有用反馈的人不在 review pool 里——他们是用户、是同事、是用着这个 agent 跑业务的工程师。Reviewer 给我的"建议在 X benchmark 上加一个对照"，跟我手里这件事的真实改进路径，已经基本不重叠。

包装成本高于产出价值。把工程内容重写成 academic prose、去除所有"非研究"的真实约束，是一种 frame 切换的劳动。这种劳动本身有价值（它逼你想清楚抽象层），但对我目前阶段的工作来说，付出与收获已经不成比例。

5. 两条路的诚实对比

把发论文 vs 做能用的东西放在一起对比一下。这不是说哪条更好，是把两条路各自真实的成本和收益摊开来。

| | 发论文 | 做能用的东西 | |---|---|---| | 优势 | · 公共可访问的归档记录，可累积、可引用
· Peer review 在最好状态时能 catch 错误
· 学术圈认可度直接，对求职、升职、申请基金有清晰的对应 | · 反馈直接、节奏快——用户证伪比 reviewer 证伪快一个数量级的时间
· 解决的是真实存在的问题，不是 benchmark 上构造的问题
· 工作产出物本身就是 deliverable，不需要二次包装 | | 劣势 | · 周期长，从 idea 到 published 通常 6 个月到 2 年
· 包装成本高，真实工作要被改造成 contribution-clean 的故事
· Peer review 质量在退化——reviewer 池过载、AI 审稿争议
· "Smallest paperable unit"倾向引导出更碎、更增量的工作 | · 没有外部 archive。换公司、换项目，工作就消散，新人难以追溯
· 不利于走学术 career path
· 贡献不容易量化——"我帮这个产品稳定跑了两年"对外人是黑箱
· 对其他研究者的可继承性弱——代码、约束、数据通常都不公开 |

我现在的判断是：对我目前做的这种工作来说，右边那一栏的 trade-off 更合适。但这个判断只对我、只对目前的工作成立——它不是给任何其他人的处方。

6. Academia 还在做对的事

这一节不是为了政治正确，是真诚的承认。

Peer review 在最好的状态下是有用的：它过滤掉 obviously wrong 的工作、它强迫作者把论证打磨到一个最低的清晰度、它建立了一个跨地区跨机构的最低共同语言。这些功能没有完美的替代品。

archival 这件事更重要。一篇 2010 年的论文今天还能被引用、被 build upon、被纠正——这是知识能跨代累积的基础设施。我手里做的工程工作没有这个属性，这是它的内在劣势之一，不是优势。

理论计算机科学、统计、数学、物理这些领域，论文仍然是知识唯一稳定的载体。我对论文这个载体的反思完全不适用于这些领域。我说的是 applied AI / 系统工作这个特定子集。

所以这不是"academia 已死"或者"论文没意义"——是"对我目前做的事情，论文不是最合适的载体"。这是一个关于个体工作与产出形式匹配度的判断，不是一个关于整个学术体系的判决。

7. 那我现在拿什么做衡量

工作的好坏总要有一种度量。我换成了几个新的：

它在生产中跑得起来吗？——最低门槛。一段工作如果只在 demo 里能跑、在 production 里挂掉，它就是没做完。
它有多少人在真实使用？——使用量是最忠实的反馈。Daily query 数、unique user 数、留存率，这些数字不会撒谎。
它崩的频率和恢复时间是多少？——SRE 指标。一段能经得起两年时间考验的健壮系统，本身就是有价值的事。
如果开源了，它会被别人 fork、提 issue、贡献 PR 吗？——开源活跃度是一种去中心化、跨机构的同行评议。
我自己服不服气？——最主观但也最重要的一条。一段工作做完之后，我心里有没有那个"对，这就是我目前能做到的最好"的判断。

这几个指标加在一起，构成了我对自己工作的新衡量。它们没有 archival 属性、没有 citation 数字，但它们在反馈速度、信号真实度、以及和工作内容的对应关系上，比一篇论文更贴近我现在做的事。

写在最后：这是我个人的转向，不是给任何人的处方。如果你正在读 PhD、正在投自己的第一篇论文、或者你觉得论文这个载体仍然在描述你工作的真实样子——继续。这条路对你来说可能仍然是对的。我只是把这件事写下来，告诉跟我处境相似的人：转向不可耻，而且未必是退出，可能只是换了一个 metric。