可被验证,才算数:AI for Science 的甜区、天花板,与那笔抢跑的钱

2026-06-28 · AI, ai-for-science, drug-discovery, clinical-ai · 中文

看 AI 在科学里的进展,我习惯先用一把尺子:它快在能被便宜、客观、自动验证的地方,慢在验证昂贵又主观的地方。把论文和产业动作放到同一把尺子下,会得到一个不太舒服、但很清楚的图景——技术真实的战果都集中在便宜那一端,而最汹涌的资本,正押在尺子的另一端、跑在验证的前面。

AI 的真实战果,都在”可廉价验证”的前端

最能代表这一端的,是 CAR-T 开创者 Carl June 的实验室和 Sikander Hayat 等人发表在 Cell 上的工作。他们把人皮肤癌与正常组织的单细胞数据喂给三个大模型,让它们综合肿瘤特异性、表面定位和可成药性去给候选靶点排序、提名,最常被选中的 GPNMB 随后被做成 CAR-T,在三种异种移植瘤里都打出了疗效。但要看清 AI 到底动了哪一段:它干的是”靶点提名”这一步,疗效只到小鼠,而 GPNMB 广泛表达带来的正常组织安全,完全没有解决。一篇出自 Insilico Medicine、由 Zhavoronkov 等人写的综述把这件事说得更透——靶点”只有等到基于它的药拿到批准才算被真正验证”,而 AI 至今的功劳,是把一些候选送进了临床试验,不是送到批准。

同样的形状反复出现。浙江大学侯廷军团队在 Nature Protocols 上把三个 AI 打分模型串成一套虚拟筛选平台,半小时能筛十万个分子——但它给的是排序和假设,作者自己也承认现有证据只是回顾性的富集,真实命中仍要回到湿实验。Google DeepMind 与哈佛 Michael Brenner 团队的 ERA,把科研软件写作变成一个可自动评分的代码搜索,一口气”发现”四十个在公开榜上超过人类的单细胞方法——前提是任务可评分,而且它优化的正是那个评分本身。Stanford 与 Arc 研究所的 Brian Hie、高晓静团队的 Germinal 则是同一枚硬币的正面:正因为抗体设计的验证够便宜,它才能对四个靶点、每个只测几十到一百个设计,就拿到纳摩尔级的结合。规律很干净——AI 收窄了可廉价验证的前端,昂贵的那一截原封不动。

越靠近临床,AI 越靠不住

尺子的另一端,有两篇出自相近人马的工作,值得对照着读。Eric Topol 和 Pranav Rajpurkar 等人给”医疗推理 AI”立了个框架,通篇是愿景、没有一个数字,把大模型设想成可审计的推理伙伴,并明确把卡点放在验证、治理和追责,而不是模型会不会推理。另一边,Hoifung Poon 和 Topol 等人在 Nature Medicine 上做了件更硬的事——对前沿模型做对抗式压测,发现它们能在关键输入被抽掉的情况下照样答对,这说明它们是在用先验抄近路,而不是在推理;还能被措辞上的微小改动带偏,并编出看起来严密、实则错误的推理链;而那些被反复引用的健康 benchmark,彼此衡量的东西其实差异极大。同一拨人,一边画出愿景,一边又亲手证明现状离愿景还很远——benchmark 高分、看起来会推理、临床上可靠,是三件不能划等号的事。

钱,在往验证的前面跑

真正让这张图变紧张的,是产业的动作。礼来一家,在一个季度里就签下三笔大单:和 Bezos 押注的 Profluent 用 AI 设计位点特异重组酶、做”千碱基级”的大片段编辑,里程碑高达 22.5 亿美元;和 Zhavoronkov 的 Insilico 做小分子,总额到 27.5 亿;再加上与英伟达共建 AI 实验室的十亿级投入。Novo Nordisk 把 OpenAI 的模型铺进了从发现到生产的全流程;DeepMind 孵化的 Isomorphic Labs 一轮就融到 21 亿、放话年底进临床;英伟达在 BIO 大会上发布让 AI agent 直接调用工具的 BioNeMo,连 Anthropic 和 OpenAI 都接了进去;能自动跑实验的”AI 科学家”agent,也开始从顶级实验室往外溢。叙事配合得天衣无缝:Profluent 的 Madani 说 AI×生物还停在”GPT-1.5”,正全速冲向 GPT-5;Zhavoronkov 则主张让 AI 去接管最贵、最慢、最少被碰的 IND 毒理那一关。

同一股气也写进了论文。复旦肿瘤的高强团队联手上海交大的郑双佳与字节跳动 Seed,在 Cancer Cell 上提出 OpenIO——一份”AI 原生免疫治疗”的宣言:把生物 token 化、按”免疫 scaling law”训基础模型、再用数字孪生在硅里模拟病人。图景很完整,但几乎全是规划。问题在于,支撑”早期模型已经能用”的硬证据,主要还是合作金额和细胞系数据,不是临床读数;而几乎在同时,那篇 Nature Medicine 的压测给出的结论恰恰是,前沿模型的医学推理”还不行”。一边在自我加冕、按 GPT 的代际给生物学排时间表,一边在顶刊上证明最关键的临床推理尚不可靠。钱押的是终点,而验证那道门,还在原地。

一把可操作的尺子

所以我的判断很简单:看任何 AI×生物的项目,先问它的验证便不便宜。能被客观、廉价、可重复验证的工作流——虚拟筛选、抗体设计、可评分的科研软件——AI 落地最快,值得早下注;靠近临床推理、安全和责任归属的,先打折,等可验证的证据,而不是等下一份合作公告。更值钱的是第三类:谁在补验证底座——数据标准、公开 benchmark、能真正闭环的自动实验室——谁就是在为整条断层线往昂贵一侧挪做准备,也才配得上现在这种估值。至于”冲向 GPT-5”式的宣言,我会把它当成反方指标来读:喊得越响,越说明那道验证的门还锁着。

参考文献

Baker DJ, … Arany Z, June CH. AI-driven discovery of GPNMB CAR T cells as a multi-cancer therapy. Cell 2026. DOI
Pun FW, … Ren F, Zhavoronkov A. Target identification and assessment in the era of AI. Nat Rev Drug Discov 2026. DOI
Gu S, … Hou T, Kang Y. Facilitating structure-based drug discovery with an AI-driven virtual screening platform. Nat Protoc 2026. DOI
Aygün E, … Mourad S, Brenner MP. An AI system to help scientists write expert-level empirical software. Nature 2026. DOI
Mille-Fragoso LS, … Hie BL, Gao XJ. Efficient generation of epitope-targeted antibodies with Germinal. Nat Biotechnol 2026. DOI
Zhou HY, … Rajpurkar P, Topol EJ. Large reasoning models as thinking machines for medicine. Nat Biomed Eng 2026. DOI
Gu Y, … Topol EJ, Poon H. Evaluating the robustness and readiness of large frontier models in health AI applications. Nat Med 2026. DOI
Wu Y, … Zheng S, Gao Q. OpenIO: An open framework for AI-native immunotherapy. Cancer Cell 2026. DOI