为什么“表征”决定了 AI4S 模型的上限?《AI4S 实战派》首课回顾
AI4S(AI for Science,科学智能)正日益成为科研工作者必须掌握的关键能力与新型科研范式。
3月5日晚,上海科学智能研究院(上智院 SAIS)、复旦大学、魔搭社区、Datawhale 联合策划的《AI4S 实战派》正式启航。首场直播邀请到浙江大学百人计划研究员、前微软亚洲研究院高级研究员、RD-Agent(GitHub 1.3w+ Star项目)核心作者——方榯楷。
他用一场直播,拆解了AI理解万物的底层逻辑——表征学习。
一、AI4S :一场AI和Science的“双向奔赴”
AI4S是什么?
方榯楷的回答是:这不是单向的技术赋能,而是一个双引擎驱动的循环。
AI for Science——用 AI 的计算能力解决蛋白质折叠、材料发现等复杂的科学黑盒问题。
Science for AI——利用物理学的第一性原理(能量守恒、对称性)重新构建AI的架构,使其更稳健、可解释。
两者相加,是完整的AI4S。
一个典型案例是AlphaFold 3。
如果说AlphaFold 2是AI4S的里程碑,那么AlphaFold 3则是双向奔赴的完美融合:在方法层面,研究团队受热力学启发,引入了原本用于图像生成的扩散模型架构,在结果层面,首度使用AI深入解决领域科学难题,实现了从单一蛋白质到所有生命分子相互作用的跨越。
为什么我们现在必须关注 AI4S?因为主流科学关注的是物质和物质之间的关系转化。AI的介入让科研从人力试错转向智能预见,帮助科学家在海量可能性中快速锁定最优解。当互联网文本数据已近枯竭,未来的AI需要通过科学模拟器,根据第一性原理合成无限的高质量数据,去解锁下一个智能临界点。

二、为什么“表征”决定了模型的上限?
在AI4S的通用任务流程中,存在三个核心挑战:
- 表征问题——如何将3D坐标、分子拓扑图或网格张量“翻译”成AI懂的语言?
- 建模问题——如何通过函数逼近寻找性质(能量、硬度等)的映射?
- 约束问题——如何将物理定律“编码”进模型?
方榯楷给出了一个判断:很多人迷信更深层的Transformer,但在科学场景中,表征决定了模型的上限。
如果你将分子的3D结构简单粗暴地拍扁成2D图像处理,无论模型多强,都会因为丢失结构性质而导致预测崩塌。
表征,是AI理解物理世界的“第一性原理”

三、什么样的表征,才是“好表征”?
不是所有的映射都能称为好的表征。方榯楷拆解了衡量表征质量的四大黄金准则:
1. 距离保持——保持现实逻辑
现实中性质相近的物体,映射到隐空间后,其向量距离也必须相近。两把结构相似的椅子,在隐空间里应该靠在一起。如果一把椅子映射后的距离反而离一个苹果更近——这个表征就发生了“距离崩塌”,模型无法理解事物的相似性。
2. 连续性——拒绝规律“突变”
好的表征空间应该是平滑的。在隐空间里缓慢移动向量坐标,对应的现实事物也应产生连续变化,而不是无意义的“闪现”。在流体力学实验中,当你在隐空间缓慢拖动滑块,流场图像应像水流一样自然演变。
3. 可插值与可操作性——探索“中间地带”
在隐空间里对两个向量加权插值,结果应对应现实中介于两者之间的产物。这意味着:我们可以通过对已知材料的向量插值,让AI预测出一种尚未被发现的新型中间态物质。
4. 不变性——尊重第一性原理
科学对象拥有独特的对称性。一个化学分子,无论在空间中如何旋转、平移或翻转,它本质上还是同一个分子。优秀的表征必须保持这种物理性质的对称。如果旋转一下分子AI就不认识了——这种表征在科学场景下是失败的。

四、表征技术的演进
如何获取这些表征?技术路径经历了从人工驱动到数据驱动的进化:
- 有监督学习——经典范式,但依赖昂贵的实验室标注,且缺乏泛化性。
- 自监督学习(SSL)——学习数据的“数字全息图”,具体包括:掩码自编码器,像完形填空一样随机遮盖75%的流场;变分自编码器(VAE),实现从确定性映射到连续概率分布的跃迁;自回归,预测下一秒的物理场状态;扩散模型,从混沌中还原物理真实。
五、实战演示:16 维向量捕捉流体之魂
理论讲完,方榯楷带来了一个直观的实操演示。
实验对象:流体力学中的经典现象——卡门涡街。
数据场景:64×128 的流体图像,包含 8000+ 数据点。
实验任务:仅用16 维隐空间向量,实现高维非线性物理规律的压缩与复原。
结果有多?
精准重构——输入一张测试集流场图,AI在16维空间转了一圈后输出,两张图几乎一模一样,均方误差(MSE)达到 10⁻⁴。
智能修复——对原始图像挖掉一大块或添加大量噪声,AI依然能通过16维隐空间“脑补”出干净、完整的物理图像。
性能对比——深度表征学习在处理这种复杂物理规律时,对传统统计方法(如PCA)形成了降维打击。

目前,方榯楷已将课程配套代码开源至GitHub 仓库,包含数据集、流场自编码器及VAE的 Notebook:https://github.com/xuangu-fang/AI4S-101/
六、结语:“看清”世界及逆向设计
表征学习是AI4S的第一性原理——它将复杂的自然精髓浓缩为可计算的向量。
但方榯楷强调,这只是起点。
通过表征学习与生成式建模(VAE 或扩散模型)的耦合,我们不仅能让AI尝试“读懂”某些世界,更能进行逆向设计,比如在隐空间里设定性能需求(高强度、特定带隙)、在对应的坐标采点、通过解码器将其还原为真实的物理结构等。

🚀 预告:下一期,扩散模型与 AlphaFold 3
如果你已经学会了如何给万物发放“数字身份证”,那么接下来的挑战将更加硬核且浪漫:
我们如何从噪声中“雕刻”出生命结构?
3月12日(本周四)19:30,上海科学智能研究院视频号上,《AI4S 实战派》第二课重磅开启——
《从混沌中雕刻生命:扩散模型与 AlphaFold 3》的主题课程上,浙江大学百人计划研究员章敏老师将深度拆解 AlphaFold 3 的底层逻辑,看生成式模型如何进化并试图打开预测万物的“上帝视角”。

扫码加入群聊,掌握AI4S实战派最新资讯,快来寻找你的科学搭子吧!

更多推荐




所有评论(0)