2026年6月18日,通义实验室(Tongyi Lab)正式开源了首个基于统一“科学语法”的多学科科学生成基础模型——LOGOS(Language Of Generative Objects in Science)。这一模型并非简单的“又一个AI4S工具”,它试图从根本上解决传统AI for Science领域长期存在的碎片化问题:过去,蛋白质、小分子、材料和化学反应各自有一套独立的专家模型,任务之间几乎无法共享知识,训练成本高昂且难以迁移。
LOGOS由ATH-Token Foundry与中国人民大学高瓴人工智能学院联合开发,其核心思路是将蛋白质、小分子、材料结构甚至化学反应路径等异构科学对象,统一编码为离散的token序列。这意味着,原本需要不同网络架构处理的3D坐标、拓扑信息、反应条件,现在都能在同一个原生大模型框架下进行自回归生成。通俗点说,它相当于给科学数据发明了一套“世界语”,让不同领域的知识可以互相翻译和组合。

技术上的关键突破在于两处:一是“科学语法”设计,让模型能够理解3D空间中的相互作用规则;二是空间交互离散化技术,使得模型无需依赖稀缺的3D坐标数据或专门的几何网络,就能完成空间理解。这直接保证了预训练任务与下游任务在形式和目标上的一致性——很多AI4S模型在预训练阶段和实际应用中存在“对齐鸿沟”,LOGOS则从设计上规避了这一问题。
从评测数据来看,LOGOS的能力相当扎实。参数仅为1B的LOGOS-1B版本,在六个代表性任务中全面对标甚至超过了此前最先进的领域专用方法。具体数据包括:口袋条件下的配体生成、逆合成预测(Top-1准确率74.8%)、口袋位点识别(HOLO4K数据集上Top-n准确率58.5%)、以及MOF材料生成(新构筑单元比例提升了76%)。尤其值得关注的是,在一些任务上,它甚至超越了参数规模高达8×7B的NatureLM——仅用了后者1/56的参数。

客观来看,LOGOS的开源为科学AI领域提供了一条新的路径:与其为每个问题单独训练专用模型,不如构建一个通用的“科学语言模型”,然后在不同任务上进行微调或零样本推理。这或许会降低药物设计、材料筛选等领域的AI应用门槛,尤其对于资源有限的研究团队来说,一个1B级别的通用基座模型已经展现了足够的竞争力。不过,目前LOGOS的参数量还相对较小,在一些极复杂的生物大分子预测任务上,是否仍能保持优势,还需要更多实测验证。但无论如何,统一科学语法的思路,已经让AI4S从“搭积木”走向了“写文章”。