LOGOS – 阿里开源的首个统一科学大模型
LOGOS是什么
LOGOS(Language Of Generative Objects in Science)是阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院开源的首个统一科学语法多领域科学生成基础模型。模型将蛋白质、小分子、材料、抗体等异构科学对象编码为统一 Token 序列,基于纯序列建模范式,在口袋配体生成、逆合成预测、蛋白质编辑、材料生成等六大科学任务上一致性匹配或超越领域专用方法,用 1B 参数超越 56B 参数模型,验证一个模型解决万千科学任务的可行性。

LOGOS的主要功能
口袋条件配体生成:给定蛋白质口袋结构,生成能精准结合的小分子药物,同时满足结合亲和力、药物相似性和合成可行性三重要求。
逆合成预测:给定目标分子,预测合成所需前体分子,Top-1 准确率达 74.8%,辅助化学家设计合成路线。
口袋位点识别:仅靠氨基酸序列预测蛋白质结合位点,无需 3D 结构数据,在 HOLO4K 数据集上 Top-n 准确率达 58.5%。
MOF 材料生成:生成新型金属有机框架材料,新型构建单元比例(NBB)达 17.78%,较基线提升 76%。
蛋白质编辑:在 Hard 难度 Fitness 任务上得分达 0.93,较基线 0.34 提升 174%。
抗体 CDR 设计:抗体互补决定区设计 AAR 达 79.82%,超越结构依赖的逆折叠方法。
LOGOS的技术原理
统一”科学语法” + 空间交互离散化:设计共享词汇表,将蛋白质、小分子、材料等异构对象统一编码为离散 Token 序列;发明文字描述法将 3D 空间接触模式语法化,无需显式 3D 坐标可理解复杂空间互作规律。
形式与目标完全对齐:预训练数据的序列形式等于下游任务的输入输出形式,预训练的 next-token prediction 等于下游条件生成目标,消除预训练与下游应用之间的 gap。
跨领域知识正向迁移:统一语法使生物、化学、材料等领域数据在同一模型框架内回流训练,实验证实多任务联合训练效果优于独立训练,实现”1+1>2″的协同效应。
微信关注回复 “开源”,加入AI开源项目交流群
如何使用LOGOS
获取开源资源:访问 HuggingFace(LOGOS-Hub)下载模型权重,或从 GitHub(LOGOS-Hub/LOGOS)获取推理代码。
基于 LLM 生态部署:直接复用 vLLM 推理加速、模型量化等成熟工程基建,无需构建独立技术栈。
下游任务调用:将科学对象按统一语法格式化为 Token 序列,通过自回归生成完成口袋配体设计、逆合成预测等任务。
LOGOS的核心优势
纯序列范式超越 3D 模型:在口袋配体生成任务上,纯序列方法首次打败依赖 3D 坐标的扩散模型,证明空间结构可完全通过序列预测捕获。
极致参数效率:LOGOS-1B 用 1/56 参数量(1B vs 8×7B)在多个任务上超越 NatureLM,展现极高参数效率。
零 3D 坐标依赖:口袋位点识别仅需氨基酸序列,无需昂贵且稀缺的 3D 结构数据,大幅降低药物发现门槛。
统一架构降低工程成本:与 LLM 共享架构、训练范式和推理基础设施,可直接复用现有成熟工程生态,无需独立技术栈。
LOGOS的项目地址
GitHub仓库:https://github.com/LOGOS-Hub/LOGOS
HuggingFace模型库:https://huggingface.co/LOGOS-Hub
arXiv技术论文:https://arxiv.org/pdf/2606.16905
LOGOS的同类竞品对比
| 对比维度 | LOGOS | NatureLM |
|---|---|---|
| 核心定位 | 统一科学语法的多领域生成基础模型 | 分子与蛋白质领域专用语言模型 |
| 参数规模 | 1B / 3B / 8B | 8×7B(56B) |
| 建模范式 | 纯序列自回归,无需 3D 坐标 | 依赖 3D 坐标与专用几何网络 |
| 任务覆盖 | 蛋白质、分子、材料、反应、抗体、口袋识别 | 分子生成、蛋白质结构 |
| 跨领域迁移 | 统一语法实现正向知识迁移 | 各领域独立建模,难以迁移 |
| 参数效率 | 1B 参数在多个任务上超越 56B 模型 | 需更大参数量达到同等性能 |
| 工程生态 | 复用 LLM 基建(vLLM、量化等) | 构建独立于 LLM 的技术栈 |
LOGOS的应用场景
AI 辅助药物设计:针对特定蛋白质靶点口袋生成候选药物分子,同时优化结合亲和力、药物相似性与合成可行性。
化学合成路线规划:为有机合成提供逆合成路径预测,Top-1 准确率达 74.8%,减少实验试错成本。
蛋白质工程改造:定向编辑蛋白质序列以提升稳定性或功能,Hard Fitness 得分达 0.93,用于酶工程与生物催化剂开发。
新材料发现:生成新型 MOF 材料,新型构建单元比例提升 76%,适用于气体存储、分离与能源转化。
抗体药物开发:设计高亲和力抗体 CDR 区域,AAR 达 79.82%,加速治疗性抗体研发。
-
AgentCanvas – Vstorm开源的 Pydantic AI 可视化工具
AgentCanvas是什么AgentCanvas 是 Vstorm开源的 Pydantic AI 可视化工具。能将已接入 Logfire 追踪的 AI Agent 运行日志,自动转化为一份可交互的
-
ACE-Ego – 大晓机器人联合港中文开源的具身操作 VLA 模型
ACE-Ego是什么ACE-Ego 是大晓机器人联合港中文 MMLab 开源的一脑多型具身操作 VLA 模型。模型用 6.0K+ 小时人类第一视角视频为核心进行预训练,通过相机空间动作与形态条件编码,
-
Grok Imagine Video 1.5 – xAI 推出的图生视频模型
Grok Imagine Video 1.5是什么Grok Imagine Video 1.5 是 xAI 推出的图生视频模型,模型基于 Aurora 自回归引擎构建。模型支持静态图一键生成带原生同步
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
关注网络尖刀微信公众号随时掌握互联网精彩







