热门资讯

MiniMax M2.5 – MiniMax开源的新一代旗舰AI模型

业界来源：AI工具集 2026-02-19 06:23:07

M2.5是什么

M2.5 是MiniMax推出的10B激活参数轻量级旗舰大模型，主打编程与Agentic能力。模型支持100 TPS超高推理速度（约为Claude Opus 3倍），支持 10+ （Go、Rust、Kotlin、Python、Java等）语言的全栈开发、复杂逻辑推理及企业级系统搭建。模型在 SWE-Bench Verified（80.2%）、Multi-SWE-Bench（51.3%）等基准测试中达到 SOTA 水平，具备”架构师级”任务拆解与规划能力模型采用Agent原生架构，定位下一代数字化办公主力模型。

M2.5的主要功能

智能编程：支持 10+ 语言的全栈开发，具备架构师级规划能力，可完成从系统设计到测试 review 的完整软件生命周期。
Agentic 执行：通过高效工具调用和智能搜索，以更低 token 消耗和更快速度自主完成复杂任务。
办公自动化：直接交付 Word、PPT、Excel 等专业级产出，将行业隐性知识转化为可复用的标准化技能。
专家构建：支持用户融合领域 SOP 与核心能力创建自定义 Expert，平台已积累 10,000+ 个专家。
高性价比：以 100 TPS 速度连续运行一小时仅需 1 美元，让无限运行复杂 Agent 在经济上完全可行。

M2.5的技术原理

Forge 原生 Agent RL 框架：通过引入中间层完全解耦底层训推引擎与 Agent，支持任意 Agent 接入和优化，配合异步调度与树状合并训练样本策略，实现约 40 倍训练加速，验证模型能力随算力和任务数呈近线性 scaling。
Agentic RL 算法与奖励设计：沿用 CISPO 算法保障 MoE 模型大规模训练稳定性，引入过程奖励机制解决长上下文信用分配难题，同时将任务真实耗时估计作为 Reward，在模型效果与响应速度间实现最优平衡。
高效推理与任务优化：通过强化学习激励模型高效拆解复杂任务和优化 token 消耗，结合原生 100 TPS 推理速度和并行工具调用能力，使 SWE-Bench Verified 完成时间较 M2.1 缩短 37%，同时保持顶尖性能。
大规模真实环境训练：基于 20 万+真实环境进行 RL 训练，涵盖编程、搜索、办公等场景，将公司内部研发、产品、销售等职能的真实工作流程转化为训练数据，持续提升模型在真实任务中的泛化能力。
极致成本架构设计：采用 MoE 架构实现高速低耗推理，提供 50 TPS 和 100 TPS 双版本，配合缓存机制，将输出价格降至同类模型的 1/10-1/20，首次实现复杂 Agent 的经济可行无限运行。

M2.5的性能表现

编程能力：在 SWE-Bench Verified 测试中取得 80.2% 的得分，超越 Claude Opus 4.6；在 Multi-SWE-Bench 多语言编程基准上以 51.3% 的成绩达到行业第一；在 VIBE-Pro 内部基准上与 Opus 4.5 表现相当。跨脚手架泛化能力优异，在 Droid 上获得 79.7% 的通过率，超过 Opus 4.6 的 78.9%；在 OpenCode 上达到 76.1%，同样领先于 Opus 4.6 的 75.9%。
搜索与工具调用：在 BrowseComp 基准上取得 76.3% 的行业顶尖成绩，Wide Search 同样表现领先。在 RISE 真实交互搜索评估中，展现出专家级搜索能力。相比前代 M2.1，在多项任务中节省约 20% 的搜索轮次，token 效率显著提升。
办公场景：在内部 Cowork Agent 评估框架 GDPval-MM 上取得 59.0% 的平均胜率；在基于 Excel 竞赛的 MEWC 基准和专家构建的金融建模评估中均达到优秀水平。