热门资讯

JoyAI-LLM-Flash – 京东开源的混合专家架构大模型

业界来源：AI工具集 2026-02-19 06:08:46

JoyAI-LLM-Flash是什么

JoyAI-LLM-Flash 是京东开源的中型指令大模型，采用混合专家（MoE）架构，总参数量 48B，激活参数量仅 3B，支持 128K 超长上下文。模型创新性地引入 FiberPO 优化框架——首次将纤维丛理论应用于强化学习，结合 Muon 优化器进行 SFT、DPO 及 RL 训练；同时采用稠密多 Token 预测（MTP）技术，相较非 MTP 版本吞吐量提升 1.3-1.7 倍。基于 20 万亿 Token 预训练数据，JoyAI-LLM-Flash 在前沿知识理解、逻辑推理、代码生成及智能体交互等任务上表现出色，适用于端侧高效推理、企业级 Agent 开发及长文本处理等场景。

JoyAI-LLM-Flash的主要功能

超长上下文处理：支持 128K Token 上下文长度，可处理长文档、长对话及复杂多轮交互任务。
高效 MoE 推理：总参数量 48B，激活参数仅 3B，256 个专家动态路由，每 Token 激活 8 个专家，兼顾性能与低推理成本。
多 Token 预测（MTP）：采用稠密 MTP 技术，吞吐量较非 MTP 版本提升 1.3-1.7 倍，显著提升生成效率。
代码生成能力：基于 20 万亿 Token 预训练，擅长逻辑推理与代码生成，支持多种编程语言辅助开发。
智能体交互：针对 Agent 场景优化，支持复杂任务规划、工具调用及多步骤推理。
前沿知识理解：覆盖广泛领域知识，具备强大的语义理解和知识问答能力。
指令遵循优化：通过 SFT、DPO 及 RL 多阶段训练，精准理解并执行用户指令。

JoyAI-LLM-Flash的技术原理

混合专家架构（MoE）：采用稀疏激活的 MoE 设计，总参数量 48B 但每 Token 仅激活 3B 参数，通过 256 个专家模块动态路由（每 Token 选择 8 个专家），大幅降低推理成本的同时保持高性能。
稠密多 Token 预测（Dense MTP）：创新性地引入稠密 MTP 机制，单次前向传播并行预测多个未来 Token，解决传统模型规模扩展时的不稳定问题，吞吐量提升 1.3-1.7 倍。
FiberPO 优化框架：首次将纤维丛理论（Fiber Bundle Theory）引入强化学习优化，结合 Muon 优化器进行参数更新，提升训练稳定性和收敛效率。
多阶段训练策略：采用 SFT（监督微调）+ DPO（直接偏好优化）+ RL（强化学习）三阶段训练流程，逐步优化模型的指令遵循能力和输出质量。
MLA 注意力机制：使用多头潜在注意力（Multi-head Latent Attention），隐藏维度 2048，支持 32 头注意力，高效处理长序列依赖关系。
SwiGLU 激活函数：采用 SwiGLU 作为非线性激活，结合 129K 词表大小，提升模型表达能力和训练稳定性。