JoyAI-LLM-Flash – 京东开源的混合专家架构大模型
JoyAI-LLM-Flash是什么
JoyAI-LLM-Flash 是京东开源的中型指令大模型,采用混合专家(MoE)架构,总参数量 48B,激活参数量仅 3B,支持 128K 超长上下文。模型创新性地引入 FiberPO 优化框架——首次将纤维丛理论应用于强化学习,结合 Muon 优化器进行 SFT、DPO 及 RL 训练;同时采用稠密多 Token 预测(MTP)技术,相较非 MTP 版本吞吐量提升 1.3-1.7 倍。基于 20 万亿 Token 预训练数据,JoyAI-LLM-Flash 在前沿知识理解、逻辑推理、代码生成及智能体交互等任务上表现出色,适用于端侧高效推理、企业级 Agent 开发及长文本处理等场景。

JoyAI-LLM-Flash的主要功能
- 超长上下文处理:支持 128K Token 上下文长度,可处理长文档、长对话及复杂多轮交互任务。
- 高效 MoE 推理:总参数量 48B,激活参数仅 3B,256 个专家动态路由,每 Token 激活 8 个专家,兼顾性能与低推理成本。
- 多 Token 预测(MTP):采用稠密 MTP 技术,吞吐量较非 MTP 版本提升 1.3-1.7 倍,显著提升生成效率。
- 代码生成能力:基于 20 万亿 Token 预训练,擅长逻辑推理与代码生成,支持多种编程语言辅助开发。
- 智能体交互:针对 Agent 场景优化,支持复杂任务规划、工具调用及多步骤推理。
- 前沿知识理解:覆盖广泛领域知识,具备强大的语义理解和知识问答能力。
- 指令遵循优化:通过 SFT、DPO 及 RL 多阶段训练,精准理解并执行用户指令。
JoyAI-LLM-Flash的技术原理
- 混合专家架构(MoE):采用稀疏激活的 MoE 设计,总参数量 48B 但每 Token 仅激活 3B 参数,通过 256 个专家模块动态路由(每 Token 选择 8 个专家),大幅降低推理成本的同时保持高性能。
- 稠密多 Token 预测(Dense MTP):创新性地引入稠密 MTP 机制,单次前向传播并行预测多个未来 Token,解决传统模型规模扩展时的不稳定问题,吞吐量提升 1.3-1.7 倍。
- FiberPO 优化框架:首次将纤维丛理论(Fiber Bundle Theory)引入强化学习优化,结合 Muon 优化器进行参数更新,提升训练稳定性和收敛效率。
- 多阶段训练策略:采用 SFT(监督微调)+ DPO(直接偏好优化)+ RL(强化学习)三阶段训练流程,逐步优化模型的指令遵循能力和输出质量。
- MLA 注意力机制:使用多头潜在注意力(Multi-head Latent Attention),隐藏维度 2048,支持 32 头注意力,高效处理长序列依赖关系。
- SwiGLU 激活函数:采用 SwiGLU 作为非线性激活,结合 129K 词表大小,提升模型表达能力和训练稳定性。
JoyAI-LLM-Flash的项目地址
HuggingFace模型库:https://huggingface.co/jdopensource/JoyAI-LLM-Flash
JoyAI-LLM-Flash的应用场景
- 端侧高效推理:激活参数仅 3B,适合部署在手机、IoT 设备等资源受限的端侧场景,实现本地化 AI 助手。
- 智能客服系统:支持 128K 超长上下文,可处理复杂多轮对话,适用于电商、金融等领域的大规模客服自动化。
- 代码辅助开发:擅长逻辑推理与代码生成,可为开发者提供实时代码补全、Bug 修复及技术文档解读。
- 企业级 Agent 平台:针对智能体交互优化,支持任务规划、工具调用及多步骤推理,适用于 RPA、自动化办公等场景。
- 长文档处理:128K 上下文能力支持论文分析、合同审查、研报总结等需要处理大量文本的专业场景。
- 内容创作辅助:基于 20 万亿 Token 预训练,可辅助撰写营销文案、产品描述、新闻稿件等商业内容。
-
Teamily AI – AI原生即时通讯平台,实现人机共生协作
Teamily AI是什么Teamily AI 是南加州大学团队推出的全球首个AI原生即时通讯平台。平台将AI智能体作为”群成员”融入人类社交圈,在家庭、朋友、社区、工作四大场景中实现人机共生协作。A
-
Seedream 5.0 Lite – 字节跳动推出的AI图像创作模型
Seedream 5.0 Lite是什么Seedream 5.0 Lite 是字节跳动 Seed 团队推出的新一代智能图像创作模型。相比Seedream 4.0,模型在理解、推理和生成方面全面提升,采
-
Qwen3.5 – 阿里通义千问开源的新一代原生多模态大模型
Qwen3.5是什么Qwen3.5是阿里巴巴通义千问团队正式发布并开源的新一代原生多模态大模型。首发开源版本Qwen3.5-397B-A17B采用创新的混合架构,将线性注意力(Gated Delta
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
关注网络尖刀微信公众号随时掌握互联网精彩







