Ling-1T – 蚂蚁集团开源的大型语言模型

业界 来源:AI工具集 2025-10-11 05:04:16

Ling-1T是什么

Ling-1T 是蚂蚁集团开源的万亿参数语言模型,定位为“旗舰级非思考模型”。基于 MoE(Mixture of Experts)架构,拥有 1 万亿参数,每次推理激活约 510 亿参数,支持 128K 上下文长度,适合处理长文档任务。Ling-1T 专注于在有限的输出 token 下直接给出高质量的推理结果,推理效率极高。模型在编程、数学推理、知识理解、创意写作等任务中表现出色,处于开源模型的第一梯队。

Ling-1T的主要功能

  • 高效推理:在有限的输出 token 下直接给出高质量的推理结果,推理效率极高,适合快速解决问题。
  • 长文本处理:支持 128K 上下文长度,能处理长文档任务,适合法律、金融、科研等领域的复杂推理。
  • 创意写作:模型能生成富有创意的文案、剧本、诗歌等,满足内容营销、广告文案创作等需求。
  • 多语言支持:支持处理英文等其他语言的任务,具备一定的多语言能力。
  • 多任务能力:在编程辅助、数学解题、知识问答、多轮对话等任务中表现出色,能生成高质量的代码和设计。
  • 应用集成:支持集成到各种工具中,如支付软件、理财助手、健康助手等,提升智能化水平。

Ling-1T的技术原理

  • MoE 架构:基于 Mixture of Experts(MoE)架构,总参数量为 1 万亿,包含 256 个专家。每次推理仅激活约 510 亿参数,显著降低推理成本,同时保持高性能。前几层使用密集结构(Dense),后面切换到 MoE,降低浅层网络的负载不均衡。

  • 高推理密度语料:用超过 20T+ token 的高质量、高推理密度语料进行预训练,确保模型具备强大的逻辑密度和思维深度。预训练分为三个阶段:

    • Pretrain Stage 1:10T 高知识密度语料。

    • Pretrain Stage 2:10T 高推理密度语料。

    • Mid-training:扩展上下文到 128K,加入思维链语料。

  • 高效训练:全程使用 FP8 精度训练,相比 BF16,FP8 能显著节省显存、提升训练速度,且在 1T token 的对比实验中,Loss 偏差仅为 0.1%。

  • LPO 优化:用 Linguistics-Unit Policy Optimization(LPO)方法,以句子为优化单元,更符合语义逻辑,提升模型的推理能力和生成质量。

Ling-1T的项目地址

  • HuggingFace模型库:https://huggingface.co/inclusionAI/Ling-1T

Ling-1T的应用场景

  • 编程辅助:模型能生成高质量的代码片段,帮助开发者快速实现功能,提升编程效率。
  • 数学解题:在数学推理和解题方面表现出色,支持辅助解决复杂的数学问题,如竞赛题目等。
  • 知识问答:模型具备强大的知识理解能力,能准确回答各种知识性问题,提供可靠的信息。
  • 创意写作:模型能生成富有创意的文案、剧本、诗歌等,满足内容创作和广告文案的需求。
延伸阅读
  • Doubao-Seed-Code – 字节跳动推出的AI编程模型

    Doubao-Seed-Code是什么Doubao-Seed-Code 是字节跳动推出的 AI 编程模型,专为 Agentic 编程任务优化。模型支持 256K 长上下文,可处理复杂代码场景,具备视觉

  • DeepEyesV2 – 小红书开源的多模态智能体模型

    DeepEyesV2是什么DeepEyesV2 是小红书团队推出的多模态智能体模型,通过两阶段训练法实现强大的工具调用和多模态推理能力。模型能理解图文信息,支持主动调用代码执行、网络搜索等外部工具,将

  • SenseNova-SI – 商汤开源的空间智能大模型

    SenseNova-SI是什么SenseNova-SI 是商汤开源的空间智能大模型,专注于提升空间智能。模型通过大规模、高质量的空间数据训练,显著增强模型在空间测量、关系理解、视角转换等核心维度的能力

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

图库
公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接