DeepSeek开源具有671B个参数的新型 AI 模型

业界 来源:SiliconANGLE 2024-12-29 06:15:33

人工智能开发商DeepSeek今天开源了具有6710亿个参数的全新大型语言模型DeepSeek-V3。

LLM 可以生成文本、编写软件代码并执行相关任务。DeepSeek 表示,它在六项基准测试中的表现优于市场上最先进的两款开源 LLM。

DeepSeek-V3 基于所谓的混合专家 (MoE) 架构。它由多个神经网络组成,每个神经网络都针对不同的任务集进行了优化。当 DeepSeek-V3 收到提示时,一个称为路由器的组件会将请求发送到最适合回答该请求的神经网络。

MoE 架构的主要优势在于它降低了硬件成本。向 DeepSeek-V3 发送提示不会激活整个 LLM,而只会激活请求路由到的特定神经网络。每个这样的神经网络都有 340 亿个参数,这意味着它只需要相对有限的基础设施即可运行。

除了其优点之外,MoE 架构也带来了一些挑战。在训练过程中,MoE 模型的某些神经网络会比其他神经网络接收更多的训练数据,这可能会导致 LLM 的输出质量不一致。DeepSeek 表示,它已经开发出一种缓解这一挑战的新方法,并将其应用于 DeepSeek-V3。

LLM 的训练使用了 14.8 万亿个 token 的信息。一个 token 对应几个字母或数字。训练过程耗时 278.8 万个图形处理单元小时,这意味着它使用的基础设施相对较少。业界最先进的 AI 集群拥有数万个或更多的 GPU,可以在几天内完成这样的训练项目。

除了 MoE 架构外,DeepSeek-V3 还配备了多种优化功能,旨在提高其输出质量。 

LLM 使用一种称为注意力的技术来识别句子中最重要的细节。DeepSeek-3 实现了多头潜在注意力,这是该技术的改进版本,允许它从文本片段中提取多次关键细节,而不是仅提取一次。这使得 LLM 不太可能忽略重要信息。 

DeepSeek-V 还具有所谓的多标记预测功能。语言模型通常一次生成一个标记。相比之下,DeepSeek-V3 一次生成多个标记,从而加快了推理速度。

DeepSeek 通过将其算法与其他三款开源 LLM(上一代 DeepSeek-V2、Llama 3.1 405B 和 Qwen2.5 72B)进行比较来测试其算法。DeepSeek-V3 在评估中使用的所有九项编码和数学基准测试中都取得了更高的分数。它在一系列文本处理任务中也表现得更好。 

DeepSeek-V3 的代码可以在Hugging Face上找到。 

延伸阅读
  • 国家队正式下场!DeepSeek上线超算互联网平台

    日前,中国人工智能初创公司DeepSeek火了,不仅在美区下载榜上超越ChatGPT,还引发多个美国科技股的股价暴跌。为了让更多领域的用户切实便捷地开展体验,国家超算互联网平台宣布上线DeepSeek

  • DeepSeek浪潮下Meta股价狂飙!豪取12连涨创历史新高

    令人没想到的是,Meta竟然成为了中国AI新势力DeepSeek引发全球浪潮下美股市场上的“最大赢家”。数据显示,Meta股价在周二收盘再度上涨1%,收报704.19美元,史上首次收盘站上700美元大

  • 郭明錤:台积电将成DeepSeek爆火的最大赢家

    近日,DeepSeek震撼全球市场,天风国际分析师郭明錤对此表示,未来将会出现更多类似DeepSeek的开源模型。且DeepSeek爆红后,将加速端侧AI化,台积电会成为最大受益者。台积电和英伟达均预

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接