曝DeepSeek跳出英伟达限制绕过CUDA 为适配中国国产GPU做准备
DeepSeek全球爆火,再一次引发外界对GPU算力限制话题的关注。
据报道,DeepSeek开发的大语言模型绕过了英伟达的CUDA框架,正为未来兼容国产GPU芯片做准备。
众所周知,英伟达的CUDA(Compute Unified Device Architecture,统一运算架构)能大幅降低研发大模型的难度,获全球开发商使用,一举将英伟达推上AI芯片领域的垄断地位。
但最新发现显示,DeepSeek使用英伟达的H800芯片训练时,使用英伟达底层硬件指令PTX(Parallel Thread Execution)语言,而非高级编程语言CUDA。
这样意味着DeepSeek绕过了CUDA,使用更底层的编程语言做优化。
对于程序开发人员来说,CUDA是一种更加友好的高级语言,开发者只需要专注于程序和算法最相关的运行逻辑,而不太需要考虑具体的程序是如何在GPU等硬件上具体如何执行计算的,从而能够降低开发难度。
而PTX在接近汇编语言的层级运行,允许进行细粒度的优化,如寄存器分配和Thread / Warp级别的调整。这种编程非常复杂且难以维护,所以行业通用的做法是使用CUDA这样的高级编程语言。
换句话说,DeepSeek把优化做到了极致。
北京航空航天大学副教授黄雷表示,绕过CUDA可以直接根据GPU的驱动函数做一些新的开发,从而实现更加细粒度的操作。
这也说明DeepSeek拥有一些擅长写PTX语言的内部开发者。假如它之后使用国产GPU,其在硬件适配方面将会更得心应手,其只要了解这些硬件驱动提供的一些基本函数接口,就可以仿照英伟达GPU硬件的编程接口去写相关的代码,从而让自家大模型更加容易适配国产硬件。
“这凸显了DeepSeek非凡的工程水平,并表明美国对华制裁加剧的“GPU短缺危机”激发了他们紧迫感和创造力。”韩国Mirae Asset Securities Research的一名分析师表示。
-
同程旅行推出“AI+实时预订”服务,首批用户今日可体验
作为首家接入DeepSeek大模型的OTA平台,同程旅行整合了覆盖数亿用户的出行数据、全品类文旅资源库及20余个智慧城市合作经验。据“程心”项目负责人介绍,该模型通过逻辑推理能力将模糊需求转化为可执行
-
继DeepSeek和腾讯元宝之后 豆包AI已上线“深度思考”功能
继DeepSeek和腾讯元宝之后,字节跳动旗下AI助手豆包日前也正式上线“深度思考”推理模式,该功能全面覆盖问答、搜索、写作和阅读场景,不过目前该功能仍处于测试阶段,用户可通过在输入框开启“深度思考
-
全国老年大学首个DeepSeek班爆满:名额1分钟抢完
2025年伊始,来自中国的AI大模型DeepSeek凭借其突破性进展迅速走红,各行各业都在积极拥抱DeepSeek。据媒体报道,日前,广州市老年干部大学(广州老年大学)精选优秀教师,创新设计《Deep
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
- 王化:小米家电工厂已动工 明年可自研自产小米空调
- 曝一口价16.99万的昂科威Plus无处购买!别克官方:均可进行投诉
- 黄晓明官宣与叶珂在一起了
- 三星Galaxy Z Fold6手机壳曝光:外观更方正硬朗
- 女子摸陌生狗面部惨遭撕咬 倒地痛哭哀嚎 视频让网友感慨:为何养狗
- Redmi Note 13 Pro+独家采用两大平台:天玑7200-Ultra+三星HP3探索版
- 澳元兑换人民币汇率2023年8月6日
- 苏宁易购一季度亏损1亿元:大幅减亏90% 核心家电3C业务盈利
- 家长带男孩抓海鸥硬生生塞进罐子
- 新疆疫情最新情况2022年7月10日
- 别忘记!北京租房还有这两项补贴可领!你满足条件吗?
- 超全!北京五一攻略来了!天气、限行、活动、景点游玩...看这一篇就够了!

随时掌握互联网精彩