马斯克的Grok3实测翻车!无法回答9.11和9.9哪个大
北京时间 2 月 18 日,马斯克与 xAI 团队,在直播中正式发布了 Grok 最新版本 Grok3。早在本次发布会之前,依靠着种种相关信息的抛出,加上马斯克本人 24/7 不间断的预热炒作,让全球对 Grok3 的期待值被拉到了空前的程度。在一周前,马斯克在直播中评论 DeepSeek R1 时,还信心满满地表示「xAI 即将推出更优秀的 AI 模型」。从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称 Grok 3 未来将用于 SpaceX 火星任务计算,并预测「三年内将实现诺贝尔奖级别突破」。
但这些目前都只是马斯克的一家之言。笔者在发布后,就测试了最新的 Beta 版 Grok3,并提出了那个经典的用来刁难大模型的问题:「9.11 与 9.9 哪个大?」遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的 Grok3,仍然无法正确回答这个问题。
在这个测试发出之后,很短的时间内迅速引发了不少朋友的关注,无独有偶,在海外也有很多类似问题的测试,例如「比萨斜塔上两个球哪个先落下」这些基础物理/数学问题,Grok3 也被发现仍然无法应对。因此被戏称为「天才不愿意回答简单问题」。
除了网友自发测试的这些基础知识上 Grok3 出现了翻车,在 xAI 发布会直播中,马斯克演示使用 Grok3 来分析他号称经常玩的 Path of Exile 2 (流放之路 2) 对应的职业与升华效果,但实际上 Grok3 给出的对应答案绝大部分都是错误的。直播中的马斯克并没有看出这个明显的问题。
因此这个失误不仅成为了海外网友再次嘲讽马斯克打游戏「找代练」的实锤证据,同时也为 Grok3 在实际应用中的可靠性,再次打上了一个大大的问号。
虽然在分数上,Grok3 超过了目前公开测试的所有模型,但这一点并不被很多人买账:毕竟 xAI 在 Grok2 时代就有在这个榜单中「刷分」,随着榜单对回答长度风格做降权处理而大幅降低分数的情况,因此经常被业内人士诟病「高分低能」。
-
马斯克团队直播发布Grok3 中国95后小伙坐C位
据媒体综合报道,昨日中午,马斯克的人工智能初创公司xAI通过直播形式,正式揭晓了其最新研发的人工智能大模型——Grok3。引人瞩目的是,在直播画面中,一位来自中国杭州的95后青年吴宇怀坐在了C位,而马
-
马斯克发布Grok 3:秒杀GPT 超越DeepSeek
如约,今天中午12点,马斯克旗下xAI公司正式发布新一代大模型Grok 3。此前,他公开表示,Grok 3是“地球上最聪明的AI”,具有极强推理能力,在迄今为止所做的测试中,其表现优于我们所知的任何已
-
马斯克974亿收购计划落空!OpenAI董事会坚决说‘不’
据央视报道,当地时间2月14日,ChatGPT开发商美国开放人工智能研究中心(OpenAI)董事会一致拒绝了马斯克提出的以974亿美元收购该公司资产的提案。此前,本月10日,一个由马斯克领导的财团宣布
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/