马斯克的Grok3实测翻车!无法回答9.11和9.9哪个大
北京时间 2 月 18 日,马斯克与 xAI 团队,在直播中正式发布了 Grok 最新版本 Grok3。早在本次发布会之前,依靠着种种相关信息的抛出,加上马斯克本人 24/7 不间断的预热炒作,让全球对 Grok3 的期待值被拉到了空前的程度。在一周前,马斯克在直播中评论 DeepSeek R1 时,还信心满满地表示「xAI 即将推出更优秀的 AI 模型」。从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称 Grok 3 未来将用于 SpaceX 火星任务计算,并预测「三年内将实现诺贝尔奖级别突破」。
但这些目前都只是马斯克的一家之言。笔者在发布后,就测试了最新的 Beta 版 Grok3,并提出了那个经典的用来刁难大模型的问题:「9.11 与 9.9 哪个大?」遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的 Grok3,仍然无法正确回答这个问题。

在这个测试发出之后,很短的时间内迅速引发了不少朋友的关注,无独有偶,在海外也有很多类似问题的测试,例如「比萨斜塔上两个球哪个先落下」这些基础物理/数学问题,Grok3 也被发现仍然无法应对。因此被戏称为「天才不愿意回答简单问题」。

除了网友自发测试的这些基础知识上 Grok3 出现了翻车,在 xAI 发布会直播中,马斯克演示使用 Grok3 来分析他号称经常玩的 Path of Exile 2 (流放之路 2) 对应的职业与升华效果,但实际上 Grok3 给出的对应答案绝大部分都是错误的。直播中的马斯克并没有看出这个明显的问题。

因此这个失误不仅成为了海外网友再次嘲讽马斯克打游戏「找代练」的实锤证据,同时也为 Grok3 在实际应用中的可靠性,再次打上了一个大大的问号。
虽然在分数上,Grok3 超过了目前公开测试的所有模型,但这一点并不被很多人买账:毕竟 xAI 在 Grok2 时代就有在这个榜单中「刷分」,随着榜单对回答长度风格做降权处理而大幅降低分数的情况,因此经常被业内人士诟病「高分低能」。
-
马斯克点赞王力宏演唱会机器人表演 王力宏回应
近日,在王力宏成都演唱会上,6台国产宇树科技人形机器人登台,完成全球首个机器人群体舞蹈首秀。现场,6台机器人与王力宏及人类伴舞团队动作完全一致,包括手臂挥舞、腿部踢踏、转身跳跃等复杂动作,精准复刻编舞
-
马斯克推出AI百科全书Grokipedia
美国科技亿万富翁埃隆·马斯克周一推出了AI驱动的在线百科全书Grokipedia,旨在替代主流的百科全书维基百科。Grokipedia.com于当天下午低调上线,目前版本为v0.1。该网站在风格与结构
-
SpaceX取消星舰第十次试飞
当地时间24日傍晚,美国太空探索技术公司(SpaceX)宣布取消原计划当日进行的“星舰”第十次试飞任务,原因是地面系统(指发射台及其周边支持起飞的基础设施)出现问题。该公司并未透露何时将再次尝试发射。
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
关注网络尖刀微信公众号随时掌握互联网精彩

![何丹彤 假期结束啦[泪]得认真工作啦!](https://imgs.knowsafe.com:8087/img/aideep/2022/1/9/c4e53e03647cac90dd8d9356242a7822.jpg?w=250)





