OpenAI开启调查:GPT-4o及4o-mini模型性能下降
据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。
近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。
实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。
具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。
以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。
实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。
-
ChatGPT推出任务功能可以设置定时动作 到时间后自动向你发送提醒
ChatGPT 提供的功能还在进化中,最新推出的功能是任务 (Tasks),用户可以借助该功能编排任务然后到特定时间后 ChatGPT 就会主动向你发送提醒。目前任务功能还在测试阶段因此仅面向 Cha
-
AI圈开年首炸:139位中国清北名校天才 创立一家震撼硅谷的企业
据媒体报道,DeepSeek作为开年AI领域的重大突破,以其“国产之光”的新形象震撼了海内外科技界。这家AI创业企业以其独特的团队构成和卓越的技术成就,成为了业界关注的焦点。从公开资料来看,DeepS
-
埃隆马斯克也认为用于训练AI的真实世界数据所剩无几 未来只能靠合成数据
埃隆马斯克的观点与其他人工智能行业专家的观点基本相同,那就是用于训练人工智能模型的真实世界 (区别于机器生成) 数据已经所剩无几。本周埃隆马斯克与 STAGWELL 董事长在 X/Twitter 进行
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
- 台风“贝碧嘉”逼近 上海现紫红色天空 晚8点后所有航班停飞
- 富途:出于谨慎考虑8月6日夜盘交易暂时取消
- 巴菲特再次减持美国银行股票 本月共套现逾30亿美元
- 酷睿i5-12450H+16GB内存!神舟战神Mini电脑1899元到手
- 美元兑人民币汇率2023年7月24日
- 加元兑换人民币汇率2023年7月16日22:15:35
- 87版红楼梦剧组聚餐 宝玉头发全白
- 上海一公司发生杀人案 警方通报
- 张继科500万元借据遭公开 被指用前女友景甜私密片抵赌债
- 台湾口罩记者妹周俞绝美真面目曝光
- 新郎接亲遇22个小孩堵门要红包 霸气场面让人笑趴
- 网易发布俯视角射击游戏新作《Cygnus Enterprises》
随时掌握互联网精彩