OpenAI开启调查:GPT-4o及4o-mini模型性能下降
据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。
近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。
实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。
具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。
以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。
实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。
-
微软OpenAI即将推出的GPT-4.5和GPT-5模型积极准备服务器容量
有消息透露称,微软的工程师正在全力以赴,为 OpenAI 即将推出的 GPT-4.5和 GPT-5模型准备服务器容量。OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)近日确认,GPT-4
-
谷歌和OpenAI每年向Reddit支付6,000万/7,000万美元用于获取内容授权训练AI
Reddit 论坛此前虽然有众多活跃用户但在财务方面的表现默默无闻,没想到人工智能热潮让 Reddit 也能乘风起飞,因为该论坛拥有海量的真实用户发布的数据。这些可用于人工智能模型训练的数据是个宝库,
-
马斯克974亿收购计划落空!OpenAI董事会坚决说‘不’
据央视报道,当地时间2月14日,ChatGPT开发商美国开放人工智能研究中心(OpenAI)董事会一致拒绝了马斯克提出的以974亿美元收购该公司资产的提案。此前,本月10日,一个由马斯克领导的财团宣布
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

随时掌握互联网精彩