热门资讯

OpenAI开启调查：GPT-4o及4o-mini模型性能下降

互联网来源：快科技 2025-01-20 15:50:51

据报道，OpenAI发布事故报告指出，当前遭遇GPT-4o和4o-mini模型性能下降问题，目前正在进行调查，并将尽快发布最新消息。

近期，科研人员创新性地推出了一项名为LONGPROC的基准测试工具，该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。

实验结果略显意外：包括GPT-4o在内的众多顶尖模型，虽然在常规长上下文回忆基准测试中表现优异，但在应对复杂的长文本生成任务时，仍暴露出显著的改进需求。

具体而言，尽管所有参测模型均宣称其上下文窗口大小超过32K tokens，但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态，而诸如GPT-4o等闭源模型，在应对8K tokens任务时性能也明显下滑。

以GPT-4o为例，在要求其生成详细旅行规划的任务中，即便提供了明确的时间节点和直飞航班信息，模型的输出结果中仍出现了不存在的航班信息，即产生了“幻觉”现象。

实验进一步揭示，即便是最前沿的模型，在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中，即便是参数庞大的先进模型也未能幸免于难，这或许预示着未来大型语言模型（LLM）研究的一个极具潜力的方向。

延伸阅读

MiniMax冲击港股阿里米哈游腾讯加持

央广网报道，通用人工智能公司MiniMax（稀宇科技）今日已通过港交所上市聆讯，有望成为从成立到完成IPO历时最短的AI企业。据悉，截至2025年9月30日，MiniMax持有现金结余10.46亿美元
年仅27岁出任腾讯AI首席科学家：高考数学睡觉错失全省第一

据媒体报道，近日，年仅27岁的姚顺雨出任腾讯AI首席科学家。腾讯升级大模型研发架构，新成立AI Infra部、AI Data部、数据计算平台部，全面强化其大模型的研发体系与核心能力。而姚顺雨出任“CE
OpenAI正式发布GPT-5.2！更实用：做表格、写PPT、敲代码等生产力大增

今天凌晨，OpenAI正式推出新一代大模型GPT-5.2，付费用户端及API同步开放。此举距上一代GPT-5.1发布不足一月，背后是谷歌Gemini 3引发的“红色警报”竞争压力——OpenAI此前紧

关注公众号：拾黑（shiheibook）了解更多

友情链接：

*文章为作者独立观点，不代表文娱排行榜立场

本文由赵一曼发表，转载此文章须经作者同意，并请附上出处( 文娱排行榜 )及本页链接。

原文链接 https ://www.yaorank.com/news/net/31599.html

OpenAI GPT-4o 4o-mini LONGPROC