OpenAI报告指出GPT-4o和4o-mini模型性能下降,正进行调查。科研人员推出的LONGPROC基准测试显示,包括GPT-4o在内的顶尖模型,在处理长文本生成任务时表现不佳。尽管模型声称支持32K tokens上下文,但在实际测试中,开源模型处理2K tokens即显疲态,GPT-4o在8K tokens任务中也性能下滑。例如,GPT-4o在生成详细旅行规划时,出现了不存在的航班信息,即“幻觉”现象。实验表明,即使是最先进的模型,在生成连贯长文本方面仍有提升空间。这预示着未来大型语言模型研究的一个重要方向。
⚠️OpenAI报告:GPT-4o和4o-mini模型当前存在性能下降问题,正在调查中。
🧪LONGPROC基准测试:该测试工具专门用于评估模型在处理长上下文信息并生成回复的能力,结果显示模型在长文本生成方面存在挑战。
📉模型性能下滑:尽管模型声称上下文窗口大小超过32K tokens,但实际测试中,开源模型处理2K tokens即显疲态,GPT-4o在8K tokens任务中也性能下滑。
✈️“幻觉”现象:GPT-4o在生成旅行规划时,即使提供了明确信息,仍输出了不存在的航班信息,即出现了“幻觉”现象。
📝长文本生成挑战:实验表明,即便最先进的模型,在生成连贯且冗长的内容方面仍有提升空间,这预示着未来大型语言模型(LLM)研究的一个重要方向。
快科技1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。
近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。
实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。
具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。
以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。
实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。
