IT之家 01月20日
AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一项最新研究表明,尽管人工智能在编码等任务中表现出色,但在应对高级历史考试时仍显不足。研究团队使用“Hist-LLM”基准测试工具,对GPT-4、Llama和Gemini三大模型进行测试,结果显示,即使是表现最佳的GPT-4 Turbo,准确率也仅为46%,与随机猜测相差无几。研究指出,大型语言模型虽然擅长处理基本事实,但缺乏对高级历史知识的深度理解,尤其在技术性历史问题和冷门知识方面表现不佳。此外,研究还发现模型在撒哈拉以南非洲等地区的表现更差,暗示训练数据可能存在偏见。尽管如此,研究人员对LLMs在未来辅助历史研究的前景仍持乐观态度。

🧐 研究表明,大型语言模型(LLMs)在高级历史考试中表现不佳,即使是顶尖模型GPT-4 Turbo的准确率也仅为46%,远低于人类专家水平。

📚 LLMs擅长处理基本事实,但在面对更复杂、博士级别的历史研究时,尤其在技术性历史问题和冷门知识方面,难以提供准确答案。例如,对古埃及鳞甲和常备军的提问就出现了错误。

🌍 研究发现,LLMs在撒哈拉以南非洲等地区的表现更差,这表明其训练数据可能存在偏见,需要更多来自代表性不足地区的数据进行训练。

🛠️ 研究团队开发了名为“Hist-LLM”的基准测试工具,并计划通过纳入更多数据和增加复杂问题来改进它,以更好地测试和提升LLMs在历史领域的表现。

IT之家 1 月 20 日消息,尽管人工智能(AI)在编码等任务中表现出色,但一项最新研究发现,AI 在应对高级历史考试时仍显得力不从心。

这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具,其根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。

研究结果于上月在知名 AI 会议 NeurIPS 上公布,结果显示,即使是表现最佳的 GPT-4 Turbo 模型,其准确率也仅为 46%,并不比随机猜测高多少。

论文合著者、伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示:“这项研究的主要结论是,尽管 LLMs 令人印象深刻,但它们仍缺乏对高级历史知识的深度理解。它们擅长处理基本事实,但在面对更复杂、博士级别的历史研究时,仍无法胜任。”

IT之家注意到,研究人员分享了一些 LLMs 答错的历史问题示例。例如,当被问及古埃及某一特定时期是否存在鳞甲时,GPT-4 Turbo 给出了肯定的回答,但实际上,这种技术是在 1500 年后才出现在埃及的。del Rio-Chanona 解释说,LLMs 在处理技术性历史问题时表现不佳,可能是因为它们倾向于从非常突出的历史数据中推断,而难以检索到更冷门的历史知识。

另一个例子是,研究人员询问 GPT-4 古埃及在某一历史时期是否拥有职业常备军。正确答案是否定的,但 LLM 却错误地回答“有”。del Rio-Chanona 认为,这可能是因为关于其他古代帝国(如波斯)拥有常备军的公开信息较多,而古埃及的相关信息较少。“如果你被反复告知 A 和 B,而 C 只被提到一次,当你被问及 C 时,你可能会只记得 A 和 B,并试图从中推断。”她解释道。

研究还发现,OpenAI 和 Llama 模型在撒哈拉以南非洲等地区的表现更差,这表明其训练数据可能存在偏见。研究负责人、CSH 研究员 Peter Turchin 表示,这些结果表明,在某些领域,LLMs 仍无法替代人类。

尽管如此,研究人员对 LLMs 在未来辅助历史研究的前景仍持乐观态度。他们正在通过纳入更多来自代表性不足地区的数据和增加更复杂的问题来改进基准测试工具。论文总结道:“总体而言,尽管我们的结果突显了 LLMs 需要改进的领域,但它们也强调了这些模型在历史研究中的潜力。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 大型语言模型 历史研究 基准测试 知识偏差
相关文章