新研究表明,随着大型语言模型愈发强大,它们更易编造事实,可靠性降低。该研究发表于《自然》杂志,对OpenAI的GPT、Meta的LLaMA及BigScience创建的BLOOM等模型进行研究,发现虽回答在某些方面更准确,但总体可靠性差,错误答案比例高于旧模型。
🎯大型语言模型虽强大,但存在易编造事实的问题,如OpenAI的GPT、Meta的LLaMA及BigScience的BLOOM等,其回答准确性与可靠性存在矛盾,总体可靠性较差。
📚该研究发表在《自然》杂志上,研究人员发现这些模型在许多情况下回答更准确,但给出错误答案的比例比旧模型更高,反映出其可靠性方面的不足。
💬瓦伦西亚人工智能研究所的研究员José Hernández-Orallo表示,如今模型几乎能回答一切,这意味着更多正确答案的同时,也带来了更多错误答案。
据媒体援引一项新研究表示,随着大型语言模型(LLM)变得越来越强大,它们似乎也越来越容易编造事实,而不是避免或拒绝回答它们无法回答的问题。这表明,这些更聪明的 AI 聊天机器人实际上变得不太可靠。
该研究发表在《自然》杂志上,研究人员研究了一些业界领先的商业 LLM:OpenAI 的 GPT 和 Meta 的 LLaMA,以及由研究小组 BigScience 创建的开源模型 BLOOM。研究发现,虽然这些 LLM 的回答在许多情况下变得更加准确,但总体上可靠性更差,给出错误答案的比例比旧模型更高。
瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández-Orallo 对《自然》杂志表示:“如今,它们几乎可以回答一切。这意味着更多正确的答案,但也意味着更多错误的答案。”