OpenAI的A推理模型有时会用中文"思考" 但没人知道为什么

OpenAI 发布其首个"推理"人工智能模型 o1 后不久，人们开始注意到一个奇怪的现象。该模型有时会开始用中文、波斯语或其他语言进行"思考"--即使被问到的是英语问题。

如果要解决一个问题，例如"'草莓'这个词有几个 R？ - o1 会开始"思考"，通过一系列推理步骤得出答案。如果问题是用英语写的，那么 o1 的最终回答也将是英语。但在得出结论之前，模型会用另一种语言执行一些步骤。

Reddit 上的一位用户说："[O1] 中途随机开始用中文思考。"

另一位用户在 X 上的帖子中问道："为什么 [o1] 突然开始用中文思考？对话的任何部分（5 条以上的信息）都没有使用中文。"

OpenAI 还没有对 o1 的奇怪行为做出解释，甚至也没有承认。那么到底是怎么回事呢？人工智能专家也不清楚。但他们有一些理论。

包括 Hugging Face 首席执行官克莱门特-德朗格（Clément Delangue）在内的一些人在 X 上暗示，像 o1 这样的推理模型是在包含大量汉字的数据集上训练出来的。 Google DeepMind 的研究员 Ted Xiao 声称，包括 OpenAI 在内的公司都使用第三方中文数据标注服务，o1 转用中文是"中文语言对推理的影响"的一个例子。

"[像] OpenAI 和 Anthropic 这样的实验室利用[第三方]数据标签服务来获取科学、数学和编码方面的博士级推理数据，"肖在 X 上的一篇帖子中写道。"由于专家劳动力的可用性和成本原因，这些数据提供商很多都在中国。"

标签也称为标记或注释，有助于模型在训练过程中理解和解释数据。例如，用于训练图像识别模型的标签可以是物体周围的标记，也可以是对图像中描述的每个人、地点或物体的说明。

研究表明，有偏差的标签会产生有偏差的模型。例如，平均注释者更有可能将非裔美国人白话英语（AAVE）（一些美国黑人使用的非正式语法）中的短语标注为有毒，从而导致根据标签训练的人工智能毒性检测器将非裔美国人白话英语视为毒性过高。

不过，其他专家并不相信 o1 中文数据标签的假设。他们指出，o1 同样有可能在找出解决方案的过程中切换到印地语、泰语或中文以外的语言。

这些专家表示，o1 和其他推理模型可能只是使用他们认为最有效的语言来实现目标（或幻觉）。

阿尔伯塔大学的人工智能研究员兼助理教授马修-古兹迪尔（Matthew Guzdial）认为："模型不知道语言是什么，也不知道语言是不同的。对它来说，一切都只是文字。"

事实上，模型并不直接处理文字。它们使用标记来代替。标记可以是单词，如"fantastic"。也可以是音节，如"fan"、"tas"和"tic"。它们甚至可以是单词中的单个字符，如"f"、"a"、"n"、"t"、"a"、"s"、"t"、"i"、"c"。

与标注一样，标记也会带来偏差。例如，尽管并非所有语言都使用空格来分隔单词，但许多单词到标记的翻译器会认为句子中的空格表示一个新单词。

人工智能初创公司Hugging Face的软件工程师王铁真同意古兹迪尔的观点，即推理模型的语言不一致性可能是由模型在训练过程中产生的联想造成的。

"例如，我更喜欢用中文做数学题，因为每个数字都只有一个音节，这样计算起来既简洁又高效。但当涉及到无意识偏见等话题时，我会自动切换到英语，主要是因为这是我最初学习和吸收这些观点的地方。"

王的理论似是而非。毕竟，模型是一种概率机器。通过对许多例子的训练，它们可以学习模式来进行预测，比如电子邮件中"给谁"通常会出现在"可能涉及"之前。

但非营利机构艾伦人工智能研究所（Allen Institute for AI）的研究科学家卢卡-索尔达尼（Luca Soldaini）提醒说，我们还不能确定。"他表示，"由于这些模型的不透明性，这种对已部署的人工智能系统的观察是不可能得到支持的。"这就是为什么人工智能系统构建过程中的透明度至关重要的众多案例之一。"

由于 OpenAI 没有给出答案，我们只能思考为什么 o1 会用法语思考歌曲，而用普通话思考合成生物学。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签