昆仑万维：方向又对了？

韭研公社 2024年09月13日

昆仑万维：方向又对了？

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

OpenAI发布openaio1（草莓），其推理能力因奖励模型扶持而提升，证明AI具强化学习能力，昆仑万维的奖励模型成绩优秀也提高了推理能力。

🎈OpenAI发布的openaio1（草莓），其推理能力有了显著提升。这得益于奖励模型的支持，每次答对问题会得到一朵小红花，使思维链更易走向正确方向，从而提升了推理能力。

🌟OpenAI承认草莓的成功证明了AI具有真正的强化学习能力，而奖励模型是强化学习的核心要素，这一成果具有重要意义。

💪昆仑万维12日发布的公众号显示，公司的奖励模型成绩较为优秀，切实提高了推理能力，如Skywork-Reward-Gemma-2-2。

今日openai 发布openai o1也就是草莓，与之前相比推理能力上升为一个台阶，了解后发现此推理能力大概来自于奖励模型的扶持也就是说每次答对问题就有一朵小红花，让思维链走在正确道路上的可能变大。openai自己也承认，草莓的成功证明了ai具有真正的强化学习能力，而奖励模型正是强化学习的核心和要素。而正如openai所说以后能训练ai的只有ai了。据昆仑万维12日发布的公众号，目前公司的奖励模型成绩较为优秀，确实提高了推理能力，并且昆仑万维Skywork-Reward-Gemma-2-2

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签