IT之家 2024年09月11日
Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Reflection70B模型在基准测试中表现不佳,公司称上传模型权重时遇问题,内部模型结果更佳,且新上传模型表现逊于之前,还存在调用其他模型的情况,公司计划发布更大更强的模型。

🎯Reflection70B模型在基准测试中的表现不及Meta的LLaMA-3.1-70B,原因是上传模型权重至HuggingFace时出现问题,使用的权重是多个不同模型的混合体,内部托管的模型显示出更好的结果。

🔑Reflection公司首席执行官马特・舒默向部分用户提供了独家访问内部模型的权限,ArtificialAnalysis重做测试后报告结果优于公开API,但无法确认所访问的具体模型。

🚀Reflection在HuggingFace上传了新的模型,但这些模型在测试中的表现明显不如之前通过私有API提供的模型,且有用户发现ReflectionAPI有时会调用其他模型。

🎉舒默旗下公司OthersideAI计划于本周发布一款基于LLaMA3.1450B的更大、更强大的模型,舒默称其将是最佳开源模型和有史以来最优秀的语言模型。

IT之家 9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B

针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇到问题,所使用的权重是多个不同模型的混合体,而他们内部托管的模型则显示出更佳的结果。

舒默随后向部分用户提供了独家访问内部模型的权限,Artificial Analysis 重做了测试,并报告结果优于公开 API,只是他们无法确认所访问的具体是哪个模型。

Reflection 在 Hugging Face 已上传了新的模型,不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。

IT之家查询公开资料,有用户还发现了证据,表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。

舒默对这一即将发布的版本做出了大胆声明,称其不仅将成为最佳的开源模型,还将是有史以来最优秀的语言模型。

官方回应:

相关阅读:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Reflection70B 基准测试 模型发布 语言模型
相关文章