大模型评测_Fishai

热点

"大模型评测" 相关文章

J1-Bench | 首个面向法律智能体的动态交互评测环境

智源社区 2025-07-31T00:53:12.000000Z

GLM-4.5发布，全网最全测评和使用教程来了！

Datawhale 2025-07-30T12:27:00.000000Z

GLM-4.5发布，全网最全测评和使用教程来了！

机器学习初学者 2025-07-29T23:59:24.000000Z

EvaLearn：AI下半场的全新评测范式！

机器之心 2025-07-28T17:03:21.000000Z

GPT-5实锤，悄悄上线代号「龙虾」！版本号曝光，实测编程惊人能改屎山代码

新智元 2025-07-26T14:00:25.000000Z

AI也怕压力大？REST多题评测挑战推理极限，DeepSeek性能暴跌近30%

PaperWeekly 2025-07-26T10:20:59.000000Z

DeepSeek、千问、混元、文心、Kimi与智谱，六大国产大模型，谁是最强“金融分析师”？

36氪 - AI相关文章 2025-07-21T03:24:26.000000Z

2025 IMO真题撕碎AI数学神话，全球顶尖模型齐翻车！冠军铜牌都拿不到

新智元 2025-07-18T09:43:55.000000Z

唯一能做对「5位数字密码推理」的国产大模型出现了

夕小瑶科技说 2025-06-22T05:04:10.000000Z

我花了2天，找到了我觉得翻译质量最好的AI大模型。

数字生命卡兹克 2025-03-13T04:59:38.000000Z

DeepSeek和OpenAI、xAI、Anthropic哪家强？FlagEval智源评测

智源社区 2025-03-05T14:20:26.000000Z

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

智源社区 2025-03-05T07:41:35.000000Z

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

量子位 2025-03-04T10:09:30.000000Z

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

2025-01-06T07:48:45.000000Z

模型评测不是用来刷榜的，智源要用“辩论赛”的方式找回评测该有的样子

硅星人Pro 2024-12-25T02:55:16.000000Z

模型评测不是用来刷榜的，智源要用“辩论赛”的方式找回评测该有的样子

硅星GenAI 2024-12-23T13:01:05.000000Z

智源研究院“百模”评测结果：字节跳动多项第一大厂AI整体领先

Cnbeta 2024-12-23T06:15:22.000000Z

智源发布FlagEval「百模」评测结果，丈量模型生态变局

机器之心 2024-12-20T10:09:21.000000Z

智源发布FlagEval“百模”评测结果丈量模型生态变局

智源社区 2024-12-20T08:06:56.000000Z

全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉

新智元 2024-12-20T07:01:14.000000Z

Copyright © 2019 FISHAI.All Rights Reserved