热点
"模型评测" 相关文章
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
智源社区 2025-05-31T10:43:30.000000Z
不吹不黑,9道题实测DeepSeek-R1-0528的小更新
机器学习初学者 2025-05-30T05:32:11.000000Z
可灵2.1刚刚上线,价格降了65%,更快、更听话、也更强。
数字生命卡兹克 2025-05-29T04:17:39.000000Z
Qwen3 X ModelScope工具链: 飞速训练 + 全面评测
魔搭ModelScope社区 2025-05-08T07:58:15.000000Z
Personal evaluation of LLMs, through chess
少点错误 2025-04-24T07:17:54.000000Z
2025.4 海外LLM 的一个实际案例benchmark
孔某人的低维认知 2025-04-19T07:01:53.000000Z
实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实
36kr-科技 2025-04-18T12:18:59.000000Z
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
量子位 2025-02-24T01:13:50.000000Z
RWKV-7 2.9B 开源发布!纯 RNN 无 KV cache,支持世界所有语言
魔搭ModelScope社区 2025-02-14T17:02:47.000000Z
R1类模型推理能力评测手把手实战
魔搭ModelScope社区 2025-02-14T17:02:47.000000Z
被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估
智源社区 2025-02-13T09:33:15.000000Z
RWKV-7 1.5B 基底模型发布,我们必将能在手机高效跑1T参数模型
RWKV元始智能 2025-01-30T16:20:28.000000Z
InternLM3开源发布!4T数据达到18T效果,成本省75%,首度融合深度思考与对话能力!
魔搭ModelScope社区 2025-01-16T16:15:43.000000Z
魔搭开源P-MMEval数据集,面向大模型的多语言平行评测集
魔搭ModelScope社区 2024-12-12T09:00:42.000000Z
OpenAI最强竞对Anthropic:正确的大模型评测应该是怎样的?
虎嗅 2024-11-20T07:38:03.000000Z
RWKV-6-World-7B-v3 模型正式开源发布,新增 3.1T 训练数据
RWKV元始智能 2024-11-16T14:30:55.000000Z
AI纪元大评测:OCR技术哪家强?
少数派-AI 2024-11-07T08:32:20.000000Z
RWKV-6-World 14B正式开源发布,迄今最强的稠密纯RNN大语言模型
RWKV元始智能 2024-10-28T00:09:59.000000Z
社区供稿|还在 GPT-4o 进行评测么?快来试试开源评价大模型 CompassJudger
智源社区 2024-10-25T03:23:45.000000Z
智源研究院推出全球首个包含文生视频的模型对战评测服务
智源研究院 2024-10-24T17:00:57.000000Z