AI基准测试_Fishai

热点

"AI基准测试" 相关文章

GPT-4o Understands Text, But Does It See Clearly? A Benchmarking Study of MFMs on Vision Tasks

MarkTechPost@AI 2025-07-24T06:15:51.000000Z

什么都不做就能得分？智能体基准测试出现大问题

机器之心 2025-07-15T10:58:05.000000Z

xbench评测集正式开源

红杉汇 2025-06-18T01:54:52.000000Z

Agent时代需要新的基准测试：红杉中国推出xbench，量化智能体真实世界生产力

MIT 科技评论 - 本周热榜 2025-05-29T00:06:39.000000Z

Agent时代需要新的基准测试：红杉中国推出xbench，量化智能体真实世界生产力

DeepTech深科技 2025-05-27T12:57:01.000000Z

红杉中国发布xbench 首个由投资机构打造的AI基准测试

Cnbeta 2025-05-26T02:02:31.000000Z

今天，我们推出xbench

红杉汇 2025-05-26T01:06:54.000000Z

曝GPT-4.1下周发布；宇树机器人格斗，1个月内开打｜AI日报

智源社区 2025-04-12T10:42:41.000000Z

斯坦福：2025 AI Index报告中美AI模型差距缩小至0.7%

互联网数据资讯网-199IT 2025-04-09T13:07:09.000000Z

本周 AI Benchmark 方向论文推荐

魔搭ModelScope社区 2025-04-09T10:06:25.000000Z

全球顶级模型集体0分，AI终极大考人类5分钟秒杀！Keras之父戳破AGI神话

智源社区 2025-03-26T05:00:58.000000Z

ARC Prize launches its toughest AI benchmark yet: ARC-AGI-2

AI News 2025-03-25T16:47:24.000000Z

OpenAI research lead Noam Brown thinks certain AI ‘reasoning’ models could’ve arrived decades ago

TechCrunch News 2025-03-20T05:45:58.000000Z

AI公平性测试竟是“表面工程”？科学家用8个评测基准揪出模型隐形偏见

MIT 科技评论 - 本周热榜 2025-03-20T05:11:54.000000Z

OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

IT之家 2025-02-23T01:37:38.000000Z

Did xAI lie about Grok 3’s benchmarks?

TechCrunch News 2025-02-22T23:03:30.000000Z

This Week in AI: Maybe we should ignore AI benchmarks for now

TechCrunch News 2025-02-19T18:48:49.000000Z

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

机器之心 2025-02-17T07:10:30.000000Z

These researchers used NPR Sunday Puzzle questions to benchmark AI ‘reasoning’ models

TechCrunch News 2025-02-16T22:32:31.000000Z

These researchers used NPR Sunday Puzzle questions to benchmark AI ‘reasoning’ models

TechCrunch News 2025-02-06T06:12:36.000000Z

Copyright © 2019 FISHAI.All Rights Reserved