热点
关于我们
xx
xx
"
模型能力
" 相关文章
Confirmation bias: A challenge for scalable oversight
cs.AI updates on arXiv.org
2025-07-29T04:21:45.000000Z
AI 的 IMO 2025 成绩这事已经进入叠加态了。 先是 MathArena(一个苏黎世的研究机构)发布了一个结果,说各大 AI 成绩都不怎么样,最好的 Gemini Pro 2.5 也只做...
AI探索站 - 即刻圈子
2025-07-23T01:18:57.000000Z
2025百度云智大会定档8月28日
36氪
2025-07-21T04:55:56.000000Z
每周AI论文速递(250714-250718)
掘金 人工智能
2025-07-19T16:14:09.000000Z
[程序员] Gemini 网页版降智居然是仅通过一句看似毫无关联的提示词实现的,太神奇了,以及 Gemini 网页版降智的解决方案
V2EX
2025-07-18T02:36:00.000000Z
【华福计算机】KIMI K2——尚未到达的通用模型天花板 ,提升点在哪?
韭研公社
2025-07-18T01:05:33.000000Z
Kimi Playground与ModelScope MCP合作,共建更智能的Agent
魔搭ModelScope社区
2025-07-17T12:58:53.000000Z
中信证券:持续看好受益海外算力需求的供应链机会
e公司-快讯
2025-07-16T00:42:45.000000Z
METR: How Does Time Horizon Vary Across Domains?
少点错误
2025-07-14T19:57:33.000000Z
What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning
cs.AI updates on arXiv.org
2025-07-09T04:02:04.000000Z
AI 真会编程还是只会“背题” | Code Bench 专场直播带你洞悉代码能力的真实象限
魔搭ModelScope社区
2025-07-08T06:15:40.000000Z
Claude为一作发表了一篇论文,逐条反击苹果的“大模型推理能力崩溃论”
MIT 科技评论 - 本周热榜
2025-06-18T16:09:17.000000Z
AI的百亿套壳:做船不做柱子
虎嗅
2025-06-17T09:44:00.000000Z
AI 创业者的反思:那些被忽略的「快」与「长」
智源社区
2025-06-11T14:03:31.000000Z
1)25 年上半年市场很热,很像 23 年上半年的市场,但要注意的是 23 年市场热了半年以后,极冷了一年的时间,这波可能不会那么惨,但也很可能之后会接着一个低谷...
即刻AI圈子
2025-04-30T07:29:06.000000Z
万万没想到有这么一天,Open智谱狙击了Close OpenAI
云中江树
2025-04-19T06:55:01.000000Z
理想做AI是动真格的, 基于结构化思维链的深度思考模型发布
理想 TOP2
2025-04-19T06:28:44.000000Z
Can SAE steering reveal sandbagging?
少点错误
2025-04-15T12:42:47.000000Z
全球首届 AI 奥数竞赛,DeepSeekMath 成为 TOP 团队的共同选择
DeepSeek
2025-04-09T10:06:05.000000Z
prompt写的长好还是写的短好?
Prompt黑匣子
2025-04-09T09:54:24.000000Z