热点
"预训练" 相关文章
Qwen3术语解密:读懂大模型黑话
掘金 人工智能 2025-04-30T02:23:00.000000Z
52 页 PPT,谷歌 Gemini 预训练负责人首次揭秘!扩展定律最优解
掘金 人工智能 2025-04-29T03:22:54.000000Z
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
机器之心 2025-04-28T12:06:15.000000Z
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
掘金 人工智能 2025-04-28T10:47:55.000000Z
Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用
智源社区 2025-04-23T11:58:50.000000Z
《AI 的下半场》 最近非常重要的一篇文章 来自一线的 OpenAI 的 Agent 研究员 yaoshunyu 文中提出了一些反共识的 Inshgts: - 强化学习最重要的不是算法,而是先...
AI探索站 - 即刻圈子 2025-04-20T05:14:00.000000Z
NVIDIA Introduces CLIMB: A Framework for Iterative Data Mixture Optimization in Language Model Pretraining
MarkTechPost@AI 2025-04-19T21:15:38.000000Z
Model Performance Begins with Data: Researchers from Ai2 Release DataDecide—A Benchmark Suite to Understand Pretraining Data Impact Across 30K LLM Checkpoints
MarkTechPost@AI 2025-04-17T06:30:36.000000Z
如何去掉GRPO的长度bias?Sea AI Lab提出全新优化方法,有效提升令牌效率和推理性能
PaperWeekly 2025-04-16T13:17:42.000000Z
Reflection Begins in Pre-Training: Essential AI Researchers Demonstrate Early Emergence of Reflective Reasoning in LLMs Using Adversarial Datasets
MarkTechPost@AI 2025-04-15T06:12:34.000000Z
NVIDIA A Releases Introduce UltraLong-8B: A Series of Ultra-Long Context Language Models Designed to Process Extensive Sequences of Text (up to 1M, 2M, and 4M tokens)
MarkTechPost@AI 2025-04-13T04:10:29.000000Z
预训练还没终结!港中文清华等提出「三位一体」框架,持续自我进化
新智元 2025-04-10T16:16:42.000000Z
张小珺对谈李广密:Q1 AGI热点回顾,非共识下什么才是AGI的主线?
Founder Park 2025-04-09T10:53:11.000000Z
解密prompt系列51. R1实验的一些细节讨论
掘金 人工智能 2025-04-02T23:42:45.000000Z
揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
机器之心 2025-03-22T08:10:48.000000Z
大模型训练或无需“纯净数据”!北大团队新研究:随机噪声影响有限,新方法让模型更抗噪
智源社区 2025-02-28T10:07:25.000000Z
GPT-4.5发布会全程回放:如何在顶级AI模型竞争中脱颖而出?功能与价格深度分析
Cnbeta 2025-02-28T01:51:57.000000Z
测试「天下最聪明」的 Grok3:它真的是模型边际效应的终点吗?
极客公园官网 2025-02-24T01:16:21.000000Z
Grok 3用20萬GPU幫AI界做了個實驗:Scaling Law沒撞牆,但預訓練不一定
富途牛牛头条 2025-02-20T00:49:47.000000Z
Grok 3用20万GPU帮AI界做了个实验:Scaling Law没撞墙,但预训练不一定
华尔街见闻 2025-02-20T00:24:46.000000Z