热点
关于我们
xx
xx
"
数据蒸馏
" 相关文章
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
智源社区
2025-05-28T01:17:54.000000Z
对话 27 岁博导张林峰:模型压缩获 CVPR 满分有点意外,上海交大像我这样年轻老师很多
掘金 人工智能
2025-05-27T11:08:05.000000Z
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
36kr
2025-05-27T03:14:11.000000Z
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
智源社区
2025-05-15T11:03:00.000000Z
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
36kr
2025-05-14T12:14:04.000000Z
CVPR满分论文!一块2080Ti搞定数据蒸馏,GPU占用仅2G
智源社区
2025-03-04T13:37:14.000000Z
CVPR满分论文:一块2080Ti搞定数据蒸馏,GPU占用仅2G,来自上交大“最年轻博导”课题组
智源社区
2025-03-04T06:07:12.000000Z
SiliconCloud x CAMEL:教你用 DeepSeek-R1 蒸馏数学推理数据
硅基流动
2025-02-14T17:14:45.000000Z
好莱坞将Sora拒之门外,视频生成模型还得靠短剧打打样?
36kr-科技
2025-02-10T09:27:44.000000Z
李飞飞团队50美元复刻DeepSeek?其实是基于通义监督微调,我们研究了论文
36kr
2025-02-07T07:48:46.000000Z
DeepSeek的“蒸馏模型”何以超越原创?“常见技术”引发争议
Cnbeta
2025-01-30T07:21:41.000000Z
假的
猫笔刀
2025-01-29T15:40:24.000000Z
编码、数学能力震惊同行,背后“天才少女”获雷军千万年薪offer?关于中国量化巨头的AI大模型,硬核解读来了
36kr-科技
2025-01-01T23:27:55.000000Z
DeepSeek-V3巧取捷径?
36kr-科技
2024-12-30T11:36:55.000000Z