热点
关于我们
xx
xx
"
GPU推理
" 相关文章
Andrej Karpathy 盛赞!斯坦福团队新作,让Llama-1B 实现毫秒级推理
AI科技评论
2025-05-28T11:58:10.000000Z
模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
机器之心
2025-04-28T12:06:15.000000Z
70%大小,100%准确,完美压缩LLM性能0损失,推理速度最高飙升39倍
36kr-科技
2025-04-28T02:17:26.000000Z
70% 大小,100% 准确!完美压缩 LLM 性能 0 损失,推理速度最高飙升 39 倍
掘金 人工智能
2025-04-27T06:22:53.000000Z
适用于GPU资源受限的部署环境,研究人员提出AI模型无损压缩框架,压缩率达70%
DeepTech深科技
2025-04-22T11:24:17.000000Z
从零实现极速LLM推理
OneFlow
2025-04-09T10:05:55.000000Z
ModernBERT-base:终于等到了 BERT 回归
魔搭ModelScope社区
2024-12-26T13:46:42.000000Z
从零实现极速LLM推理
OneFlow
2024-12-21T10:37:22.000000Z
Neural Magic Releases 2:4 Sparse Llama 3.1 8B: Smaller Models for Efficient GPU Inference
MarkTechPost@AI
2024-11-25T17:50:01.000000Z