原创 SiliconCloud 2025-03-11 19:34 北京
批量推理不受实时推理速率限制的影响。
即刻起,硅基流动 SiliconCloud 平台的 DeepSeek-R1 & V3 API 支持批量推理(Batch Inference)。
用户通过批量 API 发送请求到 SiliconCloud,不受实时推理速率限制的影响,预期可在 24 小时内完成任务。相比实时推理,DeepSeek-V3 批量推理价格直降 50%,其中,3 月 11 日至 3 月 18日,DeepSeek-R1 批量推理优惠价格直降 75%,输入价格为 1 元 / 百万 Tokens、输出价格为 4 元 / 百万 Tokens。
批量推理可帮助用户更高效处理生成报告、数据清洗等大批量数据处理任务,享受更低成本的 DeepSeek-R1 & V3 API 服务,适用于无需实时响应的数据分析、模型性能评估等场景。
API 文档
https://docs.siliconflow.cn/cn/userguide/guides/batch
此前,DeepSeek-R1 & V3 API 已支持 Function Calling、JSON Mode、Prefix、FIM 功能,并且 Pro 版 DeepSeek-R1 & V3 API 的 TPM(每分钟处理的 Token)上限 已从 1 万提升至 100 万。
近期更新
• SiliconCloud上线加速版阿里QWQ-32B
• 硅基流动助力华为小艺接入DeepSeek-R1
• Pro版DeepSeek-R1 & V3 TPM升至100万
• DeepSeek-R1 & V3支持Function Calling
• 硅基流动支持DeepSeek-R1 & V3私有化部署
• 硅基流动上线DeepSeek-R1 & V3企业级服务
让超级产品开发者实现“Token自由”
邀好友用SiliconCloud,狂送2000万Token/人
即刻体验DeepSeek-R1&V3
cloud.siliconflow.cn
扫码加入用户交流群