vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/
vLLM 是一个快速且易于使用的库,专为大型语言模型 (LLM) 的推理和部署而设计。
vLLM 的核心特性包括:
最先进的服务吞吐量
使用 PagedAttention 高效管理注意力键和值的内存
连续批处理传入请求
使用 CUDA/HIP 图实现快速执行模型
量化: GPTQ, AWQ, INT4, INT8, 和 FP8
优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成
推测性解码
分块预填充
vLLM 的灵活性和易用性体现在以下方面:
无缝集成流行的 HuggingFace 模型
具有高吞吐量服务以及各种解码算法,包括并行采样、束搜索等
支持张量并行和流水线并行的分布式推理
流式输出
提供与 OpenAI 兼容的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron
前缀缓存支持
支持多 LoRA
欲了解更多信息,请参阅以下内容:
使用 CoreWeave 的 Tensorizer 加载模型
内容中包含的图片若涉及版权问题,请及时与我们联系删除