【vLLM 学习】欢迎来到 vLLM!

智源社区 01月03日

【vLLM 学习】欢迎来到 vLLM!

vLLM是专为大语言模型推理加速设计的框架，具有多种核心特性，且灵活易用，支持多种硬件及模型，涵盖诸多方面内容。

🎯vLLM实现KV缓存内存零浪费，解决内存管理问题

💪核心特性众多，如高效管理内存、连续批处理等

🤝灵活性强，无缝集成流行模型，支持多种并行推理

vLLM 是一款专为大语言模型推理加速而设计的框架，实现了 KV 缓存内存几乎零浪费，解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

vLLM 是一个快速且易于使用的库，专为大型语言模型 (LLM) 的推理和部署而设计。

vLLM 的核心特性包括：

最先进的服务吞吐量

使用 PagedAttention 高效管理注意力键和值的内存

连续批处理传入请求

使用 CUDA/HIP 图实现快速执行模型

量化： GPTQ, AWQ, INT4, INT8, 和 FP8

优化的 CUDA 内核，包括与 FlashAttention 和 FlashInfer 的集成

推测性解码

分块预填充

vLLM 的灵活性和易用性体现在以下方面：

无缝集成流行的 HuggingFace 模型

具有高吞吐量服务以及各种解码算法，包括并行采样、束搜索等

支持张量并行和流水线并行的分布式推理

流式输出

提供与 OpenAI 兼容的 API 服务器

支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron

前缀缓存支持

支持多 LoRA

欲了解更多信息，请参阅以下内容：

使用 ROCm 进行安装

使用 OpenVINO 进行安装

使用 CPU 进行安装

使用 Neuron 进行安装

使用 TPU 进行安装

使用 XPU 进行安装

OpenAI 兼容服务器

使用 Docker 部署

分布式推理和服务

使用统计数据收集

使用 CoreWeave 的 Tensorizer 加载模型

兼容性矩阵

常见问题解答

支持的模型

添加新模型

启用多模态输入

使用 LoRA 适配器

在 vLLM 中使用推测性解码

性能和调优

量化内核支持的硬件

FP8 E5M2 KV 缓存

FP8 E4M3 KV 缓存

广义缓存策略

vLLM 的基准套件

vLLM 分页注意力

vLLM 性能分析

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

vLLM 语言模型推理加速

相关文章

Coalition of news publishers sue Microsoft and OpenAI

This AI Paper by Microsoft and Tsinghua University Introduces YOCO: A Decoder-Decoder Architectures for Language Models

OLMo: Everything You Need to Train an Open Source LLM with Akshita Bhagia - #674

Multilingual LLMs and the Values Divide in AI with Sara Hooker - #651

BloombergGPT - an LLM for Finance with David Rosenberg - #639

AI Trends 2023: Reinforcement Learning - RLHF, Robotic Pre-Training, and Offline RL with Sergey Levine - #612

Scaling BERT and GPT for Financial Services with Jennifer Glore - #561

Using Brain Imaging to Improve Neural Networks with Alona Fyshe - #513

Can Language Models Be Too Big? ? with Emily Bender and Margaret Mitchell - #467

Building LLM Agents Using LangChain & OpenAI API