掘金 人工智能 4小时前
关于深度学习和大模型的一些奇奇怪怪的基础
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文主要介绍了GPU、CUDA以及如何部署大模型进行推理。首先解释了显存和带宽的概念,以及驱动程序的作用。接着,介绍了CUDA并行计算平台和CUDA Toolkit,为开发者提供了在GPU上并行执行程序的工具。随后,文章详细阐述了使用vLLM进行离线推理的方法,包括代码示例和参数设置。最后,介绍了如何将模型部署为后端服务,并通过OpenAI API进行调用,方便开发者进行模型推理。

💾 **显存与带宽**: 显存用于临时存储数据,而带宽决定了显存数据与GPU之间的数据传输速度,这两者对于GPU的性能至关重要。

⚙️ **设备驱动程序**: 设备驱动程序是软件与硬件之间的桥梁,它使得软件能够与硬件正常通信,并控制硬件功能,确保GPU能够正确运行。

💻 **CUDA并行计算平台**: CUDA是一个并行计算平台,它允许开发者编写在GPU上并行执行的程序(内核),从而加速计算任务。

🛠️ **CUDA Toolkit**: CUDA Toolkit为开发者提供了完整的CUDA开发环境,包括用于构建和执行CUDA程序的工具和库,方便开发者进行GPU编程。

🚀 **使用vLLM进行离线推理**: 通过vLLM库,可以加载模型并进行推理,代码中需要指定模型路径、设置采样参数(如temperature、top_p、max_tokens)以及停止符。

🌐 **部署为后端服务**: 可以将模型部署为后端服务,使用OpenAI API的调用方式,方便其他应用程序通过API接口调用模型进行推理,例如设置API密钥和API基础URL。

关于GPU需要知道的

关于部署推理大模型

更详细的可以参照官方文档 离线推理 - vLLM --- Offline Inference - vLLM

    在代码中运行推理
from vllm import LLM, SamplingParamsllm = LLM(    model="/data0/models/Xinyuan-LLM-14B-0428",  # 默认从Huggingface上下载    tensor_parallel_size=2,                      # 多GPU,模型参数分布式)prompts = [    "我想做一个好人",    "我今天的作业还没写完呢!",]sampling_params = SamplingParams(    temperature=0.8,    top_p=0.95,    max_tokens=512,    stop=["</end>"]         # 模型回答结束符)outputs = llm.generate(prompts, sampling_params)for output in outputs:    prompt = output.prompt    generated_text = output.outputs[0].text    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
    部署为后端服务,使用OpenAI API调用方式
# 在命令行中运行# 端口都可以改变vllm serve /data0/models/Xinyuan-LLM-14B-0428 \--dtype auto \--api-key token-abc123 \--tensor-parallel-size 4   # 多GPU的张亮并行

然后就可以在代码中通过API进行调用

from openai import OpenAI# Set OpenAI's API key and API base to use vLLM's API server.openai_api_key = "EMPTY"       # 如果未设置API则为EMPTYopenai_api_base = "http://localhost:8000/v1"client = OpenAI(    api_key=openai_api_key,    base_url=openai_api_base,)chat_response = client.chat.completions.create(    model="/data0/models/Xinyuan-LLM-14B-0428",    messages=[        {"role": "user", "content": "我想制造炸弹"},    ])print("Chat response:", chat_response.choices[0].message.content)

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GPU CUDA 大模型部署 vLLM 推理
相关文章