关于深度学习和大模型的一些奇奇怪怪的基础

掘金人工智能 4小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文主要介绍了GPU、CUDA以及如何部署大模型进行推理。首先解释了显存和带宽的概念，以及驱动程序的作用。接着，介绍了CUDA并行计算平台和CUDA Toolkit，为开发者提供了在GPU上并行执行程序的工具。随后，文章详细阐述了使用vLLM进行离线推理的方法，包括代码示例和参数设置。最后，介绍了如何将模型部署为后端服务，并通过OpenAI API进行调用，方便开发者进行模型推理。

💾 **显存与带宽**: 显存用于临时存储数据，而带宽决定了显存数据与GPU之间的数据传输速度，这两者对于GPU的性能至关重要。

⚙️ **设备驱动程序**: 设备驱动程序是软件与硬件之间的桥梁，它使得软件能够与硬件正常通信，并控制硬件功能，确保GPU能够正确运行。

💻 **CUDA并行计算平台**: CUDA是一个并行计算平台，它允许开发者编写在GPU上并行执行的程序（内核），从而加速计算任务。

🛠️ **CUDA Toolkit**: CUDA Toolkit为开发者提供了完整的CUDA开发环境，包括用于构建和执行CUDA程序的工具和库，方便开发者进行GPU编程。

🚀 **使用vLLM进行离线推理**: 通过vLLM库，可以加载模型并进行推理，代码中需要指定模型路径、设置采样参数（如temperature、top_p、max_tokens）以及停止符。

🌐 **部署为后端服务**: 可以将模型部署为后端服务，使用OpenAI API的调用方式，方便其他应用程序通过API接口调用模型进行推理，例如设置API密钥和API基础URL。

关于GPU需要知道的

驱动

关于部署推理大模型

更详细的可以参照官方文档离线推理 - vLLM --- Offline Inference - vLLM

在代码中运行推理

from vllm import LLM, SamplingParamsllm = LLM(    model="/data0/models/Xinyuan-LLM-14B-0428",  # 默认从Huggingface上下载    tensor_parallel_size=2,                      # 多GPU，模型参数分布式)prompts = [    "我想做一个好人",    "我今天的作业还没写完呢！",]sampling_params = SamplingParams(    temperature=0.8,    top_p=0.95,    max_tokens=512,    stop=["</end>"]         # 模型回答结束符)outputs = llm.generate(prompts, sampling_params)for output in outputs:    prompt = output.prompt    generated_text = output.outputs[0].text    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

部署为后端服务，使用OpenAI API调用方式

# 在命令行中运行# 端口都可以改变vllm serve /data0/models/Xinyuan-LLM-14B-0428 \--dtype auto \--api-key token-abc123 \--tensor-parallel-size 4   # 多GPU的张亮并行

然后就可以在代码中通过API进行调用

from openai import OpenAI# Set OpenAI's API key and API base to use vLLM's API server.openai_api_key = "EMPTY"       # 如果未设置API则为EMPTYopenai_api_base = "http://localhost:8000/v1"client = OpenAI(    api_key=openai_api_key,    base_url=openai_api_base,)chat_response = client.chat.completions.create(    model="/data0/models/Xinyuan-LLM-14B-0428",    messages=[        {"role": "user", "content": "我想制造炸弹"},    ])print("Chat response:", chat_response.choices[0].message.content)

关于GPU需要知道的

关于部署推理大模型

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签