掘金 人工智能 13小时前
Xinference 全面介绍和使用指南
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Xinference是由Xorbits团队开发的一款本地大模型推理和服务框架,旨在简化LLM和Embedding模型的本地部署与使用。它支持Chat、Completion、Embedding、TTS、STT等多种任务,并提供包括Qwen、LLaMA、Whisper等在内的多种模型。核心特性包括支持多模型多任务、一行命令启动、兼容OpenAI的REST API、易用的Web UI以及灵活的分布式部署选项。安装简便,通过pip即可完成,并提供详细的注册和调用接口示例,帮助用户快速上手,实现本地化的AI模型服务。

🌟 Xinference提供了一个用户友好的本地大模型推理和服务框架,让开发者能够像使用数据库一样便捷地部署和调用LLM及Embedding模型,支持包括聊天、文本续写、文本向量化、文本转语音和语音转文本在内的多种AI任务,极大地降低了本地化AI模型部署的技术门槛。

🚀 该框架的核心优势在于其全面的模型支持和便捷的操作方式,它兼容多种主流模型,如ChatGLM、Qwen、LLaMA、Mistral等聊天模型,以及BGE、E5等Embedding模型,并能通过一行命令`xinference-local`快速启动服务,同时提供与OpenAI兼容的REST API,方便集成到现有应用中。

💻 Xinference配备了直观的Web UI,用户可以轻松地添加、管理和清除模型,并支持直接从HuggingFace添加模型,这为模型管理和实验提供了极大的便利性。此外,它还支持在CPU和GPU上运行,以及简易的分布式部署,满足不同硬件环境和规模的需求。

🔧 在安装和使用方面,Xinference提供了清晰的指南,包括依赖项说明、pip安装命令,以及注册Chat和Embedding模型的具体curl示例。用户可以通过简单的API调用或Python SDK来与模型交互,实现文本生成、向量检索等功能,并提供了常见问题的解决方案,确保用户能够顺利使用。

💡 文章还针对不同场景推荐了配置方案,例如初学者可使用CPU搭配bge-small-zh,而构建Chatbot则推荐GPU搭配ChatGLM3或Qwen。此外,还提供了与Langchain-Chatchat集成的多种方式,特别推荐使用本地免费的bge-small-zh模型,实现完全免费、离线可用的知识库构建。

适用对象:初学者、有一定 AI/大模型培训和开发基础的技术人员


一、介绍

Xinference 是由 Xorbits 团队开发的一套 本地大模型推理和服务框架,目标是让你像用数据库一样简单地使用 LLM (大语言模型) 和 Embedding 模型,支持 Chat / Completion / Embedding / TTS / STT 等多种任务。

🤖 模型任务类型说明

类型全称含义与应用
ChatChat Model聊天模型,支持多轮对话记忆,如 ChatGLM、Qwen、LLaMA 等
CompletionText Completion续写模型,适合代码补全、文本生成,如 GPT-J、RWKV
EmbeddingText Embedding文本向量化,用于相似度检索、知识库构建,如 BGE、E5 等
TTSText to Speech文本转语音,将文字转为语音播放,如 Bark、Coqui
STTSpeech to Text语音转文字,用于语音识别,如 Whisper

二、核心特性

1. 支持多模型和多任务

2. 一行命令启动

xinference-local

3. 提供 REST API + OpenAI 符合接口

4. Web UI

5. 分布式和 CPU/GPU 选择


三、安装指南

1. 依赖

2. pip 安装

pip install "xinference[all]"

如果只需基础 REST 接口:

pip install xinference

四、启动 Xinference

xinference-local --log-level=info

启动后访问:

http://127.0.0.1:9997

如看到 Web UI 界面,表明启动成功。


五、注册模型

1. 注册 Chat 模型

curl -X POST http://127.0.0.1:9997/v1/models \  -H "Content-Type: application/json" \  -d '{    "model_name": "qwen:0.5b",    "model_format": "xinference",    "quantization": "q4",    "task": "chat"  }'

2. 注册 Embedding 模型(本地免费推荐)

注册 Embedding 模型前要安装 sentence_transformers 引擎,否则会启动失败。

pip install -U sentence-transformers
curl -X POST http://127.0.0.1:9997/v1/models \  -H "Content-Type: application/json" \  -d '{    "model_name": "bge-base-zh",    "model_format": "xinference",    "model_type": "embedding",    "model_engine": "sentence_transformers"    }'

或使用 HuggingFace 模型(如 bge-base-zh):

curl -X POST http://127.0.0.1:9997/v1/models \  -H "Content-Type: application/json" \  -d '{    "model_name": "bge-base-zh",    "model_format": "huggingface",    "model_path": "BAAI/bge-base-zh",    "task": "embedding",    "engine": "huggingface"  }'

六、调用接口

1. Chat

curl -X POST http://127.0.0.1:9997/v1/chat/completions \  -H "Content-Type: application/json" \  -d '{    "model": "<model_uid>",    "messages": [      {"role": "user", "content": "你好,请自我介绍"}    ]  }'

2. Embedding

curl -X POST http://127.0.0.1:9997/v1/embeddings \  -H "Content-Type: application/json" \  -d '{    "model": "<model_uid>",    "input": ["你好,欢迎使用 Xinference"]  }'


七、Python SDK 使用

from xinference.client import Clientclient = Client("http://127.0.0.1:9997")print(client.list_models())model = client.get_model("qwen-0.5b-chat-xxxx")response = model.chat("你好啊")print(response)

八、常见问题和解决

问题:启动时 cluster not available / 连接被拒

问题:无法接口调用

问题:模型注册失败


九、推荐配置

场景配置说明
初学者CPU + bge-small-zh内存占用小,无 GPU 也能用
资料编目GPU + bge-large-zh适合 FAISS 指向的文档矩阵化
ChatbotGPU + ChatGLM3 / Qwen中文效果优秀,支持多评论区

十、总结

Xinference 是一套高级、用户友好的本地大模型服务框架,适合开发者、培训者、科研人员作为本地方案培训、上线模型调用的重要组件。

它拥有体验好、全能、容易集成的特点,很适合部署到无线环境、文档搜索、自己实验等场景中。


附录:使用 Langchain-Chatchat 搭配免费嵌入模型

方式 1:本地模型(推荐)

EMBEDDING_MODEL=bge-small-zhEMBEDDING_MODEL_API_BASE=http://127.0.0.1:9997/v1

前提是在 Xinference 中注册了 bge-small-zh 模型。

方式 2:HuggingFace API(带 token)

EMBEDDING_MODEL=BAAI/bge-small-zhEMBEDDING_MODEL_API_BASE=https://api-inference.huggingface.co/pipeline/feature-extractionEMBEDDING_MODEL_API_KEY=hf_xxx

方式 3:OpenRouter / DeepSeek 免费接口

EMBEDDING_MODEL=text-embedding-3-smallEMBEDDING_MODEL_API_BASE=https://openrouter.ai/api/v1EMBEDDING_MODEL_API_KEY=sk-xxx

推荐使用本地免费模型,如 bge-small-zh,结合 FAISS 构建知识库,完全免费、离线可用、中文效果好。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Xinference 大模型 推理框架 本地部署 AI服务
相关文章