2025-06-20 20:23 浙江
面壁智能发布的MiniCPM 4.0系列模型通过软硬件稀疏化实现高效创新,支持8B和0.5B两种参数规模。
01
模型介绍
02
内容列表
-环境准备
-模型下载和转换-模型部署
💻环境准备: 部署MiniCPM 4.0模型需要安装Python环境,并使用pip安装openvino-genai、nncf和optimum-intel等相关库。文章提供了具体的安装命令,并列出了已验证的环境配置,包括硬件环境(Intel® Core™ Ultra系列处理器、32GB内存等)和操作系统(Windows 11)。
⬇️模型下载与转换: 在部署前,需要将PyTorch模型转换为OpenVINO™的IR静态图格式,并进行压缩以优化性能。文章介绍了使用Optimum提供的optimum-cli工具进行模型转换和权重量化的方法。用户可以通过指定--model id和量化参数(如--weight-format、--group-size等)来调整转换过程。
🚀模型部署: 推荐使用openvino-genai进行模型部署,它支持Python和C++,安装包小于200MB,并支持流式输出和多种采样策略。文章提供了Python代码示例,展示了如何使用openvino-genai的LLMPipeline加载模型,配置生成参数,并使用streamer函数进行流式输出。同时,还介绍了chat模式的使用方法,以提升运行效率。
2025-06-20 20:23 浙江
面壁智能发布的MiniCPM 4.0系列模型通过软硬件稀疏化实现高效创新,支持8B和0.5B两种参数规模。
01
模型介绍
02
内容列表
-环境准备
-模型下载和转换-模型部署python -m venv py_venv
./py_venv/Scripts/activate.bat
pip install --pre -U openvino-genai --extra-index-url
https://storage.openvinotoolkit.org/simple/wheels/nightly
pip install nncf
pip install git+
该示例在以下环境中已得到验证:
03
第二步,模型下载和转换
optimum-cli export openvino --model <model id> --task text-generation-with-past --weight-format int4 --sym --group-size -1 --backup-precision int8_sym --trust-remote-code <model_dir >
04
第三步,模型部署
import argparse
import openvino_genai
def streamer(subword):
print(subword, end='', flush=True)
# Return flag corresponds whether generation should be stopped.
return openvino_genai.StreamingStatus.RUNNING
def main():
parser = argparse.ArgumentParser()
parser.add_argument('model_dir')
args = parser.parse_args()
device = 'CPU' # GPU can be used as well
pipe = openvino_genai.LLMPipeline(args.model_dir, device)
config = openvino_genai.GenerationConfig()
config.max_new_tokens = 100
pipe.start_chat()
while True:
try:
prompt = input('question:\n')
except EOFError:
break
pipe.generate(prompt, config, streamer)
print('\n----------')
pipe.finish_chat()
if '__main__' == __name__:
main()
05
总结
06
参考资料
👇点击关注ModelScope公众号获取
更多技术信息~
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑