魔搭ModelScope社区 2024年11月05日
现在,一行命令使用Ollama运行任意魔搭GGUF模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Ollama是一个基于llama.cpp的推理框架,能够在CPU、GPU等多种硬件上高效运行GGUF格式的大模型。它与ModelScope社区集成,开发者只需简单命令即可加载和运行ModelScope上的数千个GGUF模型。Ollama支持不同精度的GGUF模型,并允许用户自定义配置参数,提升模型推理的效率和灵活性。开发者可以通过Ollama便捷地访问和使用ModelScope平台上的高质量大模型,加速AI应用的开发和部署。

🚀 **Ollama框架基于llama.cpp构建,支持在多种硬件(CPU、GPU等)上运行GGUF格式的大模型。** Ollama利用llama.cpp高效的模型推理能力,使得开发者能够在不同硬件环境中轻松运行各种大模型,降低了使用门槛。

🔗 **Ollama与ModelScope社区集成,开发者可一键运行ModelScope上的GGUF模型。** ModelScope平台上托管了大量优质的GGUF模型,通过简单的ollama run命令,开发者可以直接加载和运行这些模型,方便快捷地进行模型应用开发。

⚙️ **Ollama支持加载不同精度的GGUF模型,并允许用户自定义配置。** GGUF模型库中通常包含不同精度的模型文件,Ollama默认选择Q4_K_M版本,平衡推理精度、速度和资源消耗。开发者也可以通过命令行参数或Modelfile文件自定义模型版本和推理参数,满足不同场景的需求。

2024-11-05 18:50 浙江

Ollama是一个基于llama.cpp的推理框架,支持在多种硬件上运行GGUF大模型,且与ModelScope社区集成,便于开发者使用。

Ollama是建立在llama.cpp开源推理引擎基础上的大模型推理工具框架。得益于底层引擎提供的高效模型推理,以及多硬件适配,Ollama能够在包括CPU、GPU在内的,不同的硬件环境上,运行各种精度的GGUF格式大模型。通过一个命令行就能拉起LLM模型服务。


通过Ollama,开发者可以更好的使用GGUF模型。而当前ModelScope社区上已经托管了数千个优质的GGUF格式的大模型,为了让开发者更方便地把这些模型用起来,社区最近支持了Ollama框架和ModelScope平台的链接,通过简单的 ollama run命令,就能直接加载运行ModelScope模型库上的GGUF模型。


01


一键运行


入门非常简单:

    设置ollama下启用

    ollama serve


      ollama run ModelScope任意GGUF模型

      ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF


      在安装了Ollama的环境上(建议使用>=0.3.12版本),直接通过上面的命令行,就可以直接在本地运行 Qwen2.5-3B-Instruct-GGUF模型。


      命令行的具体格式为:

        ollama run modelscope.cn/{model-id}


        其中model-id的具体格式为{username}/{model},例如:

          ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUFollama run modelscope.cn/second-state/gemma-2-2b-it-GGUFollama run modelscope.cn/Shanghai_AI_Laboratory/internlm2_5-7b-chat-gguf


          关于如何安装Ollama,可参考Ollama官方文档(https://ollama.com/download),建议使用>=0.3.12版本。


          或者参见这个ModelScope Notebook来完成安装:https://modelscope.cn/notebook/share/ipynb/4a85790f/ollama-installation.ipynb


          02


          配置定制



          Ollama支持加载不同精度的GGUF模型,同时在一个GGUF模型库中,一般也会有不同精度的模型文件存在,例如Q3_K_M, Q4_K_M, Q5_K等等,入下图所示:

          一个模型repo下的不同GGUF文件,对应的是不同量化精度与量化方法。默认情况下,如果模型repo里有Q4_K_M版本的话,我们会自动拉取并使用该版本,在推理精度以及推理速度,资源消耗之间做一个较好的均衡。如果没有该版本,我们会选择合适的其他版本。


          此外,您也可以显式配置来指定想要使用的版本。例如:

            ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:Q3_K_M

            这里命令行最后的:Q3_K_M选项,就指定了使用Q3_K_M精度的GGUF模型版本,这个选项大小写不敏感,也就是说,无论是:Q3_K_M,还是:q3_k_m,都是使用模型repo里的"qwen2.5-3b-instruct-q3_k_m.gguf" 这个模型文件。当然,您也可以直接指定模型文件的全称,这同样是支持的:

              ollama run modelscope.cn/Qwen/Qwen2.5-3B-Instruct-GGUF:qwen2.5-3b-instruct-q3_k_m.gguf


              03


              更多配置选项



              Ollama支持通过Modelfile配置文件,来实现大模型推理的参数自定义。ModelScope与Ollama的对接,会根据平台上GGUF模型的信息,自动生成每个模型需要的配置与参数,包括推理模版(Template),模型参数(Parameters)等等,后续我们也将支持模型贡献者在模型repo里,通过特定文件来指定专属的配置,敬请期待 :)。




              ?点击关注ModelScope公众号获取

              更多技术信息~




              跳转微信打开

              Fish AI Reader

              Fish AI Reader

              AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

              FishAI

              FishAI

              鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

              联系邮箱 441953276@qq.com

              相关标签

              Ollama GGUF 大模型 ModelScope llama.cpp
              相关文章