IT之家 05月17日 14:28
Ollama 上线自研多模态 AI 引擎:逐步摆脱 llama.cpp 框架依赖,本地推理性能飙升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科技媒体报道,开源大语言模型服务工具Ollama推出自主研发的多模态AI定制引擎,旨在摆脱对现有框架的依赖,提升本地推理精度。Ollama团队强调,该引擎使用golang独立开发,并非直接借鉴llama.cpp。新引擎针对处理大图像生成大量token的场景进行了优化,引入图像处理附加元数据,优化批量处理和位置数据管理,避免图像分割错误。此外,KVCache优化技术加速了transformer模型推理速度,并优化了内存管理。Ollama还与多家硬件巨头合作,精准检测硬件元数据以优化内存估算。未来,Ollama计划支持更长的上下文长度和复杂推理过程。

🛠️ Ollama推出了自主研发的多模态AI定制引擎,旨在摆脱对llama.cpp等框架的依赖,提升本地推理的精度和效率。

🖼️ 新引擎通过引入图像处理附加元数据,优化了批量处理和位置数据管理,从而避免图像分割错误导致输出质量下降的问题。

🚀 KVCache优化技术被应用于加速transformer模型的推理速度,同时还对内存管理进行了大幅优化,新增图像缓存功能,确保图像处理后可重复使用。

🤝 Ollama与NVIDIA、AMD、Qualcomm、Intel和Microsoft等硬件巨头合作,通过精准检测硬件元数据,优化内存估算,提升整体性能。

🧩 针对Meta的Llama 4 Scout等模型,新引擎还支持分块注意力(chunked attention)和2D旋转嵌入(2D rotary embedding)等先进技术。

IT之家 5 月 17 日消息,科技媒体 WinBuzzer 昨日(5 月 16 日)发布博文,报道称开源大语言模型服务工具 Ollama 推出自主研发的多模态 AI 定制引擎,摆脱对 llama.cpp 框架的直接依赖。

llama.cpp 项目近期通过 libmtmd 库整合了全面视觉支持,而 Ollama 与其关系也引发社区讨论。

Ollama 团队成员在 Hacker News 上澄清,Ollama 使用 golang 独立开发,未直接借鉴 llama.cpp 的 C++ 实现,并感谢社区反馈改进技术。

Ollama 在官方声明中指出,随着 Meta 的 Llama 4、Google 的 Gemma 3、阿里巴巴的 Qwen 2.5 VL 以及 Mistral Small 3.1 等模型的复杂性增加,现有架构难以满足需求。

因此 Ollama 推出全新引擎,针对在本地推理精度上实现突破,尤其是在处理大图像生成大量 token 时表现突出。

Ollama 引入图像处理附加元数据,优化批量处理和位置数据管理,避免图像分割错误导致输出质量下降,此外,KVCache 优化技术加速了 transformer 模型推理速度。

新引擎还大幅优化内存管理新增图像缓存功能,确保图像处理后可重复使用,避免提前丢弃。Ollama 还联合 NVIDIA、AMD、Qualcomm、Intel 和 Microsoft 等硬件巨头,通过精准检测硬件元数据,优化内存估算。

针对 Meta 的 Llama 4 Scout(1090 亿参数混合专家模型 MoE)等模型,引擎还支持分块注意力(chunked attention)和 2D 旋转嵌入(2D rotary embedding)等技术。

Ollama 未来计划支持更长的上下文长度、复杂推理过程及工具调用流式响应,进一步提升本地 AI 模型的多功能性。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Ollama 多模态AI 本地推理 AI引擎 深度学习
相关文章