IT之家 06月05日 08:13
英伟达发布 Llama Nemotron Nano VL AI:高效精准,攻克复杂文档解析难题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达推出了Llama Nemotron Nano VL视觉-语言模型,该模型基于Llama 3.1架构,专注于高效处理文档级理解任务。它结合了视觉编码器和语言模型,能够处理多页文档中的视觉和文本元素,支持长达16K的上下文长度。该模型在OCRBench v2基准测试中表现出色,尤其在结构化数据提取和布局相关问题解答方面具有优势。Llama Nemotron Nano VL设计灵活,支持服务器和边缘推理,并提供4-bit量化版本,以实现高效推理。

🖼️ Llama Nemotron Nano VL基于Llama 3.1架构,集成了CRadioV2-H视觉编码器和Llama 3.1 8B指令微调语言模型,能够同时处理图像和文本,并支持最长16K的上下文长度。

📚 该模型通过三个阶段的训练来提升性能:首先,利用商业图像和视频数据集进行交错式图文预训练;其次,通过多模态指令微调提升交互式提示能力;最后,重新混合纯文本指令数据以优化在标准语言模型基准上的表现。

📊 在OCRBench v2基准测试中,Llama Nemotron Nano VL在OCR、表格解析和图表推理等任务上表现出色,尤其在结构化数据提取方面,如表格和键值对,以及布局相关问题解答中表现突出,媲美更大规模模型。

⚙️ 部署方面,Llama Nemotron Nano VL设计灵活,支持服务器和边缘推理场景。英伟达提供了4-bit量化版本(AWQ),结合TinyChat和TensorRT-LLM实现高效推理,兼容Jetson Orin等受限环境。

💡 英伟达通过预计算视觉嵌入选项,进一步降低静态图像文档处理的延迟,为企业应用提供了实用解决方案,包括支持Modular NIM、ONNX和TensorRT导出。

IT之家 6 月 5 日消息,科技媒体 marktechpost 昨日(6 月 4 日)发布博文,报道称英伟达(Nvidia)针对高效、精准地处理文档级理解任务,推出 Llama Nemotron Nano VL 视觉-语言模型(VLM)。

Llama Nemotron Nano VL 基于 Llama 3.1 架构,融合了 CRadioV2-H 视觉编码器和 Llama 3.1 8B 指令微调语言模型,能同时处理多页文档中的视觉和文本元素,支持最长 16K 的上下文长度,覆盖图像和文本序列。

模型通过投影层和旋转位置编码实现视觉-文本对齐,优化了 token 效率,特别适合长篇多模态任务,无论是多图像输入还是复杂文本解析,它都能游刃有余。

该模型的训练分为三个阶段:首先,利用商业图像和视频数据集进行交错式图文预训练;其次,通过多模态指令微调提升交互式提示能力;最后,重新混合纯文本指令数据以优化在标准语言模型基准上的表现。

训练采用英伟达的 Megatron-LLM 框架和 Energon 数据加载器,依托 A100 和 H100 GPU 集群完成。在 OCRBench v2 基准测试中,该模型在 OCR、表格解析和图表推理等任务上取得领先精度,尤其在结构化数据提取(如表格和键值对)及布局相关问题解答中表现突出,媲美更大规模模型。

部署方面,Llama Nemotron Nano VL 设计灵活,支持服务器和边缘推理场景。英伟达提供了 4-bit 量化版本(AWQ),结合 TinyChat 和 TensorRT-LLM 实现高效推理,兼容 Jetson Orin 等受限环境。

模型还支持 Modular NIM(NVIDIA 推理微服务)、ONNX 和 TensorRT 导出,此外英伟达通过预计算视觉嵌入选项,进一步降低静态图像文档处理的延迟,为企业应用提供了实用解决方案。

IT之家附上参考地址

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英伟达 Llama Nemotron Nano VL 视觉语言模型 文档理解 OCR
相关文章