RWKV元始智能 2024年12月06日
元始智能入选思否2024先锋企业,VisualRWKV被COLING 2025接收
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

元始智能入选思否2024先锋企业,其RWKV模型成果显著。VisualRWKV被COLING 2025接收,在多方面表现优异

元始智能入选2024中国新锐技术先锋企业,积极推动AI发展

VisualRWKV是线性RNN模型首次用于多模态学习,性能出色

VisualRWKV采用多种创新设计,如三明治提示词等

VisualRWKV在多个基准测试中表现优异,推理速度快,显存占用少

Ariel Wang 2024-12-06 19:01 广东

元始智能入选思否2024先锋企业,VisualRWKV被COLING 2025接收

 元始智能入选思否 2024 中国新锐技术先锋企业

2024年12月4日,元始智能入选 SegmentFault 思否中国技术先锋年度评选 | 2024 中国新锐技术先锋企业榜单

一直以来,元始智能致力于通过对旗下 RWKV 模型架构:RWKV 及其衍生多模态模型和AI应用的训练和研发,推动人工智能行业的技术变革和发展。2024 年,元始智能参与行业内开发者活动及峰会 25 场、国家及省市级赛事 4 场,输出技术博客34篇,以领先技术回馈社区,和开发者共同成长。目前,RWKV 开发者社区含国内开发者和用户超 10,000 人、海外 Discord 社区含开发者超 9,200 人,Github 平台基于 RWKV 模型架构的开源项目超 430 个。

在这一年里,RWKV开源了迄今最强的稠密纯 RNN 大语言模型:RWKV-6-World 14B;RWKV-6 架构的论文被大语言模型会议 COLM 收录;微软在全球几亿台 Office 和 Windows 系统设备中部署了 RWKV 运行库;基于 RWKV 的视觉语言模型 VisualRWKV 被国际计算语言学大会 COLING 2025 主会收录。目前,元始智能发布的最新模型为 RWKV-6-World-7B v3,新增了约 3.1Ttokens 的数据集,总训练数据达到 5.6T tokens,模型性能得到了显著的提升,运行效率也更具优势。此外,RWKV-7Goose 于 9 月发布了预览版,能够解决在相同算力消耗下 attention 无法解决的问题。我们期待通过推出更多基于 RWKV 的 AI 模型和创新应用,为人工智能行业的发展注入新的活力和动力。

榜单原文:思否发布|2024 中国新锐技术先锋企业


基于 RWKV 的视觉语言模型 VisualRWKV 被 COLING 2025 接收

VisualRWKV 论文已被 COLING 2025 主会接收

COLING,国际计算语言学会议(International Conference on Computational Linguistics),是自然语言处理和计算语言学领域的顶级国际会议(CCF 推荐 B 类国际会议)。COLING 2025 将于 2025 年 1 月 19 日至 24 日在阿联酋阿布扎比召开。

摘要

视觉语言模型(VLMs)随着大型语言模型的成功迅速发展。然而,将高效的线性循环神经网络(RNNs)架构整合到 VLMs 中的尝试还相对较少。在这项研究中,我们提出了 VisualRWKV,这是线性 RNN 模型首次应用于多模态学习任务,利用了预训练的 RWKV 语言模型。

我们提出了数据依赖的递归和三明治提示词来增强我们的建模能力,以及一个 2D 图像扫描机制来丰富视觉序列的处理。广泛的实验表明,VisualRWKV 在各种基准测试上达到了与基于 Transformer 的模型如 LLaVA-1.5 相竞争的性能,如图 1所示。同时,当上下文长度达到 24K 时,推理速度比 LLaVA-1.5 快3.98 倍,GPU 显存占用少 54%。

图 1:VisualRWKV 与 LLaVA-1.5 在不同 benchmark 上的精度,推理速度和 GPU 内存占用对比。

研究背景

VisualRWKV 模型设计

VisualRWKV 的整体模型结构如图 2所示,其中红字是 VisualRWKV 核心创新点。分别是数据依赖循环(Data-dependent Recurrence),三明治提示词(Sandwich Prompt)和双向扫描(Bidirectional Scanning)。

VisualRWKV-arch

图 2 VisualRWKV 架构概述和三种提示词策略。图像在前提示:将图像标特征于文本向量之前;图像在后提示:将图像特征置于文本向量之后;三明治提示:将图像特征置于文本向量之间。红色文字表示主要贡献。

三明治提示词

如图 2 所示,设计了图像在前提示、图像在后提示和三明治提示三种方法,实验表明三明治提示效果最佳,能让模型在处理图像前回顾指令,更有针对性提取信息,减轻因图像标记减少导致的信息丢失。

数据依赖循环

Data-dependent Recurrence 可以有效增强 RWKV 模型的能力和容量,如图 3所示。

h-Time Mixing and RNN Cell

图 3 Data-dependent Recurrence 示意图,左边:时间混合模块的示意图,右边:时间混合模块的 RNN 视角。虚线箭头表示数据依赖的连接。

Data-dependent Recurrence 主要包括如下 2 点设计:

如下表所示,VisualRWKV 引入 Data-dependent Recurrence 后,在 VQA 测试集上效果上涨了接近 15 个点,非常让人印象深刻。

表 1 模型的扩展结果。

我们选择在视觉问答 VQA-v2(VQA)、科学问答 ScienceQA(SQA)、文本视觉问答 TextVQA(TQA)和通用视觉问答 GQA 上进行实验,以检验模型的能力。

图像扫描机制

如图 4所示,我们探索了单向块、双向块和多向块三种变体,实验显示单向扫描不适合处理 2D 视觉信息,双向扫描在处理多模态学习任务的 2D 视觉信息方面表现较好。因为仅仅是调整不同层的扫描方向,也不并会增加模型总体的计算量。

VisualRWKV-image scaning

图 4 展示了 3种不同的多模态 RWKV 块:单向块(左),双向块(中),以及多向块(右)。顶部还描绘了四种扫描模式。

实验结果

性能比较

VisualRWKV 在 8 个基准测试中的 3 个取得最佳性能,在 SQA 基准测试中排名第二,与 LLaVA-1.5 相比,在多个基准测试中表现更优,尤其在 MMB-cn 中文测试集上领先明显,表明 RWKV 语言模型多语言能力更强。表 2展示了我们提出的 VisualRWKV 模型与一些最先进的多模态大型语言模型的比较。VisualRWKV 在8 个基准测试中的 3个中取得了最佳性能,在 SQA 基准测试中排名第二。与规模参数相似且多模态训练数据量相同的 LLaVA-1.5 7B 相比,我们的模型(VisualRWKV-7B)在 4个基准测试中表现更好:SQA(68.2% 对 66.8%)、GQA(64.3% 对 62.0%)、MMB(65.8%对 64.3%)和 MMB-cn(63.7%对 30.5%)。值得注意的是,VisualRWKV 和LLaVA-1.5 使用了完全相同的训练数据。然而,在 MMB-cn 中文测试集上,VisualRWKV 显示出了显著的领先优势。这可能表明 RWKV 语言模型具有更强的多语言能力。这些有希望的结果不仅证实了 VisualRWKV 模型的有效性,还突显了线性 RNN 模型在多模态学习任务中的重要潜力。

表 2 在 8个基准测试上与最先进方法的比较。

由于空间限制,基准测试名称被缩写。VQA;GQA;SQA:ScienceQA-IMG;TQA:TextVQA;POPE;MME;MMB:MMBench;MMB-cn:MMBench-CN。PT 和IT 分别表示预训练和指令调优阶段涉及的样本数量。"Res."代表“分辨率”。

消融实验

表 3展示了在三种提示方法中,我们提出的三明治提示表现最佳,传统的先图像后提示排在第二位,而先图像后提示的效果最差。三明治提示增强效果的原因如下:通过让模型在处理图像之前先回顾指令,三明治提示有助于更有针对性地从图像中提取信息,从而加强图像信息检索过程中的条件方面。然而,仅仅将指令放在图像之前是不够的。我们观察到,图像后提示的效果明显较差。仅仅将指令放在图像前面是不充分的;我们发现图像后提示的效果明显较差。这是因为线性 RNN 模型在处理图像后往往会忘记指令信息,需要重复指令以获得更好的结果。此外,我们的研究表明,三明治提示能够有效减轻由于图像标记减少导致信息丢失的问题,即使只有少量的图像标记也能保持好的结果。

表 3 三种 prompt 方法的对比结果

我们比较了三种图像扫描机制:单向扫描(UniDir)、双向扫描(BiDir)和多向扫描(MultiDir)。如表 4所示,UniDir 的表现最差,因为它天生不适合处理 2D 视觉信息。BiDir 和MultiDir 在各种基准测试评估中显示出相似的结果,但 BiDir 在大多数情况下表现更好,突显了它在处理多模态学习任务中的 2D 视觉信息方面的优势。

表 4 三种扫描方法的对比结果

效率分析与文本能力

与 LLaVA-1.5 相比,在 24K 上下文时,VisualRWKV 推理速度快 3.98 倍,GPU 内存消耗降低 54%。此外,VisualRWKV 在文本能力上未出现退化,在多语言文本能力上与文本专用的 RWKV 基本一致,得益于多语言 ShareGPT4 数据的整合。

加入 RWKV 社区

欢迎大家加入 RWKV 社区,可以从 RWKV 中文官网了解 RWKV 模型,也可以加入我们的 QQ 频道和群聊,一起探讨 RWKV 模型。


点击下方名片关注我们,获取更多 RWKV 模型新闻:

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

元始智能 VisualRWKV 多模态学习 AI发展
相关文章