RWKV元始智能 2024年10月28日
SAM、CLIP...最近有哪些基于 RWKV 的多模态等研究?【第二期】
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了近期RWKV生态中新增的多模态研究工作,包括RWKV-SAM、RWKV-CLIP、PointRWKV、VisualRWKV-6、SDiT等,这些工作在图像分割、视觉语言表示学习、3D点云学习等方面取得了成果,展示了RWKV在多模态领域的应用潜力。

🎯RWKV-SAM是基于RWKV的图像分段切割方法,实现了2倍以上加速,在各种数据集上有更好的图像分割性能,分类和语义分割结果优于视觉Mamba模型。

📽RWKV-CLIP是RWKV驱动的视觉语言表示学习模型,可利用大型语言模型合成和细化文本等内容,在图像文本模态空间中表现出卓越的跨模态对齐性能。

🌐PointRWKV是基于RWKV的3D点云学习框架,在下游点云任务上性能优于同类工作,显著节省约46%的FLOPS。

👀VisualRWKV-6是RWKV语言模型的视觉增强版本,能处理各种视觉任务,在基准测试中实现了具有竞争力的性能。

💡SDiT是基于Transformer的新型SNN扩散模型架构,采用RWKV作为自注意力机制的替代,提高了重建图像质量,具有更小参数和更低MAC,展示了低功耗SNN的优势。

原创 RWKV 2024-07-08 18:33 广东

RWKV 生态近期新增了这些多模态等工作,快来看看吧!

大家好,我们整理了近期 RWKV 生态中新增的一些多模态等研究工作,包含:RWKV-SAM(图像分割模型)、RWKV-CLIP(视觉语言表示学习)、Point-RWKV(3D 点云学习框架)……

RWKV-SAM

论文设计了基于 RWKV 的图像分段切割方法“RWKV-SAM”(Segment Anything Model)。

下图为 RWKV-SAM 架构:

RWKV-SAM 架构

与 Transformer 模型相比,RWKV-SAM 实现了 2 倍以上的加速,且可以在各种数据集上实现更好的图像分割性能。

此外,RWKV-SAM 的分类和语义分割结果优于最新的视觉 Mamba 模型。

Comparisons-between-SAM

RWKV-CLIP

RWKV-CLIP (Contrastive Language-Image Pre-training)是一个 RWKV 驱动的视觉语言表示学习模型,该框架可以利用大型语言模型(LLMs)来合成和细化基于网络的文本、合成标题和检测标签的内容。

RWKV-CLIP 架构如图:

RWKV-CLIP 架构

论文结果显示:与 ALIP 相比,RWKV-CLIP 在图像文本模态空间中表现出更近的距离,表明具有卓越的跨模态对齐性能。

rwkv-clip-text-image

PointRWKV

PointRWKV 项目是一种基于 RWKV 的 3D 点云学习框架,在下游点云任务上性能优于基于 Transformer 和 Mamba 的同类工作,显著节省了约 46% 的 FLOPS。

下图为 PointRWKV 架构:

PointRWKV 架构

VisualRWKV-6

VisualRWKV 是 RWKV 语言模型的视觉增强版本,使 RWKV 模型能够处理各种视觉任务。

VisualRWKV-6 的架构设计是 Data-dependent Recurrence + Sandwich Prompt + Bidirectional Scanning 。

VisualRWKV-6

大量实验表明,与基于 Transformer 的模型(如 LLaVA-1.5)相比,VisualRWKV-6 在各种基准测试中实现了具有竞争力的性能。

VisualRWKV-6-VS-LLaVA

SDiT

论文提出了 Spiking Diffusion Transformer (SDiT - 基于 Transformer 的新型 SNN 扩散模型架构),但采用 RWKV 作为 Transformer自注意力机制的替代。

通过将 RWKV 有效地与 SNN 集成,SDiT 方法提高了重建图像的质量。

SDiT-architecture

和基于 Transformer 的 ANN 实现 (DiT) 相比,基于 RWKV 的 SDiT 方法拥有更小的参数和更低的乘法累加 (MAC) ,充分展示了低功耗 SNN 的优势。

SDit-and-Dit

以上是近期的 RWKV 多模态等研究。更早之前的 RWKV 多模态工作,请参考我们的第一期统计:

欢迎大家使用 RWKV 进行创业、科研,我们也会为基于 RWKV 的项目提供技术支持。

如果您的团队正在基于 RWKV 创业或开展研究,请联系我们!(在“RWKV元始智能”微信公众号留言您的联系方式,或发送邮件到“contact@rwkvos.com”。)

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RWKV 多模态 图像分割 视觉语言 3D点云
相关文章