机器之心 前天 15:51
矩阵乘法新突破!XX^T原来可以更快!RL助力搜索,世界纪录又被提升了5%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

深圳市大数据研究院和香港中文大学(深圳)的研究团队,在强化学习与组合优化技术的结合下,针对XXt这类特殊矩阵乘法,提出了一种名为RXTX的新算法,成功节省了5%的乘法运算量。该成果引起了MIT、斯坦福、哈佛及Google DeepMind等机构的广泛关注。RXTX算法不仅适用于超大规模矩阵,也适用于小规模矩阵,例如在4x4矩阵上,相比于Strassen算法,RXTX能减少10%的运算量。这一突破有望为5G、自动驾驶、线性回归、大语言模型训练等领域带来显著的能耗优化。

💡该研究针对XXt这类特殊矩阵乘法提出了创新性加速方法,通过AI设计出新型算法RXTX,实现了总运算量5%的优化,突破了计算复杂度边界。

🧮RXTX算法的渐进常数较先前最优值降低5%,且当n≥256时,RXTX的总加法与乘法次数也少于现有最优方案,在总运算量方面也实现了5%的稳定提升。

🤖核心技术上,该方法属于基于神经网络的大邻域搜索方法框架,是DeepMind AlphaTensor方法的一种变体,通过强化学习策略生成候选双线性乘积,构建组合问题,缩小行动空间。

🌐XXt这类特殊的矩阵乘法广泛存在于各类数据科学的实际应用中,包括5G与自动驾驶定制芯片设计、线性回归与数据分析、大语言模型训练算法等,该算法的优化对能耗开销可以带来相当可观的节省。

SRIBD 2025-05-24 11:14 北京

在强化学习与组合优化技术的结合下发掘出了一种新的算法,节省 5% 的乘法数量。

深圳市大数据研究院、香港中文大学(深圳)研究团队最新研究发现, 这类特殊的矩阵乘法可以进一步加速,并在强化学习与组合优化技术的结合下发掘出了一种新的算法,节省 5% 的乘法数量。

该成果在国际社交媒体平台 X 引发热烈讨论,并引起 MIT、斯坦福、哈佛及 Google DeepMind 科学家的广泛关注。

背景

矩阵乘法优化堪称计算机科学领域的「珠穆朗玛峰」。自 1969 年 Strassen 算法横空出世以来,这个充满组合爆炸可能性的数学迷宫就持续考验着人类智慧的边界。

Google DeepMind 为此专门投入四年心血,先后推出 AlphaTensor、AlphaEvolve 等机器学习系统来攻克这一难题。这就像短跑运动员将百米纪录从 9.58 秒推进到 9.57 秒——每个 0.01 秒的突破背后,都是对计算理论极限的重新定义。

(矩阵乘以自身的转置)这类特殊的矩阵乘法广泛存在于各类数据科学的实际应用中,实际应用包括:

 这类操作每分钟在全球执行数万亿次,假如能减少该操作的计算量,对能耗开销可以带来相当可观的节省。令人惊讶的是,相比于普适的矩阵乘法 AB,研究者对于  这类的特殊矩阵乘法的关注少之又少。Google DeepMind 的 AlphaTensor、AlphaEvolve 探索了带有特殊结构的 AB 矩阵乘法,但他们尚未汇报任何关于  的结果。

通过观察 运算的特殊结构,该团队发现  的计算确实存在加速空间!

主要贡献

在 AI 技术的辅助下,研究团队发掘了新算法(RXTX),以让  这一常见的底层操作减少 5% 的运算量,这可以进一步转换成节省 5% 的能耗以及时间(特别的,能耗开销主要由乘法运算数量决定)。值得一提的是,RXTX 的 5% 加速不仅对超大规模矩阵成立,对小规模矩阵也成立,比如:RXTX 对 4x4 矩阵 X 仅需 34 次乘法运算。此前最先进的 Strassen 算法需要 38 次乘法(减少 10% 运算量)。

乘法运算量复杂度分析

研究团队对乘法运算量的复杂度进行了分析。分析结果表明,RXTX 的渐进常数 26/41≈0.63,较先前最优值 2/3≈0.66 降低 5%。

总运算量(乘法+加法)复杂度分析

研究团队进一步提供了总运算量(乘法+加法)的复杂度分析。分析结果表明,当 n≥256 时,RXTX 的总加法与乘法次数也少于现有最优方案,且渐进意义下约有 5% 的稳定提升。

核心技术

该方法属于基于神经网络的大邻域搜索方法框架:

这是 DeepMind 的 AlphaTensor 方法的一种变体——通过使用组合求解器,行动空间被缩小了一百万倍。以下为研究团队提供的 2*2 矩阵的简单例子:

总结

本文针对  这类特殊矩阵乘法提出了创新性加速方法,通过引入 AI 方法设计出新型算法「RXTX」,成功实现了总运算量 5% 的优化。这一突破不仅从理论上拓展了人类对计算复杂度边界的认识,也为相关领域的算法优化提供了新的研究范式。

鉴于  矩阵在多个学科领域的基础性作用,本研究成果有望为实际应用场景带来显著的能耗优化。然而,新算法的工程化应用仍面临硬件适配和内存管理等关键挑战,其产业化落地尚需学术界与工业界的持续协同攻关。要实现新算法的全方面落地,仍然面临诸多挑战,可谓任重道远。

参考资料

Rybin, Dmitry, Yushun Zhang, and Zhi-Quan Luo. "$ XX^{t} $ Can Be Faster."arXiv preprint arXiv:2505.09814 (2025).

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

矩阵乘法 强化学习 组合优化 RXTX算法 AI优化
相关文章