index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
近日,京都大学的研究团队在Nature Machine Intelligence上发表了一项重要研究,提出了一个模拟人脑皮层V1-MT运动处理通路的双通路深度学习模型。该模型结合了可训练的运动能量传感器(一阶通道)和多层3D CNN模块(二阶通道),能够像人类一样感知高阶运动信号,有效克服了传统光流模型仅依赖亮度的局限性。研究表明,这种高阶机制对于在复杂光学波动环境中(如光滑表面上的高光)估计鲁棒的物体运动至关重要。通过在包含不同材料属性的运动数据集上进行训练,该模型展现出与生物系统高度一致的多阶运动感知能力,并在自然场景中实现了超越主流计算机视觉算法的运动估计准确性,相关系数高达0.90,为开发抗干扰的仿生视觉传感器提供了新范式。
🧠 **双通路运动感知模型:** 该研究提出了一种创新的深度学习模型,模拟了人脑皮层V1-MT的运动处理通路。模型包含两个关键部分:一阶通道利用可训练的运动能量传感器处理基于亮度的运动,而二阶通道则通过多层3D CNN模块捕捉依赖于强度守恒定律以外的高阶运动信号,从而实现更全面的运动感知能力。
💡 **高阶运动感知的必要性:** 研究强调,在存在复杂光学波动(如物体表面的高光、镜面反射等)的自然环境中,仅依赖亮度信息(一阶运动感知)不足以准确估计物体运动。高阶运动感知机制对于处理非朗伯材质(如金属、玻璃)表面的光学噪声至关重要,这解释了生物系统为何会演化出这种能力。
📊 **实验验证与性能提升:** 研究团队使用定制化的材料数据集(包含漫反射和非漫反射物体)对模型进行了训练和验证。结果显示,该模型在非漫反射材质场景中,运动估计的相关性高达0.90,显著优于主流的计算机视觉算法,证明了其在处理光学噪声方面的鲁棒性。
🚀 **仿生视觉传感器新范式:** 该研究成果为开发新型的抗干扰仿生视觉传感器提供了理论依据和实践指导。通过揭示材质-运动感知之间的关联机制,以及模型在复杂场景下的优异表现,为设计自动驾驶传感器镀膜、新型成像涂层等提供了关键技术支持。
🤝 **开源数据集促进交叉研究:** 为推动相关领域的跨学科研究,研究团队公开了其漫反射/非漫反射运动数据集及代码。这为材料科学、计算机视觉等领域的交叉研究,特别是光学与机器学习协同设计领域,建立了一个新的基准,促进了知识共享和技术发展。
视觉运动感知Visual motion perception是智能体与环境交互的关键功能。基于深度神经网络,光流估计的最新进展已经超过了人类水平的精度,但仍然存在显著的差异。除了基于亮度的一阶运动感知限制之外,人类还可以感知高阶特征中的运动——这是取决于强度守恒定律的传统光流模型所缺少的能力。
近日,京都大学Zitang Sun,Shin'ya Nishida等,在Nature Machine Intelligence上发文,提出了模拟大脑皮层V1-MT运动处理通路的双通路模型。
利用可训练的运动能量传感器组和循环图网络,以处理基于亮度的运动,并将传感路径与多层3D CNN模块的非线性预处理相结合,以捕获高阶运动信号。据假设,在包含复杂光学波动的自然环境中(例如,光滑表面上的高光),高阶机制对于估计鲁棒的物体运动,是至关重要的。通过在具有移动物体的不同材料属性运动数据集上进行训练,这种双路径模型自然地发展了像人类一样感知多阶运动的能力。
由此产生的模型,可以有效地与生物系统保持一致,同时推广了自然场景中,基于亮度的运动现象和高阶运动现象。
Machine learning modelling for multi-order human visual motion processing. 多阶人类视觉运动处理的机器学习建模。
图1:两级运动感知系统概述。
图2:循环运动积分。
图3:自然场景中,循环运动整合。
图4:材料控制运动数据集和二阶基准演示。
图5:材料属性和二阶运动感知之间相互作用。
该项研究,提出了一种模拟人脑视觉皮层处理机制的双通路深度学习模型。该模型通过可训练的运动能量传感器(一阶通道)和3D CNN高阶特征提取器(二阶通道),实现与人类似的多阶运动感知能力。实验采用定制化材料数据集(漫反射/非漫反射物体),证明生物系统演化出高阶运动感知是为应对非朗伯材质(如金属、玻璃)表面的光学噪声干扰。该模型在自然场景中运动估计准确率超越主流CV算法,相关系数达0.90,为开发抗干扰的仿生视觉传感器提供新范式。揭示材质-运动感知关联机制:
证明非漫反射材质的光学噪声(如镜面反射、透明折射)是驱动生物系统演化高阶运动感知的关键因素,为仿生材料设计提供理论依据。
赋能抗干扰视觉材料开发:
模型在非漫反射材质场景中运动估计相关性达0.90(图5c),验证了动态纹理特征提取对光学噪声的鲁棒性,指导开发新型抗干扰成像涂层(如自动驾驶传感器镀膜)。
开源材质数据集推动交叉研究:
公开的漫反射/非漫反射运动数据集(Zenodo存档)为材料科学、计算机视觉的跨学科研究建立新基准,尤其促进光学-机器学习协同设计领域发展。
数据集与代码:https://github.com/anoymized/multi-order-motion-model
Sun, Z., Chen, YJ., Yang, YH. et al. Machine learning modelling for multi-order human visual motion processing. Nat Mach Intell (2025). https://doi.org/10.1038/s42256-025-01068-w声明:仅代表译者观点,如有不科学之处,请在下方留言指正!内容中包含的图片若涉及版权问题,请及时与我们联系删除