集智俱乐部 2024年11月04日
长序列预测 & 时空预测万字长文:一文带你探索多元时间序列预测的研究进展!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文系统梳理多元时间序列预测的发展脉络,探讨领域内争议,通过评测剖析进展,深入研究面临的挑战、瓶颈及未来方向,涉及长序列预测、时空预测等热门任务

🎯多元时间序列预测背景及两类热门任务(长序列预测和时空预测)的发展现状

🤔领域内存在的技术路线和评测结果争议

🔍全面的基准评估及公平、可扩展的时序预测模型开发&评测库BasicTS

🧐异质性分析,探讨时间和空间维度的核心问题

邵泽志 2024-11-02 18:03 北京

基于BasicTS的多元时序预测全面评估、异质性分析


导语


本文介绍最新发表于 TKDE 上的评测 & 综述文章: 《Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis》。本论文系统梳理了多元时间序列预测的发展脉络,讨论了目前领域内的争议,通过公平且全面的评测,剖析了多元时间序列预测取得的进展。同时,文章也深入探讨了该领域面临的挑战、核心瓶颈,以及未来可能的研究方向。


研究领域:多元时间序列预测,长序列预测,时空预测

邵泽志、王飞等 | 作者


通讯作者:Fei Wang(王飞)、Yongjun Xu(徐勇军)、Xueqi Cheng(程学旗)

作者列表:Zezhi Shao(邵泽志), Fei Wang(王飞), Yongjun Xu(徐勇军), Wei Wei(魏巍), Chengqing Yu(余澄庆), Zhao Zhang(张钊), Di Yao(姚迪), Tao Sun(孙涛), Guangyin Jin(金广垠), Xin Cao(曹欣), Gao Cong(丛高), Christian S.Jensen, Xueqi Cheng(程学旗)


Overview:

最近几年多元时间序列预测非常之火,尤其是 长序列预测时空预测

长序列预测从AAAI'21的Informer开始,到后来的Autoformer、FEDformer、DLinear、TimesNet、iTransformer等等等等,火的一塌糊涂。时空预测也是经久不衰,从DCRNN、GWNet,到后来的AGCRN、STEP、D2STGNN,以及最近的BigST、RPMixer,不乏高引论文和最佳论文提名。

然而,随着研究的百花齐放,问题也接踵而至。不同于CV或NLP领域已经形成的统一Backbone和普遍共识, 时间序列预测研究似乎存在较大的分歧 。一方面,不同论文常常得出相反的结论;另一方面,尽管SOTA模型层出不穷,但实际预测效果的提升似乎并不显著。在知乎上,你也可以看到不少相关的质疑与讨论。

为了搞清楚领域目前发展到什么地步了、核心瓶颈是什么、下一步应该做什么,我们做了一些评估。

本文介绍我们最新发表于 TKDE 上的 评测 & 综述 文章: 《Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis》。本论文系统梳理了多元时间序列预测的 发展脉络,讨论了目前领域内的 争议,通过公平且全面的 评测,剖析了多元时间序列预测取得的 进展。同时,文章也深入探讨了该领域面临的 挑战、核心 瓶颈,以及未来可能的研究 方向

全篇没什么理论,都是直观的insights和详尽的实验结果,大家可以放心拿去用,也可以自行复现。本文实验基于开源项目 BasicTS 实验。BasicTS旨在提供 公平统一可扩展的时序预测模型的开发和评测。已支持50+ Baseline,囊括经典方法、时空预测方法、长序列预测方法。BasicTS支持 20+ Benchmark,并且支持灵活地 自定义 数据集、损失函数、模型结构等部件。

代码见(如果有用的话,请点个Star吧!):

BasicTS: A Fair and Scalable Time Series Forecasting Benchmark and Toolkit.

代码链接:https://github.com/GestaltCogTeam/BasicTS

论文链接:https://arxiv.org/abs/2310.06119



 




1. 多元时间序列预测背景




多元时间序列包含着一组时间序列,可以被看成一个 的矩阵。时间维度上,每条时间序列可能都有周期性、趋势性等特点;空间维度上,时间序列之间可能存在相互关联。多元时间序列预测,就是基于历史数据 ,预测未来数据 分别是历史数据和未来数据的长度。

下图是一个直观地例子,其中 ,



多元时间序列预测



 



2. 最火的两类任务

——时空预测和长序列预测




在多元时间序列预测中,有两个非常热门的任务:长序列预测时空预测。这两个任务近年来的研究成果颇具突破性。下面,我们来详细探讨这两大任务的发展现状和趋势。

2.1 长序列预测:建模历史,预测未来

目标:长序列预测的核心是通过对长期历史数据的模式进行建模,进而进行长期预测。它主要聚焦于时间维度模式的建模,试图找到时间序列中长期依赖的规律。

2.2 时空预测:空间与时间的双重挑战

目标:与长序列预测不同,时空预测不仅需要处理时间动态,还要解决序列之间的空间依赖关系。一个典型的应用场景就是交通预测:分析未来交通状况不仅依赖时间维度的数据,还需要捕捉不同传感器之间的空间依赖。

主要研究进展:


    

    



3. 你是否被这些问题困惑过

——领域内存在的争议




显然,时序预测领域的发展是“螺旋向上”的。我们对领域内存在的争议做了一些简要的总结,包括技术路线争议以及评估结果争议,来看看你是否也有其中的某些疑问吧!

3.1 技术路线争议:时间维度,Transformer和Linear模型哪种更好?

以Transformer为代表的复杂网络可扩展性强,仍是目前新论文发力的主要方向;然而,以Linear模型为代表的简单网络参数量小、性能也不比最新的Transformer差多少。考虑到两者之间体量的差距,到底哪种模型结构才是最好的解决方案?现有的长序列预测算法的提升看起来好像是比较小,每年都是很多SOTA论文,但精度似乎没有太大的提升?

3.2 技术路线争议:空间维度,如何理解空间依赖,GCN是必须的吗?

在大多数的研究论文中,GCN通常被描绘成了一种能够捕捉时间序列之间”依赖“关系的网络。然而,这种”依赖“是什么,如何理解它,它是否真的就是因果级别的依赖?实现大规模时空预测用非图网络好,还是图网络好?应该什么时候使用GCN,为什么有的时候它好像会起到一些反作用?

除了上述技术路线的争议,我们也发现了一些评测方面存在的争议:不一致的性能表现具有迷惑性的评价指标

3.3 评测结果争议:不一致的性能表现

不一致的性能表现是指,同一个模型、同一个数据集,同样的实验设置,在不同论文中的性能差距巨大。以时空预测中的DCRNN和GWNet这两个分别来自于2018和2019年的“老”baseline为例,我们统计了他们在不同论文中的结果,以及我们自己复现的结果。可以看到性能差距十分显著,几乎是SOTA和不Work的区别!

  

同一个模型、同一个数据集、同样的实验设置,在不同论文中的性能差距是巨大的

3.4 评测结果争议:具有迷惑性的评价指标

具有迷惑性的评价指标是指采用不够全面的评价指标,导致误差看起来非常小。这对于一些新手朋友或者想要单纯用一下时间序列预测算法的人来说,具有一定的迷惑性。以长序列预测为例,相关工作通常在归一化之后的数据上计算MAE、MSE,其误差非常之小,通常只有零点几!然而,当我们把预测结果反归一化回原来的尺度上,并计算MAPE、WAPE等更直观的相对指标的时候,我们发现他们能达到百分之几十!——这几乎是不可用的状态。

更合理的选择是,在报告上述指标的同时,计算MAPE、WAPE等相对误差指标,甚至同时计算反归一化之后的MAE和MSE,可以让读者直观地从数值中理解预测结果的好坏。

需要注意的是,”在归一化之后的数据集上计算MAE、MSE“这个做法本身是正确的:它可以消除由于不同变量单位不同、取值范围不同带来的影响。然而,仅用这一种方式可能是不合理的,这可能会造成误解。更合理的选择是,在报告上述指标的同时,计算MAPE、WAPE等相对误差指标,甚至同时计算反归一化之后的MAE和MSE,可以让读者直观地从数值中理解到预测结果的好坏。


反归一化之后再计算相对误差,可以更直观地体现模型的准确程度

考虑到上述因素,我们不由得有下面的疑问:我们到底在时间序列预测方面走到了哪里了,取得了多少进步?实际落地过程中的核心瓶颈是什么?如果我是工业界的人,我应该如何选择合适的模型结构?如何做出合理的分析

在本文中,我们将会通过对现有工作的进行全面的基准评估,以及新颖的异质性分析,来解答上述疑问。



 



4. 全面的基准评估——公平、可扩展的

时序预测模型开发&评测库BasicTS




评估的基石是可信、可复现的实验结果。

为了解决不一致的性能表现,我们对现有代码库进行了全面分析,并确定了三个导致不一致性能表现的核心原因:数据处理训练流程评估方式。这些方面常常被忽略,但它们对评估结果有着重要影响。

 

BasicTS的整体设计

为了实现可信的评测,我们提出了一个公平、可扩展的时序预测模型 开发&评测的库,BasicTS。

BasicTS+ 引入了统一的训练管道,主要包括统一的数据加载器、数据缩放器、评估指标、训练流程,从而避免由于非模型结构因素引起的性能差异。具体的实现方式见论文。BasicTS确保其所复现的论文的性能,不弱于原始论文中report的值(如果原始代码没有bug的话)。

此外,BasicTS还提供了许多扩展功能,例如自定义数据集、损失函数、评价指标、日志系统、分布式训练等等,并且兼容多种设备(例如CPU、英伟达GPU、寒武纪MLU,华为昇腾正在适配中)。BasicTS目前支持50多种Baseline、20多个Benchmark,包含了最新流行的大部分算法和数据集,可以一键复现并快速开发。你可以在这里找到BasicTS的上手教程:中文 | 英文 。

在评估指标方面,BasicTS选择在反归一化之后的数据上,计算相对误差(MAE、MAPE)和绝对误差(MAPE、WAPE)两种、四个指标。

 

评估指标

BasicTS的建立解决了在评测结果上的争议,为后续的评测奠定了基础。

然而,技术路线上的争议仍然存在。他们因何产生,又如何解释?


   

    



5. 异质性分析——被忽略了的核心问题




技术路线的争议主要是在探讨模型结构是否有效。

每一篇研究都有非常坚实的证据来证明自己的论据,看起来大家都是对的(也可能都是错的)。但如果抛开模型不谈,有没有可能问题出在数据上,而不是模型?

下面我们聚焦于多变量时间序列(MTS)数据集的异质性,并深入探讨如何用它来解释看似矛盾的实验结果。

首先,MTS数据往往来自于其背后的一个时空系统,例如电力、能源、交通、金融等。由于这些系统特点的差异,采集出的MTS数据往往呈现出完全不同的模式,即异质性。

这和CV或者NLP完全不同,这两者通常共享某些常见的模式,例如ImageNet和CoCo数据集的视觉模式是相似的,不同文本数据集的模式也是相似的,并且这些数据集的模式通常是丰富且封闭的:数据的语义信息通常是固有的,不随未知的外部因素变化

而时间序列完全相反。一方面,不同数据集(Domain)的数据模式可能完全不同,另一方面,时间序列收到外部未知因素的影响太大。

本文基于数据的时间空间异质性对数据集进行了分类。我们主张,不同类型的模式意味着不同的核心瓶颈,也就对应着不同的解决方案。

这也意味着特定的技术方法仅适用于某些特定类型的数据。忽视这种数据异质性可能导致看似矛盾的实验结果,并且无法选择正确的技术方法。

5.1 时间维度:分布漂移或许才是核心的挑战

本文根据时间维度的异质性将数据集分为三类:具备稳定模式显著分布漂移模式不明确的数据集。我们选取了三个代表性数据集——PEMS03ETTh2ExchangeRate,进行分析并展示了它们的原始时间序列。此外,我们通过 t-SNE 算法对数据进行降维,并使用核密度估计展示了训练集与测试集的分布:


PEMS03、ETTh2、ExchangeRate三个数据集部分数据的可视化


基于t-SNE和核密度估计的数据分布可视化

通过对这些数据集的分布分析,我们发现,PEMS03 的训练集和测试集分布相似,然而 ETTh2 和 ExchangeRate 的分布相对不一致。

这样的异质性可以解释为何常见的先进神经网络(如Transformer模型)与基础网络(如Linear模型)表现出矛盾的结果:Transformer模型虽然强大,但它们往往基于较强的Bias,在存在分布漂移或模式不明确的数据集上容易过拟合。而线性模型因其简单性,虽然欠拟合复杂模式,但在面对这些数据集时却能保持较好的鲁棒性。

因此,我们得出假设:

这提醒我们,选择模型时应考虑数据的本质特征,避免盲目追求复杂性。

5.2 空间维度:所谓的“依赖“或许是数据的不可区分性

相比时间维度,空间依赖关系更难以理解和量化。虽然许多研究通过图卷积网络(GCN)来建模时间序列之间的相互作用,但对空间模式的理解和量化仍然不足。幸运地是,最近的两项研究,ST-NormSTID,提出了一个重要概念——空间不可区分性,揭示了空间依赖的核心问题。

基于这一思路,我们首次设计了量化指标,帮助区分不同类型的多元时间序列(MTS)数据集。我们将数据集分为两类:具有显著空间不可区分性无显著空间不可区分性

空间不可区分性意味着在某个时刻,历史数据相似但未来数据不同,普通的回归模型(如MLP或更复杂的Transformer)无法通过相似的历史数据准确预测出不同的未来——即不可区分。


不可区分性的衡量指标

为了量化这一现象,我们提出了两个关键指标: 。其中, 衡量不可区分样本在所有样本中的比例,而 则精细衡量不可区分样本在历史相似数据中的比例。


不同数据集中,样本不可区分性的比例

通过计算这两个指标,我们发现了一些有趣的现象:例如,ETT、Electricity、ExchangeRate 和 Weather 数据集的 值较低,说明它们的空间不可区分性较弱,空间依赖对预测性能影响不大;METR-LAPEMS-BAYPEMS04PEMS08 数据集的 值显著更高,表明这些数据集的空间不可区分性较强,空间依赖对于预测至关重要。这些发现为我们提供了启示:

即,空间依赖的建模效果与数据集的空间不可区分性密切相关,针对不同数据集,应选择合适的空间建模策略。

总结一下,通过异质性分析,我们提出了下面的两个假设:


基于数据异质性的两个假设


   
 



6. 如何根据数据特点选择合适的模型?

我们到底取得了多少进展?




6.1 时间维度:分布漂移确实是核心的挑战

为了验证上述假设1,我们在两组、四个数据集上做了实验:


Transformer v.s. Linear on Heterogeneous MTS Datasets.

如上表所示,显然不同的模型在不同性质的数据集上模式的表现完全不同。

   

FEDformer、DLinear分别在PEMS08、ETTh2上的损失变化曲线

Tensorboard中损失指标的变化也应证了我们的结论:在PEMS08上,FEDformer表现正常,而DLinear出现了欠拟合问题;在ETTh2上,DLinear表现正常,而FEDformer则出现了严重的过拟合。

6.2 空间维度:样本的不可区分性是重要议题

同理,为了验证假设2,我们也在另外两组、四个数据集上做了实验:

我们选择了STID、AGCRN两个用不同方式建模空间依赖的模型,并将其空间依赖建模模块删除,得到了STID* 和 ACGRN*。实验结果如下所示:


空间建模的有效性

显然,空间不可区分性就是所谓的“空间依赖”的本质之一。在具备该特点的数据集上,使用任意的“空间依赖”建模手段,都会提升性能。但在不具备该特点的数据集上,简单地使用上述模型会引起性能的下降。此时,需要更精细地挖掘变量之间的关联。

6.3 给定数据集,如何选择和设计一个MTS预测模型?

基于上述发现,我们就可以有在目前的技术框架下,选择和设计MTS预测模型的路线图。

  

设计和选择MTS模型的路线图

另外,为了更好地理解我们目前去的了多少进展,我们集中做了一波评测。可以看到的是,无论是时空预测还是长序列预测,其实SOTA之间的差距并不是特别的明显。

时空预测的STID、长序列预测的LTSF,这两个模型其实性能已经不错了。他们很适合作为一个backbone,来检验其他工作是否有效——因为他们已经是最简单的模型了。一个复杂的模型应当显著地超越他们,或者有其他的闪光点,或许才能cover住复杂度带来的负面影响。

另外,不同数据集的特点显然是完全不同的,这些工作很难被放在一起比较。如果您是做时空预测(或者长序列预测)的,但审稿人非让您对比长序列预测(或者时空预测)的工作,现在您就可以用本文为依据进行回应了~


在METR-LA、PEMS-BAY、PEMS03、PEMS04、PEMS07、PEMS08上的时空预测结果

在PEMS04、PEMS08、ETTh1、ETTm1、Electricity、Weather、ER数据集上的长序列预测结果





7. 开放讨论:时间序列预测的困境

以及有价值的研究方向




7.1 时序预测的悖论和核心瓶颈:

显然,时间序列预测(无论是长序列还是时空预测)已经陷入了一定程度的“内卷”。其中很大原因在于时间序列数据本身的特性。笔者一直认为,时间序列预测存在一个悖论:那些可预测的时间序列往往具备稳定、清晰的模式,这种情况下,使用一些简单的方法即可实现良好的预测效果,并不需要复杂的模型。而对于那些不具备清晰、稳定模式的时间序列,即便设计出复杂的模型,效果也未必显著,反而容易因数据的分布漂移导致过拟合。

因此,真正具有挑战性、且值得深入研究的部分在于时间序列的分布漂移。分布漂移通常由外部因素引发,这意味着时间序列数据并不完全由历史数据决定,未来的变化往往依赖于许多未知的外部协变量。每个应用领域(Domain)中的外部因素各不相同,增加了预测的难度和不确定性。

7.2 有价值的研究方向

上述发现并不是对时序预测的悲观评价,恰恰相反,它们揭示了这个领域尚有许多值得探索的方向,且已有许多前沿研究正在快速发展(大佬们太卷了)。以下是笔者认为目前较有前景的几大趋势:






8. 总结




总的来说,在本研究中,我们针对多元时间序列(MTS)预测领域中实验结果不一致以及技术方向选择困难的问题进行了分析,揭示了实际取得的进展。

首先,我们引入了一个新的基准框架——BasicTS,该框架旨在实现MTS预测解决方案的公平和合理的比较。通过采用统一的训练流程,BasicTS解决了性能不一致的问题,并提供了更为合理的评估程序。

其次,我们深入探讨了MTS数据集的异质性。在时间维度上,我们根据数据集是否呈现出清晰稳定的模式、显著的分布漂移或不明确的模式进行分类;在空间维度上,我们设计了衡量空间依赖性的指标,将数据集划分为具有显著空间不可区分性和不具有显著空间不可区分性两类。

我们结论是,许多先前研究得出的结论仅适用于某些特定类型的数据,将这些结论泛化会导致研究人员得出适得其反的推论。

此外,借助BasicTS及其相关的MTS数据集,我们对当前流行的解决方案进行了广泛的分析与比较。这些研究成果为MTS预测领域的进展提供了宝贵的见解,帮助研究人员选择合适的解决方案或数据集,并得出更可靠的结论。


时序时空大模型读书会


现代生活产生了大量的时序数据和时空数据,分析这些数据对于深入理解现实世界系统的复杂性和演化规律至关重要。近期,受到大语言模型(LLM)在通用智能领域的启发,"大模型+时序/时空数据”这个新方向迸发出了许多相关进展。当前的LLM有潜力彻底改变时空数据挖掘方式,从而促进城市、交通、遥感等典型复杂系统的决策高效制定,并朝着更普遍的时空分析智能形式迈进。


集智俱乐部联合美国佐治亚理工学院博士&松鼠AI首席科学家文青松、香港科技大学(广州)助理教授梁宇轩、中国科学院计算技术研究所副研究员姚迪、澳大利亚新南威尔士大学讲师薛昊、莫纳什大学博士生金明等五位发起人,共同发起以“时序时空大模型”为主题的系列读书会,鼓励研究人员和实践者认识到LLM在推进时序及时空数据挖掘方面的潜力,共学共研相关文献。读书会已完结,现在报名可加入社群并解锁回放视频权限。



详情请见:

时序时空大模型读书会启动:大模型开启时序时空数据挖掘新视角


推荐阅读

1. 首个全开源时间序列预测基础模型Moirai来了!Zero-shot 预测能力比肩从零训练最优模型

2. Nature Physics速递:多变量时间序列的高阶组织

3. 复杂系统的逆向工程——通过时间序列重构复杂网络和动力学

4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 龙年大运起,学习正当时!解锁集智全站内容,开启新年学习计划

6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多元时间序列预测 长序列预测 时空预测 技术争议 基准评估
相关文章