type
status
date
slug
summary
tags
category
icon
password
TaskBaselinesKITS[ICLR24]KCP[AISTATS24]PriST[ICDE23]LSJSTN[TNNSL23]STGNP[KDD23]IGNNK[AAAI21]INCREASE[WWW23]UIGNN[ICDM23]KCN[AAAI20]GLTL[NIPS14]KPMF[SDM12]GRIN[ICLR22]OKrigingOthersLLM4STMambaReview of ICLR2024-TSA
Collaborating with Guanjie Zheng@John Hopcroft Center for Computer Science and Jianping Zhou@IIOT, Shanghai Jiao Tong University.
Task
- 时空外推:时空外推(Spatio Temporal Extrapolation)是指在图结构的约束下,由已经部署的传感器信息和上下文数据预测目标位置的时空数据。
- 空间差值:在测绘学科中,对于根据变量附近的数据预测一个为采样的点,空间插值(spatial interpolation)的方式叫做Kriging。一般分为transductive(训练可采用测试集中数据,不带标签;只能用于预测训练过程中的节点)和inductive(训练时只用训练集;可以直接处理训练过程中看不到的新节点)
- 传感器部署问题:如何安置新的传感器,使得整体的数据估计准确性增加、范围变广
对于GNN也有质疑的声音:
- 2023 [arXiv] Do We Really Need Graph Neural Networks for Traffic Forecasting?:提出了一种新的时空预测范式来近似GNN,证明时空图神经网络不是唯一的时空预测选择
- 2023 [KDD] Localised Adaptive Spatial-Temporal Graph Neural Network:对于自适应时空图神经网络(ASTGNN)在测试(推理)阶段图结构的空间信息是冗余的,训练是必要的。
Baselines
ㅤ | Baselines |
Inductive
Kriging | 1. Mean imputation
2. OKriging
3. K-nearest neighbors (KNN)
4. KCN
5. IGNNK
6. LSJSTN
7. INCREASE |
Transductive
Kriging | 1. GLTL
2. MPGRU
3. GRIN |
KITS[ICLR24]
数据集、baseline很全
window_size=24,random构造pseudo与observed的连接时(可以连接到远距离的点,随机选出<p的点和其邻接点,将其加入virtual的邻接点中)效果最佳
使用STGC+RFF+STGC的方式,RFF使得pseudo与observed尽可能接近(每次融合最近似的特征),STGC使得不同时间维度的node可以相互连接
NCR中,分为了两个stage:stage-1像是imputation,获得经过virtual的训练之后估计得到的observed与gt做差;stage-2像是reconstruction,将正向推出的virtual的表示用于将obs+virtual都补出来,与obs_gt与输入的virtual之间做差
提出了增量学习的方式(在训练过程中使用虚拟节点,以模拟补全的点的数据规模;使用半监督的方式,一开始的预设虚标签,使用在有标签的节点上的loss对模型进行调整),此外有STGC可以聚合时空的信息(不同于GCN只有空域);在调整虚标签时,有RFF能够减小observed和虚标签之间的差距。
KITS(ICLR2024)KCP[AISTATS24]
貌似是个CCF-C
提出了non-neighbor的node也起到作用,具体如下图,可见neighbor对于central的预测起到了misleading的作用。使用canonical view和augmented view两种图结构进行聚类分析。
non-neighboring nodes may share similarities in certain time series patterns such as change trends,peaks, or slopes.
有提到是第一个将对比学习用于此项目中的
Self-supervised learning (SSL) has proved its superiority in learning general embedding, so this work will also be the first Kriging solution based on contrastive learning.
【feature extraction】使用GraphSAGE的方式聚合(mean)周围的信息,并将x和聚合的concat起来
【Adaptive data augmentation】包括使用了一个复杂的抽样方法为每一个点增加feature mask(random missing)和node mask(Kriging)中的一种;删掉度数大的节点的一些边(有助于G-Mixup,增强模型的泛化性与鲁棒性,又是数学推导....)
【Neighboring Contrast】负责聚合邻接点的相应信息,使得地理位置相近的点能够更加接近
【Prototypical Head】在新的特征空间内,划分出H个原型(感觉是形成聚类),分别使用Sinkhorn algorithm与softmax得到canonical和augmented的p和q,同时设计loss要其分布相同,再次聚合特征
PriST[ICDE23]
这做的任务只是一条线上的补全,而非补全整条线
在CSDI的基础上,在diffusion probabilistic models (DPM)中引入了conditional information(基于线性插值与attention,同时融入了空间特征),用于更好的imputation
We propose PriSTI, a conditional diffusion framework for spatiotemporal imputation, which constructs and utilizes conditional information with spatiotemporal global correlations and geographic relationships.
However, the trend of the time series in imputation targets is unstable due to the randomness of the perturbed values, which may cause the noisy sample to have an inconsistent trend with the original time series, especially when the diffusion step t is close to T.
【Conditional Feature Extraction Module】线性插值作为guide可以保留时空一致性,同时使用attention对于时间非线性关系和空间相关性建模,使用MPNN(GNN的信息传递机制,结合Adj)来聚合geographic relationships,得到的H^{pri}作为global context对后续任务形成指导。
【Noise Estimation Module】每次会从H^{pri}提取相应的特征作为prior来处理noise提取的相应信息,需要先通过temp得到时序特征,再通过spatial global correlation and geographic information来聚合空间信息。
【Auxiliary Information and Output】使用sine-cosine temporal encoding增加时序特征,使用learnable node embedding作为辅助空间特征,使用Gated activation unit将H^{spa}分为residual connection和skip connection。
LSJSTN[TNNSL23]
之前的方法存在long-term trends和fine-grained short-term patterns无法很好捕获、complex and dynamic时空关系无法捕获的问题如受风力影响,不同于前期S2\S3接近,S2\S3在后期更接近);使用JST-GAT计算节点之间的影响,使用GNN将节点信息+注意力图聚合;使用adaptive adjacency matrix(ASG)来inductive捕获长期动态关系,GRU可以保持时间啊跨度从而捕获长时间趋势
如黄线所示,需要先使用周围节点的信息对pseudo点的值进行初始化(k-nearest inverse distance weighting,k-IDW)
红线是学到的注意力流动,会关注到全图,里面也会有根据时间的衰减(x_T是目标帧)
之后使用GCN将多个层的输出聚合起来
在ASG中,使用FC提取node-level特征,M1、M2分别为source node和target node encoding
使用GRU with skip可以有效的避免RNN中梯度消失的问题,同时也可以忽略连续帧之间的低级关系
STGNP[KDD23]
使用了一系列的概率编程方法,可以很好的为预测的结果增加uncertainty
IGNNK[AAAI21]
时空Kriging的鼻祖
随机的生成一个包含unobserved和observed的subset,引入mask,进行训练
基于扩散图卷积网络(DGCN)可以实现inductive,使用Chebshev对其过程进行逼近
使用了Gaussian kernel与Binary kernel分别建模邻接矩阵,进行对比,发现高斯好
reconstruct distance information on random subgraph, not just binary connective matrix
INCREASE[WWW23]
用了私有数据集Xiamen,里面可以有更多先验信息
用三种Heterogeneous spatial relations来建模一个节点(spatial proximity relation/functional similarity relation/transition probability relation);时间上在不同地区会有不同的patterns,使用relation-aware GRU来提取有用的信息
并用attention融合时空的信息
UIGNN[ICDM23]
不知道咋中的CCF-B,看上去就是赋予了IGNNK的应用场景,但郑老师挂名,不好评价
KCN[AAAI20]
通过预先定义和调查未观察到节点周围的K个最近邻居,通过平均具有可学习权重的邻居标签来估计目标。(只使用了空间上的信息,并没有考虑到时序的信息)
GLTL[NIPS14]
Greedy Low-rank Tensor Learning
取一个大小为location×time×variables的输入张量,未观测位置设置为零,然后使用张量补全来恢复观测位置的值。
KPMF[SDM12]
Kernelized probabilistic matrix factorization: Exploiting graphs
and side information.
使用正则化拉普拉斯核将图核信息整合到矩阵分解中
GRIN[ICLR22]
OKriging
利用节点的地理信息,利用高斯过程进行空间插值。
Others
LLM4ST
LLM4TSMamba
mambaReview of ICLR2024-TSA
@Jianping Zhou
ICLR2024关于时间序列的相关论文,总体来说,AI in time series在data mining领域也很卷了,单打独斗卷不过那些,发的多的都是组内好几个人一起合作深耕几年,连着发。小的组比较合适的出路,避开内卷,重新思考现实场景下,时序任务应该是什么样的,思考哪些场景和setting是别人忽略但真实存在,且有实际意义的工作。
此外谈谈粗看了这些录用文章的几点感受:
- 【LLM】出现挺多结合LLM的时序工作,如TEMPO, TEST,TIME-LLM,这些之前都挂arxiv了,感觉2024年会是一个趋势,如何结合大语言模型来做时间序列分析的任务,需要思考为什么要用LLM?时间序列分析的任务原来是怎么做的,用LLM后是怎么做的,setting上有区别吗?有哪些是不能借助LLM做的,这些可以通过LLM改进还是说LLM这条路就根本行不通?
- 【DPM】利用diffusion model的,如Mf-diff,MG-TSD,将diffusion结合上时间序列的特性,如时间序列的trend-seasonality-bias(实际上就是解耦思想,似乎是22年iclr的CoST这篇文章第一次把这个结合上深度学习模型来建模时间序列,但这个思想应该是传统做时间序列就有的,包括Koopa中解耦成时变和时不变分量)。diffusion第一次用在时间序列上是CSDI,后面有SSSD,还有其他的变体,在这个方向上做创新的话,感觉需要分析有哪些conditional information没有利用上;还有可能是时序上的扩散理论,再有就是对diffusion model中去噪网络针对时序做设计了,刷榜可能有机会,但不够make sense,除非讲出比较有意思的故事
- 【Representaion】时间序列的表征学习,或者说如何建模提取时间序列的本质特征,方法集中在对比学习,掩码重构等等,需要思考的点在于,时间序列到底有哪些特征,现有的方法真的可以学习到这些特征吗?关于mask重构这一套,有一篇neurips2023的DropPos则是从mask position embedding出发,和之前的操作完全不一样;包括KITS(似乎没中)从增量出发;这些工作的出发点打破以往的惯性思维,也许可以重新思考现在普遍的做法是否真的有用,或者有没有更好的其他做法,哪怕同等也行,现在的审稿人更希望能看到一些insight上很独特的见解。
- 【Others】有一些边角料的工作,概率时间序列预测,异常检测,可解释性,时序分类,irregular time series(和missing data/incomplete time series比较像),可以重点看一下,他们分析问题的切入点和之前的工作有什么不一样,
- 有一篇缺失场景下的预测工作,Biased Temporal Convolution Graph Network for Time Series Forecasting with Missing Values.这篇工作跟我现在做的缺失数据补全比较相关,前期也积累了很多缺失数据相关的baseline代码。感觉这种就属于避开内卷,思考一些更真实的场景,这种可以刷榜的机会就更大。
- 作者:王大卫
- 链接:https://tangly1024.com/article/essay-spatio-temporal-extrapolation
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。