兼顾科研与应用!联想研究院人工智能实验室两篇论文入选ICASSP2023

近日,第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023) 公布了论文入选名单,联想研究院人工智能实验室论文——《基于多尺度神经网络的可解释格兰杰因果发现》(Interpretable Multi-scale Neural Network for Granger Causality Discovery)和《基于因果不变性变换的长尾识别方法》(Long-tailed Recognition with Causal Invariant Transformation)被大会接收。

ICASSP是全世界最大的、也是最全面的信号处理及其应用方面的顶级学术会议,具有权威、广泛的学界及工业界影响力,备受AI领域研究学者关注。此次入选,展示了联想在因果推断领域的技术实力。

▍Paper 01

《基于多尺度神经网络的可解释格兰杰因果发现》

Interpretable Multi-scale Neural Network for Granger Causality Discovery

多元时间序列广泛存在于自然、医学、工业等多个领域的系统中,变量之间的关联关系十分复杂。例如在大型控制系统中,设备节点数量多、类型多样,具有多层级性,因此各个设备的状态序列之间关联关系极其复杂。随着数据的规模和维度的不断增长,冗余和无关变量的存在将会掩盖重要变量的作用,从而影响到对整个系统的分析以及合理决策的制定。因此,基于大量观察数据,挖掘变量之间的因果关系,即因果发现,对于整个系统的控制和决策具有十分重要的意义。传统的相关性分析只能获取观测数据中的后验性信息,表明两个变量倾向于一起变动,而不能确定是由于随机偶然的结果,还是受到其他潜在变量的影响。而因果关系则是一种本质的、稳定的关系,只有完全挖掘出变量之间的因果关系,才能更好地对某种结果现象进行归因分析,或者基于预期目标制定出相应的策略。

在不考虑瞬时因果效应,并将全部相关变量都考虑在内的前提下,格兰杰因果(Granger Causality, GC)是一种用于序列数据因果发现的常用框架。最近的研究方法主要借助神经网络进行因果发现,其网络架构可以分成两大类,一类是基于某条目标序列对其原因变量进行分析,另一类是基于每个时延下、所有序列间的因果关系进行挖掘。相较而言,后者可以更好地提取多条序列之间的因果结构,但是当前的方法仍然需要将输入数据按照时延进行显式分割,这样会导致数据的使用不充分。

因此,在本篇论文中,我们提出了一种用于格兰杰因果发现的多尺度神经网络框架,可以有效地解决现有方法中存在的问题,实现更高效的数据使用。为了提升因果关系的可解释性,我们还提出了一种基于因果一致性的阈值算法,实现二值因果结构的输出;提出一种效应符号检测方法,为每条因果关系对的因果效应进行正向或者负向的判别;还提出了一种自适应的时延发现算法,识别出每条因果关系对的效应滞后时间点。通过多个基准数据集(Lorenz 96, Lotka-Volterra, VAR)的实验验证,我们的方法表现优于当前SOTA方法。

在这篇论文中,我们提出的多尺度神经网络框架如图1所示,每个分支分别使用不同窗口尺度下的历史数据作为输入,这种分支间的增量变化避免了不同时延下的显式数据分割,从而可以充分利用数据,提高数据的使用效率。每个分支可以从不同的时域感受野中提取多样的因果信息,并利用可学习的权值将它们有效地融合,从而提升模型输出的加权邻接矩阵(weighted adjacency matrix)的准确性,为后续的因果推理模块提供可靠的输入。

图1:总体架构图

为了更直接地反映变量之间是否存在因果关系,我们提出了一种基于因果一致性的阈值算法,将模型输出的加权邻接矩阵转换为二值的因果结构矩阵。通过对原始数据结果和时间反转格兰杰因果(Time-reversed Granger Causality, TRGC)在不同阈值下的因果一致性进行评估,从而确定出具有最高一致性的阈值。与现有方法相比,我们不仅使用了均衡准确率(balanced accuracy)对取阈值后的二值因果结构进行比较,还使用了Levenshtein距离对因果强度值之间的一致性进行对比,从而更全面地进行评估。实验结果表明,基于此方法的二值因果结构估计,其准确率比基准方法有明显提升。

对于识别出的因果关系对,我们基于多个时延下的平均因果效应强度,可以准确地判断出正向或负向的因果效应。此外,对因果时延的识别能够帮助我们更好地理解因果作用,从而制定更加精准的决策方案。为了解决这一问题,我们提出了一种自适应的时延发现算法,基于每条因果对多个时延下的因果效应强度值,识别出其中对当前时刻具有因果效应的时延点。与现有方法相比,我们无需预先设定时延点总数,完全由数据驱动,更加符合实际场景,也具有更高的识别准确性。

▍Paper 02

《基于因果不变性变换的长尾识别方法》

Long-tailed Recognition with Causal Invariant Transformation

标准识别模型的假设是所有感兴趣的类在训练数据集中都有同等的表示,这种假设通常表现为训练数据集是从各个类别中均匀采样的。然而,在现实世界中,数据集通常表现为长尾分布,即头部类别的样本数量远远大于尾部类别的样本数量,如图2所示,这种分布在许多领域,尤其是计算机视觉领域中普遍存在。在这种情况下,标准识别模型可能会出现问题,因为头部类别的样本数量更多,因此模型在训练过程中更多地关注头部类别,而忽略了尾部类别,从而导致标准模型在尾部类别上的识别率表现不佳。

图2:现实世界长尾数据集iNaturalist 2018的类别样本分布

为解决长尾识别问题,研究者们已经提出了许多方法,大致可以分为重采样法、重加权法、迁移学习法、集成法和分组法等。重采样技术是对训练数据进行重新采样,以实现更均衡的数据分布,例如对稀有类进行过度采样,对常见类进行欠采样。重加权方法为每个类别或每个样本的不同训练样本赋予不同损失,目的是修改它们的梯度,使类别不平衡的数据适当地有助于模型训练。迁移学习策略将从头部类中学习到的特征表示迁移到尾部类中,以补偿尾部类训练样本的局限性,并鼓励它们具有与头部类相似的数据分布。集成方法则使用多个专家分支,每个分支学习专攻不同的类。尽管这些方法已经产生了令人鼓舞的结果,但他们只是试图模拟数据和标签之间的统计关系,以弥补与数据相关的不平衡问题,而没有从图像生成的因果机制角度出发来解决长尾数据识别问题。

图3: 结构因果模型以及对非因果特征进行干预的示例

在本论文中我们构建了一个图像识别的结构因果模型来挖掘数据与标签之间内在的因果机制。我们假设每个输入图像都是由高级因果(语义)特征和低级非因果(非语义)特征混合构造,只有因果特征对类别标签产生因果影响,如图3所示。针对长尾数据,我们提出了一种基于因果不变性变换的长尾识别算法(Causal Invariant Transformation algorithm for Long-tailed recognition, CITL),该算法包括基于傅里叶变换的因果干预模块和对比一致性学习模块,通过因果干预模块我们丰富尾部类的数据以避免模型对其过拟合,而对比一致性损失强制学习的表示仅保留因果特征

CITL的目标是从原始图像中提取出因果特征,然后重建不变的因果机制,这可以通过因果干预来完成:对于每个原始输入,都存在一组具有相同和各种不同的反事实样本,它们都对应相同的(因为他们都有着相同的)。傅里叶变换中傅里叶频谱的相位分量保留了高级语义信息,而振幅分量包含了低级统计信息,受此启发因果干预模块我们基于傅里叶变换在保持相位信息不变的情况下扰动振幅信息以达到对进行干预的目的,如图3所示。

在上述基于傅里叶变换的因果干预模块中对于的干预是不影响的因果关系的,这隐含地要求从原始输入和反事实中学习到的表示是不变的,只有这样分类器才能得到一致的预测标签。为了显式约束这种不变性,我们明确地定义了的对比一致性损失。具体地说,我们使用最后一层特征来定义干预过程中的因果不变量,并用余弦相似度来衡量两者之间的差异性,最后通过最小化分类器的分类损失和对比一致性损失来保证学习到的特征在消除非因果特征的同时仅保留因果特征。

大量实验表明,在CIFAR10-LT, CIFAR100-LT和ImageNet-LT 3个常用数据集上,新方法的识别准确率都超过了当前的SOTA方法。

▍结语

近年来,人工智能产业落地加速,但数据质量和算法模型可解释性仍是实际应用的障碍。特别是在金融、工业、医疗等领域,场景复杂、数据质量参差不齐,导致模型稳定性不足和用户难以信任其输出结果。

因果推断与人工智能结合,不仅能提高算法模型的场景适应性,还可帮助用户理解模型的决策过程,提高其有效性。这将有助于缩小研究与应用之间的差距,促进先进的人工智能技术在商业领域的应用。

(关注我们的公众号ML OR 智能决策。分享更多干货,欢迎交流~)

猜你喜欢

转载自blog.csdn.net/mlorworld/article/details/129321721