近期,来自清华大学、上海交通大学、北京华控智加科技有限公司和华北电力大学的研究者联合发布了一款首个多模态工业信号基座模型 FISHER。该模型采用了搭积木的方法,对不同类型的工业信号进行统一建模。目前,技术报告和模型权重均已开源,欢迎使用并探索其潜力。

论文链接:https://arxiv.org/abs/2507.16696
GitHub 仓库:https://github.com/jianganbai/FISHER
研究背景
当前工业信号分析方法大多集中在小范围的特定问题上,例如基于振动的轴承故障诊断。这些模型通常在小数据集上训练,因此未能充分利用大数据的优势,也未能有效利用不同模态之间的互补性。此外,每个工业运维子问题往往需要单独开发和部署专门的模型,这大大增加了实际应用的复杂度和成本。
研究动机
尽管不同工业信号之间表面上存在较大差异,但它们的内在特征和语义信息却高度相似:
- 语义信息相同:信号都反映了设备的健康状态。
- 产生机理相似:例如,声音和振动都源自物体的振动。
- 分析手段相似:常用的分析方法如谱分析在不同信号中都能广泛应用。
- 故障模式相似:不同设备虽然由不同的零件组成,但故障模式具有一定的共通性。
- 任务特征共享:一个特征向量可以表征多个健康管理任务。
基于以上观察,研究者认为可以使用单一模型对不同类型的工业信号进行统一建模。通过信号内部的相似性,模型可以逐步学习到这些特征,从而提升其表征能力和泛化性能。因此,FISHER 模型应运而生。
FISHER 模型介绍

FISHER 是首个面向多模态工业信号的基座模型,其核心思想是采用子带作为建模单元,通过搭积木的方式表征整段信号,从而能够处理任意采样率的工业信号。
子带建模
谱分析是信号处理的常用手段。与语音模型中常用的 Mel 谱不同,FISHER 采用短时傅里叶变换(STFT)作为信号输入特征。这是因为故障分量通常出现在高频,而旋转机械的倍频关系尤为重要。为确保不同采样率下时频分辨率的一致性,FISHER 中的 STFT 采用了固定时长的窗长和帧移。
随着数据量的增加,多采样率问题变得日益重要。传统的处理方法是将信号重采样至固定采样率(如 16 kHz),但这种方法会丢失关键的高频信息。FISHER 则通过不进行重采样,直接利用信号在不同采样率下的特点进行建模。具体来说,高采样率的信号提供了额外的高频子带信息,而这些信息在低采样率下无法获得。
工业信号常见的采样率有 16 kHz、32 kHz、44.1 kHz 和 48 kHz,这些采样率之间存在近似的公约数(如 2 kHz 和 4 kHz),因此 STFT 谱可以视为多个固定宽度子带的拼接。FISHER 采用固定宽度的子带作为建模单元,通过拼接子带信息来表征整段信号。
模型架构
FISHER 模型包括 1 个 ViT Encoder 和 1 个 CNN Decoder,采用「老师 – 学生」自蒸馏预训练方法。具体而言,老师 Encoder 是学生 Encoder 的指数滑动平均(EMA),只有学生 Encoder 和学生 Decoder 具有梯度。在预训练过程中,80% 的子带被 mask,而未被 mask 的 20% 子带送入学生 Encoder 处理,然后与 mask 部分按原位置拼接,送入学生 Decoder。老师 Encoder 则输入整个子带,其输出作为蒸馏的目标。自蒸馏过程分别在 [CLS] 层次和 patch 层次进行监督。预训练结束后,仅保留学生 Encoder 用于后续评估。
目前,FISHER 已经开源了 3 个不同尺寸的版本:tiny(5.5M)、mini(10M)和 small(22M)。所有模型均在 1.7 万小时的混合数据集上进行预训练。
RMIS 基准介绍

为评估 FISHER 模型在不同健康管理任务上的性能,研究者提出了 RMIS 基准。该基准包括 5 个异常检测数据集和 13 个故障诊断数据集,涵盖 4 个模态。异常检测任务为二分类问题,但训练集不包含异常样本;故障诊断任务为多分类问题,训练集和测试集均包含所有类别。为检验模型的固有性能,所有模型在所有数据集上均使用相同的 KNN 配置进行推断,不进行微调。
实验结果
首先,研究者在 RMIS 基准上对常见预训练模型进行筛选,然后选择了 5 个表现最好的模型作为基线,涵盖了 5M 到 1.2B 的不同尺寸。由于语音模型的效果普遍较差,未进行对比。
基准得分

在 RMIS 基准上,FISHER 的 3 个版本分别较基线至少提升了 3.91%、4.34% 和 5.03%,展现出强大的泛化能力。具体而言,在异常检测任务上,FISHER 表现略低于 BEATs;而在故障诊断任务上,FISHER 大幅超越 BEATs 在内的所有基线模型。这主要得益于 FISHER 能够利用完整的频带,而基线模型仅能利用 16 kHz 以下的频带。此外,当前开源的 FISHER 模型最大也只有 22M,远小于基线常见的 90M 模型。

Scaling 效果

上图展示了各个模型的 RMIS 得分随模型大小变化的曲线。可以看出,FISHER 的曲线远高于基线系统的曲线,即使是 FISHER-tiny 也能超过所有基线系统。这表明 FISHER 的预训练模式更优越,scaling 更有效。此外,研究者观察到 100M 似乎是 scaling 曲线的一个分界点。可能是由于工业信号的重复度较高,现有的大规模数据集在去重后最多支持 100M 模型的训练。因此,数据的配比和清洗将是进一步扩大模型规模的关键。此外,FISHER 的成功也表明 Test-Time Scaling 是一个可行的方向。
变切分比

对于 12 个不提供官方切分的数据集,研究者绘制了模型在变切分比场景下的工作曲线,并计算了曲线下面积。结果显示,FISHER 具有最大的曲线下面积,表明其在变切分比场景下依然具有卓越的性能。