检测并修复数据


EnOS 数据质量提供 Data Profiling 工具对配置了 TSDB AI 分钟级归一化数据存储类型的数据进行检测和修复,帮助用户识别数据问题,改善数据质量。

前提条件


开始之前,确保以下事项:

  • 当前账号已被分配包含 Data Profiling 在内的菜单组。如未分配,联系应用管理员。

  • 已为设备模型下的测点配置 TSDB AI 分钟级归一化存储策略。

操作步骤


  1. 在左侧导航栏中选择 Data Profiling

  2. 在页面上方筛选框中依次配置以下信息:


    配置项

    描述

    设备类型

    选择需要进行监测和修复的资产数据所属的资产类型。此处的设备类型来自于 EnOS 设备连接与管理(DCM)中的模型。

    设备

    选择指定设备类型下的设备。

    聚合函数

    选择确定聚合点数据时所用的函数,用于对数据进行聚合计算。
    可选 last(最后上送的数据)、max(数据最大值)或 min(数据最小值)。

    聚合粒度

    选择单次聚合的时间区间。
    聚合函数聚合粒度 共同决定了某一聚合点的数值。例如,当选择 10 min 作为聚合粒度、max 作为聚合函数时,系统将取 10 分钟内数据最大值作为此 10 分钟测点的数值展示在可视化图表中。

    测点

    选择指定设备的测点,作为数据检测和修复的对象。
    仅可选择已配置了 AI 分钟级归一化数据存储类型的测点。

    时间

    选择需要进行数据检测和修复的起止时间。

    检测方案

    选择进行数据检测和修复的方案,包括 缺失 & 越限AI 检测
    有关检测方案的更多信息,参见 检测方案说明


  3. 选择 查询,生成可视化图表,对数据进行检测。在可视化曲线中查看测点原始数据及问题标记。也可点击 重置,清空筛选项。

  4. 如需对数据进行修复,可在可视化图表右侧选择 修复方案 并配置相应参数后选择 应用。有关各修复方案的描述、适用范围等详细信息,参见 修复方案说明

检测方案说明


数据质量提供以下内置检测方案对数据进行检测:

  • 缺失 & 越限

  • AI 检测

缺失 & 越限


“缺失 & 越限”方案指按照特定的阈值范围(在上方工具栏中规定的 Min 和 Max 配置项)判断测点在某一时间点的数据值是否出现缺失(无上送数据)或越限(不在阈值范围内)问题。

在可视化图表中:

AI 检测


“AI 检测”方案指基于 AI 模型,利用数据分布、预测以及模型分析等方法对 TSDB 测点数据进行分析和检测,判断测点在某一时间点的数据值是否出现漂移(数据分布发生变化)、缺失(无上送数据)、跳变(数据发生异常波动)或卡值(数据值重复)。

在可视化图表中,出现上述问题的数据点将被标记为不同颜色。可通过 线性插值法典型曲线替换法 进行修复。

修复方案说明


数据质量提供以下内置修复方案对数据进行修复:

  • 前插法

  • 相似点插值法

  • 线性插值法

  • 典型曲线替换法

前插法


前插法是在出现越限或缺失问题的数据点处,通过计算插入当前测点的历史数据值作为此数据点的值,以获得更平滑、更精确数据的一种修复方法。

配置参数


前插法需要配置以下参数:

  • 最大向前寻找时长:以存在数据质量问题的数据点为起点,向前寻找插补值的最大时长。

  • 默认值:未能在最大向前寻找时长内找到插补数据时,默认使用的插补值。

修复逻辑


在不超过 最大向前寻找时长 的时间范围内,以当前存在数据质量问题的数据点所在时间为起始,获取 5 分钟前的数据,并检验此数据的有效性。若此数据无效,则再获取此数据 5 分钟前的数据并检验有效性。此时:

  • 若在 最大向前寻找时长 内获取了有效数据点,则将此数据点的值作为插补值。

  • 若在 最大向前寻找时长 内未获取有效数据点:

    • 若设置了 默认值,则将默认值作为插补值。

    • 若未设置 默认值,则剔除存在数据质量问题的数据点。

示例


当选择 聚合函数last时间2023-04-01 00:00 2023-04-01 00:50最大向前寻找时长30 mins,默认值为 20,缺失数据点为 04-01 00:45 时,选择 前插法 后,系统将先检验 04-01 00:40 数据点的有效性,若有效,则将此数据插补到缺失数据点处;若该数据无效,则继续判断 04-01 00:35 数据点的有效性,以此类推,如果直到 04-01 00:15 仍未寻找到有效数据,则将默认值 20 插补到缺失数据点处。

相似点插值法


相似点插值法是在有越限或缺失问题的数据点处,插入与当前测点相似的另一个测点的历史数据值的修复方法。

配置参数


相似点插值法需要配置以下参数:

  • 相似测点:与在工具栏中选中测点相似的测点,用于确定插补值。

  • 默认值:相似测点无有效数据时,默认使用的插补值。

修复逻辑


相似测点 选择框中,选择与当前所选测点具有相似数据采集模式或数据特征的测点作为数据来源(例如,对于一个温度监控系统,相似测点可能是测量同一建筑物内不容房间温度的测点),对现有异常数据值进行替换。选择相似测点后,获取相似测点在需要修复的数据点所在时间的数据值,并检查该数据的有效性。此时:

  • 若数据有效,则将相似测点的数据值作为插补值。

  • 若数据无效:

    • 若设置了 默认值,则将默认值作为插补值。

    • 若未设置 默认值,则剔除存在数据质量问题的数据点。

示例


当选择 聚合函数last时间2023-04-01 00:00 2023-04-01 00:50测点房间 1 温度相似测点房间 2 温度,默认值为 20,缺失数据点为 04-01 00:45 时,选择 相似点插值法 后,系统将先检验 04-01 00:45房间 2 温度 数据的有效性,若有效,则将此数据作为相同时间点 房间 1 温度 数据的插补值;若该数据无效,则将默认值 20 作为 房间 1 温度 数据的插补值。

线性插值法


线性插值法是基于已知数据点间的线性关系及数据点的数值变化趋势,快速估算下一个数据点值,对存在漂移、缺失、跳变或卡值问题的数据点进行数据插补的方法。

典型曲线替换法


典型曲线替换法是使用一条或多条已知典型曲线对原始数据进行拟合,对存在漂移、缺失、跳变或卡值问题的数据点的进行替换,从而生成一条新的数据曲线的方法。该方法考虑了整个数据曲线的特征,未过分依赖于单个数据点的值,因此可以更好的估算数据值,对异常数据点进行替换。