如果传感器出现故障,整个物联网系统就会瘫痪吗?
理解数据
那么,对脏数据到底如何处理呢?第一步是理解和解读传感器输出的数据。传感器数据的准确度往往是相对的,而不是绝对正确。现实世界中的传感器读取数据并非完美。
传感器制造商关注的是噪声、滤波器和算法这些基本问题,并给系统设计人员提供了相应的帮助性工具。一些系统设计者和平台供应商则站在系统用户端的视角上,关注的是填入其数据库中的数据是否有效,它们提供了一个监测工具来帮助鉴别数据是否出现错误。
“我在模拟信号链路中发现了脏数据,数字链路的数据是干净的,”TT Electronics的Pohlen说道。“许多不同的源头都会诱发噪声。你可以在线束中拾取电噪声,性能变坏的元件也会产生电气噪声。”
在Pohlen眼中,由某种对实际感应机制的外部影响造成的噪声不算是脏数据。“比如,对于一个光传感器,如果有一个环境光源的话,不能因为它给出的数据不是你真正想要测量的,就认为那是脏数据,因为不管是不是自然光源,它确实正确地测量了光强度。”
未经校准的传感器通常会比校准过的传感器产生更多脏数据。“我们通常所说的脏数据基本上是指未经校准的原始传感器数据,以及信号上有很多噪声的数据。”意法半导体的Chowdhary说。“除了使用某些现象机制感应信号的物理元件,比如测量科里奥利加速度以检测设备、人或者手机的旋转,系统里还有信号调理单元。这些信号调理模块可以工作在不同条件下,也可以在低功耗模式下工作,以尽量降低传感器的电流消耗。但是,如果工作在低功耗模式,传感器数据的噪声就会增加,因为显而易见的是,用于信号调理的功耗越大,数据就越干净。”
“考虑到所有这些不同层面,我们可以给脏数据下个定义,即未经校准的传感器输出的数据以及受到噪声影响的传感器数据,无论噪声来自于信号调理模块还是外部干扰,”Chowdhary说。 他将外部干扰(例如当磁力计受外部磁场影响时)也归类到了脏数据中。
即便是在同一批传感器中,不同传感器也可能存在制造上的差异。一旦被部署到应用现场,传感器就可能会损坏。比如,地勤人员可能会损坏飞机的传感器,甚至包括至关重要的迎角传感器。传感器可能会老化、性能变差,所以需要定期重新校准。
可以站在企业的角度来理解数据。“在基于传感器的设备网络中,脏数据可能是由单个或者多个问题共同产生的。问题可能来自于时间序列跳跃、传感器单元本身的测量有误、日期/时间未及时校准、传感器之间的不恰当关联、跨域数据点的不正确聚合等。也可能是仅仅因为产生的数据不符合业务目标,不稳定或者无法使用,就被认为是脏数据。”Liaison Technologies公司产品营销总监Pratikh表示。这家公司帮助把可用数据放到一个平台上,以供企业使用。
其它人也对脏数据给出了自己的具体定义。“脏数据是那些由您的设备按照正确的格式报告,但是在某种程度上无效的数据。我们甚至无法对这些数据做出解释,”物联网系统集成商Bright Wolf的联合创始人James Branigan说。“你完全可以读取它,但是你会发现,某些数据实际上是完全无效的。”
在智能物联网和物联网中,脏数据的风险在于它会污染公司的大数据库,引发其它危险行为,而且也浪费钱。“脏数据之所以会成为一个问题,是因为在所有这些物联网系统中,当你在数据中寻找价值,在这些输入的数据上进行某些程序化分析时,你会把分析结果在部分程度上反馈到企业系统中,”Branigan说。“对这些数据处理分析并反馈后,会发生一些有趣的事情。但是,如果你把分析建立在糟糕的假设-脏数据-上,那么,垃圾输入必然导致垃圾输出。脏数据可能会给你带来真正的伤害,因为这些实际上无效的数据会导致一些自动化操作被禁能,从而产生实际的经济成本。”
Branigan发现了三种脏数据。“第一种来自传感器的物理故障。它既无法检测环境的变化,也无法检测自身的故障,虽然它仍将向你提供格式良好的数据,但是这种数据完全是垃圾。第二种来自设备运行的固件的软件错误。即使是较新版本的固件也可能产生格式良好但完全错误的数据。第三种脏数据真正可恶,你需要对具体的机器操作非常了解,才能理解如何解释进来的数据。如果不了解这些,你会把错误的数据解释为有效数据,但是系统其它部分却会给出不同的解释。”
那么,脏数据能否被洗白白呢?
数据清洗工具
有许多工具可以帮助清洗数据。“现在已经有了很多很棒的工具,比如大受欢迎的Matlab、Labview和Python。我们自己的MetaWear API可以在所有主要编码语言下帮助实现数据过滤器。我通常建议客户们使用它们最熟悉的工具,而不是强行兜售我们自己的API。Python是一个很棒的工具,它有许多机器学习库,开源、易用,而且有很好的文档记录。”MbientLab的Kassovic说。MbientLab还使用博世的FusionLab,因为它们不仅自己提供传感器,还销售提供博世的传感器。
MEMS市场领导者博世传感技术公司也会其传感器提供驱动程序和库,帮助传感器实现检测、解读、监控、感知情境并预测意图,负责MEMS产品组合业务开发的Marcellino Gemelli写道。意法半导体提供库、驱动程序和传感器设置工具,以及可帮助简化设计的微控制器。
寻找具备合适专业知识的专业人才并非易事。“你不能派一名软件工程师去干固件工程师的活。”Kassovic说。
在企业的角度来看,让数据科学家参与清洗数据将花费太多的时间。“现在,各种机器都在源源不断地产生数据,可能会产生比人类产生的脏数据还要复杂的新级别脏数据,这将成为脏数据清洗的重点对象。”Branigan说。“大数据市场里有很多数据清洗工具,但是这些工具都以数据科学家为中心。对于一个相对静态的数据集,数据科学家清洗它,分析它,然后可以找到一些有趣的东西。这种方式应对人类生成数据的速度确实很有效,但是很难甚至不可能应对机器生成数据的速度。你最终需要一个自动化的系统,它从设备上获得实时数据,流水化地进行分析,然后把分析结果输出到企业的某个业务系统中,以便自动化地执行业务操作。”
传感器转向数字化可能会有所帮助。“数字通信绝对有好处。那些你从中获取并收集优质数据的传感器,它的噪声是不是因为模拟才产生的?我看到传感器行业存在向数字化转变的自然趋势,你可以在其中内置一些错误检查功能。数字系统存在一定的噪声区间,如果这些噪声出现在数字电路通道中,谁会在乎它呢?因为数据要么是1,要么是0,基本不可能出现数据反转,你可以对数据传输加入校验机制,如果校验失败,你可以把数据丢掉。”Pohlen说。
“尽管原始数据可能被过滤、补偿、纠正,但是在大部分情况下,用户的操作也有一定的限制。”负责博世传感器MEMS产品组合的业务开发的Marcello Gemelli在最近的一篇文章中指出。
“克服这些挑战的第一步是实施和集成适当的清洗工具,”Liaison Technologies的Parikh说。“这些清洗工具不仅处理数据质量,还要从项目的角度验证数据源头身份、可信度、时间序列。每个项目都有各自独特的要求。项目实施者可以应用一些通用的技术手段,但是必须做好准备,根据需要进行大规模定制,以实现业务目标。”
Liaison Technologies提供数据清洗、过滤、管理以及重复数据删除检测等业务。“我们提供的一个关键功能是追踪数据的血统,即从数据原始源头到清洗过的结构化数据的链路跟踪。”
对于安全关键系统而言,冗余可能是一种优秀且昂贵的解决方案。TT电子公司的Pohlen表示,“每个人都希望达到更高的ASIL等级,但他们是否一定要承诺提供更多感应能力?同样,ASIL等级也可以归结为数据是否正确,以及在后端如何解读这些数据,除非您可以在传感器中进行某种自诊断,否则最好的方法是冗余。”
图片新闻
最新活动更多
-
11月22日立即报名>> 【线下论坛】华邦电子与莱迪思联合技术论坛
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
即日-12.5立即观看>> 松下新能源中国布局:锂一次电池新品介绍
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【线下论坛】华邦电子与恩智浦联合技术论坛
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论