RFID数据清洗与数据清洗的区别

RFID数据清洗和一般数据清洗的不同：

RFID数据清洗已经跨越到硬件范畴！造成脏数据的原因是硬件原理和硬件所处环境本身！要提高RFID数据清洗能力，就必须同时研究技术原理和环境本身之间的互动关系，而这已经超出了工业工程的学科范畴！要研究则必须掌握相应的硬件知识！研究成果必须从数学实验、物理实验或者半物理实验中得到验证方可。

一般的数据清洗，比如采集到数据仓库、数据库、网页抓取的数据、统计回收的数据，在研究数据清洗的时候，更多的时候考虑的是数据本身的结构！

要理解这个问题，要从数据来源说起：

从传感器采集的数据，本身是模拟信号的产物！

从RFID采集的数据，本身是数字信号的产物！

从购物、搜索、浏览、登录、注册、评论等网页、网站抓取的人的行为数据，无法获知数据产生的方式，从网络在线调查问卷产生的数据！由财务、生产、物流计算产生的数据量（一般的数据清洗更多的是指后者！即文本数据、）

可见一般的数据清洗的数据有行为数据、财务、金融、政府、生产、物流等活动数据！

不管是物流大数据，医疗大数据，金融大数据，生产大数据，所有这些数据都有一个基本特征，即是活动，可以表达一定的基本事件！

——————————————————————————————————————————————————————————————————————————

而所谓的RFID数据清洗，这里的RFID数据是原始数据，只有编码，地点和时间，三个基本信息，这样的活动还不是基本活动。基本活动应该是哪个标签在哪个时刻点到达哪个工序或位置！

因为一般的数据清洗所清洗的“脏”数据是明显的缺失或者错漏的数据，在清洗过程中对数据的产生并不关系，或者说不是关心的重点！而RFID数据清洗则必须关心硬件和硬件环境，通过调整硬件和环境之间的关系来提高数据清洗的准确率！

一般的数据清洗只有在数据挖掘阶段，才会关心挖掘结论背后数据产生的真正原因是否可靠！依靠的是统计和推断！依靠统计推断消除个体因素对整体结论的干扰！

——————————————————————————————————————————————————————————————————————————————