多模式数据融合中数据质量控制方法的研究与实现

第一章绪论 (1)

1.1课题研究背景 (1)

1.2课题研究现状 (1)

1.3课题研究内容 (2)

1.4课题研究意义 (2)

1.5文章组织结构 (3)

第二章相关理论及技术 (5)

2.1数据清洗 (5)

2.1.1单数据源质量问题 (5)

2.1.2多数据源质量问题 (7)

2.2多模式数据融合 (8)

2.2.1模式映射 (9)

2.2.2记录匹配 (10)

2.3相关系统简介 (11)

2.4本章小结 (12)

第三章SmartInt体系结构 (13)

3.1数据准备模块 (13)

3.2数据预处理模块 (14)

3.3模式映射模块 (14)

3.3.1基于模式名称的模式映射子模块 (15)

3.3.2基于链接的模式映射子模块 (15)

3.4记录匹配模块 (15)

3.4.1基于主模式值的记录匹配子模块 (15)

3.4.2基于链接的记录匹配子模块 (16)

3.5多源融合管理模块 (16)

3.6交互模块 (17)

3.7展示模块 (19)

3.8本章小结 (20)

第四章基于类决策树的记录匹配算法 (21)

4.1基于非主模式的记录匹配 (21)

4.2基于非主模式识别度的记录匹配 (22)

4.3基于非主模式概率规则的记录匹配 (22)

4.3.1类决策树的构建 (23)

4.3.2基于类决策树的非主模式的记录匹配算法 (26)

4.4基于链接的记录匹配算法 (28)

4.5基于类决策树的记录匹配算法 (30)

4.6各种记录匹配算法的比较 (30)

4.7本章小结 (31)

第五章SmartInt核心模块详细设计 (32)

5.1模式映射模块设计 (33)

5.1.1基于模式名称的模式映射子模块设计 (33)

5.1.2基于链接的模式映射子模块设计 (35)

5.1.3模式映射的效果 (37)

5.2记录匹配模块设计 (37)

5.2.1基于主模式值的记录匹配子模块设计 (38)

5.2.2基于链接的记录匹配子模块设计 (41)

5.2.3记录匹配的效果 (43)

5.3交互模块设计 (44)

5.4本章小结 (45)

第六章SmartInt实现及展示 (46)

6.1数据准备模块实现 (46)

6.2数据预处理模块实现 (48)

6.3核心模块实现 (49)

6.3.1模式映射模块实现 (49)

6.3.2记录匹配模块实现 (51)

6.3.3交互模块实现 (55)

6.4系统展示 (56)

6.4.1手机数据集 (56)

6.4.2房源数据集 (58)

6.5本章小结 (59)

第七章总结与展望 (60)

7.1全文总结 (60)

7.2工作展望 (60)

参考文献 (62)

攻读硕士学位期间发表的论文 (65)

致谢 (66)

多模式数据融合中数据质量控制方法的研究与实现第一章绪论

第一章绪论

1.1课题研究背景

在信息全球化不断深化的时代，高质量的数据已经成为各个政府和企业的重要资源。通过这些高质量的数据，政府和企业可以分析出社会经济指标、企业商业情报等重要信息，从而作出更有效的决策。随着互联网信息技术的迅猛发展，数据正在以几何式高速增长，但同时这些数据的不一致、冗余和缺失等质量问题也日益凸显[1]。数据质量问题通常包括六个维度[2]：①数据准确性；②数据一致性；③数据完整性；④数据时效性；⑤数据可访问性；⑥数据确定性。这六个维度上产生的数据质量问题已经开始影响政府和企业作出准确的决策，甚至造成严重的经济损失[3]，因而获取高质量的数据已成为许多政府和企业的当务之急。

在大数据环境下，数据往往以多种多样的形式存储在不同数据集中，政府和企业往往需要将这些不同形式的数据搜集和整理起来并加以利用。多模式数据融合是将这些不同组织形式，即不同模式下的数据进行关联融合与统一的过程。具体来说，数据融合是指将不同数据源中模式层以及实体层的异构数据进行融合的过程[4]。通过数据融合，政府和企业能够从海量数据中充分获取普遍规律等重要信息，从而作出更为更符合实际情况的决策，为自身和社会创造价值。

然而，各个数据集中的数据存在的质量问题往往导致数据融合异常困难，如果只是采用较为简单直接的融合办法，所得到的融合数据也将存在更为严重的质量问题。因此，如何做好多模式的数据融合，以及解决好融合过程中因为数据质量不高而带来的一系列问题，已经成为当下研究的重点及难点。

1.2课题研究现状

数据融合通常包含模式层和实体层的融合，不同层面的异构数据需要使用不同的方法进行处理。模式层的融合旨在将不同数据集中的不同模式进行统一，研究者对此已经提出了许多行之有效的方案[5]，这些方法一般是使用基于字符串相似度的映射算法[6]和基于属性值集合相似度的映射算法[7]来判断不同数据集中的模式是否相同。实体层的融合则是对不同数据集中的指向或关于同一实体的记录进行匹配