基于属性关联相似度的中文简称匹配算法研究

收稿日期:2018年3月6日,修回日期:2018年4月17日

作者简介:郭晖,女,硕士,讲师,研究方向:计算机应用技术。董源,男,工程师,研究方向:信息自动化。周钢,男,博士研究生,讲师,研究方向:大数据技术,数据挖掘。?

1引言

大数据应用中由于数据来源各异、结构不一,

为了提高数据分析性能,需要对不一致、不准确的等脏数据进行数据清洗,或对不同数据源的同一数据进行数据集成[1~2]。字符匹配是指寻找表示实体世界中同一实体的字符串,相互匹配的字符串应对具有同义性,可互换[3]。

在中文语言环境中,对于中文固定名词,如组织机构名等常用简称,如“华中科技大学”简称为“华科大”或“华科”,研究同一名词的“简称”和“全称”两个字符串的匹配算法,其核心在于字符串相似度的度量方法。

本文针对大数据应用特点,以中文固定名词所在数据源为基础,采用基于统计方法,运用数据挖

掘技术,提出了基于属性相关度的中文简称匹配算法,该算法通过对匹配名词所处属性的强相关属性的数据范围对比相似度,按照中文简称和全称比量设置置信度,两者乘积得到匹配度。该算法对大数据中保障数据质量,提高数据分析性能具有重要意义。

2问题背景

中文语言环境中,对于很多固定名词,通常会

约定俗成的简短称谓,即为简称。在大数据具体应用中,由于数据采集规范要求不同,数据来源不一,容易出现同一对象有简称和全称两种不同表述,在对数据进行数据清洗或对不同数据源进行数据集成时,需要对中文固定名词的“简称”和“全称”字符串进行有效匹配,是提高数据质量的重要途径。

基于属性关联相似度的中文简称匹配算法研究

?

晖1

源2

钢1

(1.海军工程大学电子工程学院计算机工程系武汉

430033)(2.海军水文气象中心

北京

100000)

字符匹配是数据清洗中提高数据质量的重要途径。针对中文名词简称的匹配问题,在分析现有中文匹配算法

的基础上,提出一种基于数据库中各属性关联度的匹配算法,通过对匹配名词所处属性的关联属性的数据对比相似度,按照中文简称和全称数据量设置置信度,从而得到简称匹配度。实例实验表明,该算法具有较好的适用性和准确性。

关键词

数据清洗;数据挖掘;关联度;中文简称匹配

中图分类号

TP393

DOI :10.3969/j.issn.1672-9722.2018.09.006

Research of Chinese Abbreviated Name Matching Algorithm Based

on the Similarity of Associated Attribute

GUO Hui 1

DONG Yuan 2

ZHOU Gang 1

(1.Department of Computer Technology ,Electronic Engineering School ,Naval University of Engineering ,Wuhan

430033)

(2.Naval Hydrographic and Meteorological Center ,Beijing

100000)

Abstract

Character data matching is an important way to improve the quality in data cleansing.For the problem of Chinese

short term matching ,based on the analysis of existing Chinese matching algorithm ,a new matching algorithm is proposed based on database each attributes associated degree.Abbreviated matching degree is counted by the associated attribute comparison similarity

in which Chinese abbreviated term is confident in accordance with the amount of data of Chinese abbreviated and full name.

Key Words

data cleansing ,data mining ,correlation ,Chinese abbreviated name matching Class Number

TP393

万方数据

相关文档
最新文档