藏文字同现网络的小世界效应和无标度特性

第32卷 第10期

2018年10月中文信息学报JOU RNAL OF CHINESE INFORM A TION PROCESSING Vol .32,No .10Oct .,2018文章编号:1003‐0077(2018)10‐0045‐08

藏文字同现网络的小世界效应和无标度特性

才智杰1,孙茂松2,才让卓玛1

(1.青海师范大学计算机学院藏文信息处理教育部重点实验室,青海西宁810008;

2.清华大学计算机科学与技术系清华信息科学与技术国家实验室,北京100084)

摘 要:复杂网络具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质,而语言文字作为人类智慧和文

明的结晶,是经过漫长演化形成的复杂网络。该文对藏语诗歌、散文、政治、佛教、教材和口语等六类具有代表性的

体裁语料,每类各取15篇共90篇文章构建了97个藏文字同现网络,分析了藏文字同现网络的最短路径长度、聚类

系数和度分布,实验数据显示97个藏文字同现网络都具有小世界效应和无标度特性,表明藏文字同现网络都具有

小世界效应和无标度特性。

关键词:藏文字;同现网络;小世界效应;无标度特性

中图分类号:T P 391 文献标识码:A

The Small World Effect and the Scale ‐free Property of Tibetan Characters 'Co ‐occurrence Network

CAI Zhijie 1,SUN Maosong 2,CAI Rangzhuoma 1

(1.Key Laboratory of Tibetan Information Processing of Ministry of Education ,School of Computer Science ,

Qinghai Normal University ,Xining ,Qinghai 810008,China ;2.Tsinghua National Laboratory for Information Science and Technology ,Department of Computer

Science and Technology ,Tsinghua University ,Beijing 100084,China )Abstract :Complex networks have part or all of the properties of self ‐organization ,self ‐similarity ,attractors ,small world ,and scale ‐free .Languages and characters ,as the crystallization of human wisdom and civilization ,are com ‐

p lex networks formed through long evolution .The paper presents 97Tibetan characters 'co ‐occurrence networks de ‐rived from 90p assages from 6representative corpus of Tibetan poems ,p roses ,p olitics ,Buddhism ,teaching materi ‐als and spoken language (15p assages per corpus ).This paper analyzes the shortest path length ,clustering coeffi ‐cient and degree distribution of Tibetan characters 'co ‐occurrence networks .Experimental data shows that the 97Ti ‐betan characters 'co ‐occurrence networks have small world effect and scale ‐free property ,indicating that all Tibetan characters 'co ‐occurrence networks may have small world effect and scale ‐free property .Keywords :Tibetan characters ;co ‐occurrence network ;small world effect ;scale ‐free property 收稿日期:2017‐09‐15 定稿日期:2018‐01‐26基金项目:国家自然科学基金(61866032,61163018,61262051,61363055,61662061);国家社会科学基金(13BYY 141,16BYY 167,15BYY 167);教育部“春晖计划”合作科研项目(Z 2012093,Z 2016077);青海省基础研究项目(2017‐ZJ ‐767,2019‐SF ‐129,2015‐SF ‐520);“长江学者和创新团队发展计划”创新团队资助项目(IRT 1068);青海省重点实验室项目(2013‐Z ‐Y 17,2014‐Z ‐Y 32,2015‐Z ‐Y 03);藏文信息处理与机器翻译重点实验室项目(2013‐Y ‐17)0 引言

语言文字是人类智慧和文明的结晶,是经过漫

长演化形成的复杂系统[1]。复杂网络从全局的视角

来研究复杂系统,无论网络的结构有多复杂,其规模

有多大,它都采用节点和边两大基本要素来研究复杂的网络系统,复杂网络已经成为研究复杂性科学与复杂系统的强有力工具。目前,复杂网络的研究和应用不仅渗透到数学、计算机科学、物理、化学、生物和工程技术等各个学科,而且已经在社会、政治、军事、医药、经济、管理和语言[2‐3]等各个层面、各个

万方数据

相关文档
最新文档