CiteSpace展示报告
CiteSpace软件展示报告
一、概述
CiteSpace是由美国德雷塞尔的陈超美教授开发的一款可视化文献分析软件,能够
显示一个学科或知识域在一定时期发展的趋势与动向,形成若干研究前沿领域的演进历程。简单说来,就是找出学术文献中文字(包括:作者,杂志,关键词,被引用词汇等等)的关系,并可视化表示出来。
二、作者简介
陈超美(Chaomei Chen),男,1960年9月生于中国北京,英国籍,美国德雷塞尔大
学?(Drexel University, Philadelphia, PA, USA)信息科学与技术学院副教授(终身教职)。
大连理工大学长江学者讲座教授,Drexel– DLUT知识可视化与科学发现联合研究所
所长。他是当代信息可视化与科学知识图谱学术领域中的国际顶尖学者和领军人物之一信息可视化新领域的最早开拓者之一。
陈超美的个人博客有相关最新内容。
CiteSpace的主页CiteSpace/有一部分基础资料可以作为蓝本学习使用软件。
陈超美的与他的CiteSpace的发展历程:
1999年率先发表了该领域第一部专着
2002年创办了该领域第一份该领域的专业期刊《Information Visualization》
2002年独立创办了每年一度的Symposium on Knowledge Domain Visualization(KDViz)
系列国际讨论会。
2004年开始利用其开发的软件CiteSpace,在该领域写出了不少经典论文,如
《Searching for intellectual turning points: Progressive Knowledge Domain Visualization》《CiteSpace II: Detecting and visualizing emerging trends and transient patterns in
scientific literature》
2005年提出信息可视化领域面对的十大挑战性问题;在信息可视化领域中引入
Pathfinder算法,扩展和提高了文献引文共被引网络分析的效率和应用范围。
2011年7月发布CiteSpace 2.2 R11版本。最新版本是今年7月份发布,不过它需要64位的大内存的电脑去支持。
三、信息可视化与科学知识图谱的发展历程
因为CiteSpace是一种可视化软件,它与科学知识图谱有密切关系,我们大概讲一
讲这个发展过程。
科学知识图谱基本概念:
1、传统的科学计量学图谱以简单的二维、三维图形(如:柱形图、线性图、点布图、扇形
图、平面图等)表达科学统计结果
2、新时期的科学计量学图谱
随计算机处理能力日益提高,文献信息电子化和专利授权,知识图谱等工具在模拟人类数据分析等方面,可帮助人类进行某些领域的判读、搜索、决策、预测……
例如:文献共被引,一段时间内文献聚类。
只要有坐标、有文献的发表出处地点,结合地图就能形成一幅文献地理位置图
3、CiteSpace研究领域
(1)CiteSpace II的概念模型
在第一代Citespace 中,用户只能通过视觉观察找到网络中连接不同聚类的点,进而确定关键点。而Citespace II 有了更好的优化,能用时间切片抓拍(Time-sliced (2) (3) A: 重要学科领域分析(以术语和学科主题作为网络节点)学科领域分布图
B: 研究前沿的知识基础分析(以参考文献作为共引分析节点)基于文献共
被引的网络知识图谱
C: 研究热点分析(关键词作为网络节点)基于关键词共现的网络知识图
② 研究前沿与发展趋势分析——时序图(timeline 、timezone )
③ 实现文献计量与地理地图的整合(GoogleEarth )
④ ……
四、 术语解释
1、 Nodes 节点——在绘图软件中,节点即曲线中的控制点、交叉点,网络连
接的端点。
2、 Centrality 节点中心度——是指其所在网络中通过该点的任意最短路径的条
数,是网络中节点在整体网络中所起连接作用大小的度量。中心度大的节
点相对地容易成为网络中的关键节点。
3、 Betweenness centrality 中间中心性——用来进行中心性测度的指标,指网络
中经过某点并连接这两点的最短路径占这两点之间最短路径线总数之比。
中间中心性高的点往往位于连接两个不同聚类的路径上。
引文数据
Source 共引矩阵 Co-Citation
解释 检索
自动标注
类标签
Cluster Labels 降维 因子、主成分 Factors, 意义和分析线索 被引文
献 概述 主题句 Topical 引文的SVD 引文网络 Network of Citing Articles 聚类 类 Clusters 可视化
图谱
Graphic
4、Burst terms 突现词——通过考察词频,将某段时间内其中频次变化率高的词
从大量的主题词中探测出来。
5、Citation tree-rings 引文年环——代表着某篇文章的引文历史。引文年轮的颜
色代表相应的引文时间。一个年轮厚度和与相应时间分区内引文数量成正
比。
6、Citation half-life 引文半衰期——半衰期描述引文(文献)老化程度,半衰
期越大,显示引文的有效价值越大。
7、Pathfinder network scaling 路径网络简化——种网络简化算法。
8、Minimal spanning trees最小生成树——种网络简化算法。
9、Pivotal points (Turning points)关键点(转折点——网络中中间中心性大
于或等于0.1的节点CiteSpace图谱中用紫色的节点表示网络中的关键节点。
10、Thresholds 阈值——用户在引文数量、共被引频次和共被引系数三个层次
上,按前中后三个时区分别设定阈值,其余的由线性内插值来决定。
11、Time-zone view 时区视图
12、Time slicing 时间分割——设定整个时间跨度和单个时间分区长度。
13、Research front 研究前沿——定义为一组突现的动态概念和潜在的研究问
题,引证文献组成了研究前沿。
14、Intellecture base 知识基础——是它在科学文献中( 即由引用研究前沿
术语的科学文献所形成的演化网络)的引文和共引轨迹,被引文献组成了知
识基础。
五、软件安装与简介
1、环境配置
CiteSpace是一个以java语言编写的程序,必须依托浏览器进行启动。因而必须首先配置java环境。要CiteSpace能正常运行,系统必须安装6.0以上的JDK(Java Development Kit)才可以,具体只需要登录java官网下载最新版本的JDK并安装即可。目前最新的版本为JDK 7.9版。
下载地址:
2、安装包下载
CiteSpace目前最新的版本为3.1 R3版,但是该版本是基于64位系统开发的,有可能在32位的系统上出现错误,并且需要通过java虚拟机(JVM, Java Virtual Machine)来运行,所以建议使用32位系统的同学选择3.0 R5版进行下载。
下载地址:
而如果是64位系统的同学,就选择3.1 R3版本里最新的链接。JVM需要在内存中运行,所以,需要按照具体电脑的内存容量来选择所运行的JVM。由上至下分别是512M、1GB、2GB和4GB内存的JVM,可适当选择。文件为一个JNLP文件,大小约200K。
下载完成后,打开该JNLP文件,会弹出以下一个对话框,
勾选“我接受风险并希望运行此应用程序”,并按“运行”,则可自动安装。
安装完成后,会弹出以下一个窗口,
将其最大化后,点击最下方的Proceed按钮,即可进入CiteSpace。
如见到下面的画面,证明安装已成功完成。
3、控制界面简介
(1)数据库选择
在CiteSpaceII中,用户可以从web of science中下载数据,然后导入到CiteSpace
中进行分析,也可以从PubMed(公共医学数据库)中直接下载数据到CiteSpace,
然后进行分析。
(2)数据导入区
在web of science数据库下,这一区域主要用于导入已下载的数据,可以通过设
置文件的存储路径来读取数据文件。
而在PubMed数据库下,则可以直接在Query框内输入关键字、时间跨度等直
接下载数据进行分析。
(3)设置时间分隔
在这个区域可以设置要读取的文件的时间跨度,并且设置CiteSpace统计的时间
片。如果需要以每三年或每五年作为文献的研究时间片,可以在Slice处设置3
或5。
(4)图像的端点类型和连线的计算方式
这个选项比较关键。上面一个选项主要用于确定生成的图像中的端点代表是什
么。有参考文献、作者等等的选项。下面一个选项是用于确定生成的图像中两
点间的线的粗细程度,通过计算两个端点(可以是两篇参考文献、两个作者等)
的余弦相似度确定两点间连线的粗细,相似度越高,连线越粗。
(5)节点与连线筛选
这一区域是生成图形中最关键的一步。这几种方式主要来控制最终生成的网络
将由哪些节点组成。这是第一种方法,第一种办法最简单,最适于初学阶段,
所以目前版本将其放在首位。其余几种办法逐渐变得复杂,最好等熟悉系统之
后再考虑。
Top N:系统设定N=30,意为在每个time slice中提取N个被引次数最高的文献。
N越大生成的网络将相对更全面一些。
Top N%:将每个time slice中的被引文献按被引次数排序后,保留最高的N%作为
节点。
Threshold Interpolation:设定三个time slices的值,其余time slices的值由线性
插值赋值。三组需要设置的slices为第一个,中间一个,和最后一个slice。每组
中的三个值分别为c,cc,和ccv。c为最低被引次数。只有满足这个条件的文献
才能参加下面的运算。cc为本slice内的共被引次数。ccv为规范化以后的共被
引次数(0~100)。
Select Citers:与以上方法不同的是这个方法先选施引文献,然后需再用方法1-3
之一。先Check TC Distribution然后填写Use TC Filter后面的两个数字:最低和
最高TC值(Time Cited),选定User TC Filter前的选项。按Continue,再设定方
法1,2,或3。
(6)修剪图像
这一选项主要用于对生成的图像进行路径的寻找、发现最小生成树和修剪产生
的网络,留下最主要的枝干。
(7)图像生成选项
这一选项主要用于确定产生的图像聚类时是使用动态还是静态的方式进行聚
类,同时也可以选择是按时间片来分开不同时间段的图像还是融合到一起来表
现。
4、图像界面
首先主要介绍工具条上的主要功能:
自动聚类和添加聚类标签后可以得到这样的图:
然后我们介绍一下图像的控制面板:
六、具体应用
1、关于Terrorism的文献分析
这一个例子的分析是基于作者在《CiteSpace II Detecting and Visualizing Emerging Trends》这篇文章里的详细分析。
(1)背景介绍
恐怖主义(1990 ~2003年):1995年的俄克拉荷马城爆炸和2001年的9.11恐怖主义袭击是最具杀伤力的恐怖主义事件。其每个事件都可能改变研究的进程。科学共同体如何应对这些事件和衍生的结果?这个研究领域的新兴研究前沿是什么?他们同较早的研究前沿是怎样联系的?
(2)使用软件中的demo
(3)设定时间跨度与阈值
(4)图像分析
A:Cluster view
以下两幅配图是作者在《CiteSpace II Detecting and Visualizing Emerging Trends》一文中所用到的配图。
由此看出,恐怖主义研究视图有三个明显的聚类:
①聚类A,恐怖主义爆炸中的身体外伤(左上),前沿术语有body injuries(身体外伤)
和terrorist bombing(恐怖爆炸);
②聚类B与生化武器威胁相关的卫生保健(右上),前沿术语有health care(卫生保健)
和chemical weapons(化学武器);
③聚类C,9.11恐怖袭击事件对心理和精神的影响(中下),前沿术语有September 11
(9 .11),United States(美国)和post-traumatic stress disorder(创伤后应激障碍)。我们可以选到处于中心点的文章,可以对其展开内容研究,详见下图。
以下关于两幅时序图是我们基于demo绘出的图。
B:Timeline
timeline是先把整个网络划分为几个聚类,然后按时间顺序排列出各个聚类中的文献。这样可以观察到很多现象。这个状态下的选项主要是显示聚类的标签,节点的特征等等。
例如标签#10化学恐怖主义,该专业术语最早于1970年的一篇文献中被检测到,而在1994年的文献至1999年的文献节点年轮急剧放大,凸显了该时段“恐怖主义”中的热门研究主题。还有#2创伤后应激障碍的研究始于1985,而到2000年左右的研究达到高峰,我们都知道美国911事件,该研究应该与当时这个重大事件有关。
C:Time-zone
文章随着时间的共被引关系。能直观观测地每个时期最热门的话题、文献。
(5)验证关键点
在《CiteSpace II Detecting and Visualizing Emerging Trends》一文中,软件作者认为,关键点的本质可以通过两条途径来确认:
①将关键点文章的作者视为该领域的专家,咨询;
②对关键点文章的引用和被引用的段落进行内容分析。
右键节点google scholar,找到文章。右键节点,看到文献激增过程,该文献的参考文献等细致内容。
2、基于Web of Science数据库的webometrics学科文献分析
(1)数据搜集
首先点击下面的网址,登录到中大图书馆,然后从这个入口进入到web of science数据库
进入到web of science数据库后,设定好关键字,然后选择要检索的文件时间,一般按一年来进行下载,从每年的1月1日开始到12月31日结束。选择完毕以后按“检索”。
检索出来结果后,拉到检索结果页面的最下方,有个输出检索结果的选项,依照如
下设置,把文献记录以TXT文档的方式下载到本地电脑。
按下“保存”按钮后,会弹出一个文件保存的对话框,此时文件名需要按
照”download*.txt”命名方式进行命名,如2008年的数据命名到download2008.txt文档中。
点击“保存”则一个年份里面的数据就下载完成。而要做出相对较完善的文献分析,则需要从学科的出现历年来的数据一年一年地下载下来。如我需要下载webometrics 的文献数据,则需要把1997-2012年的数据每年一个文件这样保存下来。
(2)数据导入
把数据下载完成后,我们需要将数据导入到CiteSpace中去,打开CiteSpace后,点
击建立一个新的project:
然后指定一个地址储存这个project的配置文件,另外将数据目录指向存储下载回来数据的文件夹,需要注意的是该文件夹不要有其他的数据文件,最后就只有下载回
来的文件。
按下”save”之后,数据的路径就完成配置。
(3)设定时间跨度与阈值
配置完数据后,我们需要设定数据的时间跨度,准确点来说是我们需要分析哪段时
间内的文献,由于Webometrics这个概念最早是在1997年提出,所以本例子把时间设为1997-2012年。
设定完成后,需要设置阈值来控制产生出来图形的节点数目。初学者可以通过设置
TOP N来筛选出每年前N位被引次数最高的文献作为节点,而进阶的使用者则可以
通过设置阈值,设定具体的被引频次、共被引频次和共被引系数来控制出现的节点
数目。
设置阈值并不是一次就能设置好,需要多次的观察然后进行调整,对节点数目出现
过多的年份可以适当调高各个参数。如本例子中2003年-2008年间出现了大量的引用,所以可以适当调节一下第二时间片的值,控制节点数目。一般设置了TOP N就
不需要设置阈值,设置了阈值也就不需要设置其他了。
最后,在Visualization中选择animated,这样子CiteSpace可以动态地计算网络,可以更好地看到文献聚类的过程。
设置好了之后,按下”GO”就开始导入数据,生成图像了。出现以下的对话框,证明数据导入成功,可以开始生成图像了,按下”Visualize”即可生成图像。
(4)图像分析
等到图像基本不再动了,我们就可以按下“停止布局优化过程”按钮,然后
我们就基本得到我们的文献聚类图像了。
我们通过图像可以看出,网络信息计量学的研究内容相对比较集中但是近年已经开
始出现了离群点,证明有几个新的分支学科正在形成当中。
而当中我们也可以看到,以Almind在1997年发表的和Ingwersen在1998年为代表的论文所在的圆圈半径最大,颜色最为丰富。这意味着这些文章的被引次数很高,
而且在各个时期都有人来引用。圆圈所处的位置都是在整个图形的正中央。这证明这两篇文章都是这个学科最基本最核心的文章,在整个网络信息计量学中起到关键的作用。
旁边小的分支意味着新的分支学科正在形成当中,在网络信息计量学的基础上发展出去。
然后我们可以按下“标注聚类内容”按钮,看看具体聚类的内容。我们可以通过拖拽来看出具体的聚类内容有什么。
由这幅图我们可以看出,新兴的分支学科主要向科学评价、共链分析、社会化媒体分析方向发展。
3、基于CSSCI数据库的网络信息计量学学科文献分析
除了使用Web of Science数据库外,我们还可以通过从CSSCI上下载文献,进行中文的学科文献分析。
(1)确定主题词和专业术语
主题词为:网络信息计量学、网络计量学。
(2)收集数据
登入,以检索式“网络信息计量学or网络计量学”进行搜索。选择年份从1998~2011年。
在检索页出来后,到每一页的末尾,全部选择,然后点击“下载”。
保存数据后,由于CSSCI数据格式与citespace所使用的数据格式不同,我们使用刘盛博所制作的“转换格式的程序”,转换数据。转换完毕后,该数据就可供使用了。(3)导入数据
新建一个project需要特别注意的是,Language要选择Chinese
在Preference选项中,勾选Chinese coding
(4)时区分割与阈值选择
时区切片为2,抓取切片在TOP N per slice中选择5。
(5)显示
Cluster view:
一共分成七个聚类,但是能感觉得出分类并不成功,好多相同概念在其他聚类中出现。问题的原因:可能是我们所能使够运行的版本比较旧,是2011年7月发布的
2.2R11版本,没有很好的支持中文。最新版本是今年7月份发布的,不过它需要64
位的大内存的电脑去支持。
Timezone:
从这幅文献时间分布图,能看出2000~2004年,我们的几位该领域的大师邱均平、Ingwersen Peter、Thomas Owen、Almind Tomas C已经为webometrics打下了坚实的
基础好,他们的文献被广泛的引用、同被引用。
(6)展示功能:实现文献计量与地理地图的整合
CiteSpace2GoogleEarth.pdf
七、结语
总而言之,CiteSpace是一款功能十分强大的可视化文献分析软件。通过分析文献的引用关系,它能帮助我们有效地找出一个学科发展过程中产生关键影响的文献,并且能够发现该学科目前的发展方向,发现新兴的分支学科。