全球重要信息计量学家的可视化分析_以作者共被引为视角

全球重要信息计量学家的可视化分析_以作者共被引为视角
全球重要信息计量学家的可视化分析_以作者共被引为视角

收稿日期:2011-07-22修回日期:2011-09-21

作者简介:刘艳华(1985-),女,博士研究生,研究方向:社会科学研究评价;华薇娜(1956-),女,教授,研究方向:社会科学研究评价;袁顺波(1982-),男,博士研究生,讲师,研究方向:人文社会科学研究评价。

全球重要信息计量学家的可视化分析

———以作者共被引为视角

刘艳华

1

华薇娜

1

袁顺波

1,2

(1.南京大学信息管理系

南京210093;2.嘉兴学院商学院嘉兴314001)

以Web of Science (SCI -E ,SSCI ,A&HCI ,CPIC -S ,CPIC -SSH )为数据源,借助可视化分析软件

CiteSpace2.2.R11,对所搜集的信息计量学领域1955-2010年的3567篇文献进行可视化分析,构建作者共被引分析的可视化图谱。界定出被引频次或者中心度较高的48位信息计量学家,

将其分为三个区,并结合文献信息统计第一区作者加菲尔德、穆德、格伦采尔、埃格赫、普赖斯、舒伯特、布劳恩、斯莫尔、鲁索、怀特、默顿等11位信息计量学家的学术成就,为了解信息计量学的重要学者及学科结构提供了独特的视角。关键词

信息计量学

作者共被引分析

可视化分析

CiteSpace II

中图分类号

G316

文献标识码

A

文章编号1002-1965(2012)01-0076-05

Visualization Analysis of the World Important Informetric Scientists :An Author Co -citation Perspective

LIU Yanhua 1

HUA Weina 1

YUAN Shunbo 1,2

(1Department of Information Management ,Nanjing University ,Nanjing

210093;

2.School of Business ,Jiaxing University ,Jiaxing

314001)

Abstract

Based on the ISI Web of Science ,we collected 3567infrometric documents from 1955to 2010.Using the visualization tool

CiteSpace2.2.R11,we analyzed the infrometric documents ,and then constructed the visualization mapping of author co-citation.48in-formetric scientists with high frequency or centrality have been distinguished and divided into three parts.Then combined with the analysis of scientists'published documents in the area of informetrics ,we analyzed 11scientists'academic achievements in the first part which in-cludes GARFIELD E ,MOED HF ,GLANZEL W ,EGGHE L ,PRICE DJD ,SCHUBERT A ,BRAUN T ,SMALL H ,ROUSSEAU R ,WHITE HD ,and MERTON RK in detail.The authors hope that the study can provide a unique perspective to understand the important in-formetric scholars and the subject structure.Key words

informetrics

author co-citation analysis

visualization analysis

CiteSpace II

0引言

比利时科学家奥特勒(Otlet P )于1934年最先提出

“文献计量学(bibliometrics )”一词,随后,德国学者纳克(Nacke O )于1979年在其著作中首次使用“信息计量学(informetrics )”

这一词汇,自此,信息计量学的研究开始受到学者们的关注。根据布鲁克斯(Brookes BC )、埃格赫(EGGHE L )和鲁索(ROUSSEAU R )等计量学家的定义,信息计量学发展至今其含义范围覆盖了文献计量学、科学计量学(scientometrics )和网络计

量学(webometrics )等方面[1]

。信息计量学在世界范

围内的蓬勃发展得益于学者们所做出的贡献,他们的研究成果推动了信息计量学不同分支学科的产生和发展。界定在该领域内做出突出贡献并且最受关注的重要学者,

以可视化的方式展示重要学者以及该学科领域内的突出成就,有助于对信息计量学领域重要学者的整体把握。

引文分析作为信息计量学领域的一个重要分支,是研究学术流派和学科结构不可或缺的有效手段。其中共被引分析自1973年被提出用于研究文献之间的动态联系以来,已在学术界产生了极大的影响,尤其是1981年被怀特(White HD )和格里菲斯(Griffith BC )

第31卷第1期2012年1月

情报杂志

JOURNAL OF INTELLIGENCE

Vol.31No.1Jan.2012

引入作者分析

[2]

,进行作者共被引分析,开创了学科结

构分析的新视角。之后,

学者们采用不同的算法和可视化软件对作者共被引实现可视化,以图形的方式展示学科领域内的重要作者,揭示出潜在的学科结构

[3-5]

1数据来源与研究方法

本文数据全部来源于美国ISI 的Web of Science

(SCI-E ,SSCI ,A&HCI ,CPIC -S ,CPIC -SSH )数据库,检索策略为“主题=(informetric*OR bibliometric *OR scientometric*OR webmetric*)”,检索自数据库回溯最早年份至2010年间的几乎全部相关文献,并限定文献类型为“论文”

、“综述”和“会议论文”,得到原始文献3511篇。将文献集导入HistCite 软件,对原始文献集的参考文献进行分析,利用HistCite 帮助查找遗漏的重要文献的功能,检索被所下载文献集引用频次在33次之上(即原始下载文献集中的被引频次排名前30的最低被引频次),

并且被WoS 数据库所收录的论文、综述、会议论文56篇,将其补充到HistCite 的原始数据中,再次检查是否遗漏重要文献

[6]

,循环直至

被文献集引用频次高于文献集中被引频次前30

的参考文献均在此文献集中。最终获得被遗漏的重要文献56篇,将其补充到原始检索数据中,即本研究的数据样本从1955-2010年共计3567篇。

本文采用国际先进的可视化分析软件Cite Space2.2.R11[7],对所收集的信息计量学领域文献进行作者共被引分析的可视化呈现。CiteSpace 信息可视化软件是由美国德雷赛尔大学的陈超美教授于2004年开发,该软件基于引文分析理论,利用寻径网络算法(Pathfinder )和最小生成树(Minimum Spanning Tree )修剪节点间的连线,简化分析对象之间的复杂性,突出重点关系。CiteSpace 可以对共被引作者进行分析,发现该学科的重要核心人物;通过引文网络分析,找出学科领域发展的关键节点文献

[8]

。本文

采用定量与定性分析相结合的研究方法,通过使用CiteSpace2.2.R11绘制作者

共被引图谱,并结合对共被引作者知识图谱中重要作

者的关键节点文献的分析,寻找信息计量学领域内的重要人物并展示其学术成就。

2结果分析

本文以共被引作者为分析对象,各参数的设置如

下:时间跨度选择从数据检索的最早年代1955-2010年,时间划分标准设置为2年;图谱修剪选择以Path-finder 算法修剪,并且选择修剪切片网和修剪合并网;显示方式选择静态显示并勾选显示合并网络;设置阈值部分c 、

cc 、ccv 分别为(3,3,15)、(6,4,20)和(6,4,20)。生成作者共被引可视化图谱,获得342个节点和714条作者之间的连线。

分别以中心度(见图1)和被引频次(见图2)为显示方式展示信息计量学领域作者的共被引图谱,图中的圆圈代表信息计量学领域设定阈值范围内入选的作者。在图1中,中心度超过0.15的节点有42个,这些作者的中心度较高,表明他们在信息计量学领域起到了重要的链接作用。在本文中被定义为关键节点作者,由带紫色标识的圆圈表示;图2显示了共被引作者的频次高低,图谱中圆圈越大,被引频次越高,受同行学者关注越多,

被引频次不低于200的节点有17个,这些作者受到较多的关注,在领域内具有较高的影响力,在本文中被定义为高影响力作者。根据图1和图2,本文对中心度高于0.15,或者被引频次不低于200的作者节点统计作者信息表(见表1),详细统计作者名称、所在国家

图1

信息计量学科重要作者图谱—

——中心度显示注:为使图清晰易懂,仅显示中心度>0.27的15个节点

·

77·第1期刘艳华,等:全球重要信息计量学家的可视化分析

机构)(以各作者最近文献标注国家机构为准)、被引频次(本文中为作者在所检索的文献集合范围之内的被引频次)、中心度、文献量(

本文中为所检索数据集中各作者发表的文献)和作者活跃期(有文献出现的最早年份至最晚年份)等信息。

图2信息计量学科重要作者图谱—

——被引频次显示注:为使图清晰易懂,显示被引频次>=250的16个节点

从图1、2和表1中的数据可以看出,依据数据的分布特征,

可将阈值范围内入选的342位作者分为四个区:第一区,被引频次不低于200,中心度大于0.15,共有作者11位,该区作者同时是关键节点作者和高影响力作者;第二区,被引频次不低于200,中心度不大

于0.15,该区共有作者6位;第三区,被引频次低于200,中心度大于0.15,共有作者31位;第四区,被引频次低于200,中心度不大于0.15,共有作者294位(表1中不显示)。

第一区作者是在小同行内受关注程度较高,而且中心度较高的重要人物。该区作者被引频次均较高,人均被引472.73次;在小同行的网络内中心度较高,往往是连接不同分支的核心节点;发文量相对较多,11位作者在信息计量学领域内共发表文献319篇,人均29篇;该区作者发表文献的年份从1955-2010年不等,

各作者的首篇文献均表1

作者统计表(被引频次>=200,或者中心度>0.15)

被引频

作者

所在国家(机构)

中心度被引频次文献量活跃期次≥200中心度>0.15

GARFIELD E 美国(科学信息研究所)0.279751955-09MOED HF 荷兰(莱顿大学)

0.435354185-09GLANZEL W 比利时(天主教鲁汶大学)0.274728184-09EGGHE L 比利时(阿赛尔特大学)0.374124987-10PRICE DJD

美国(耶鲁大学)0.23375265;76SCHUBERT A 匈牙利(匈牙利科学院)0.173704381-09BRAUN T 匈牙利(匈牙利科学院)0.183522981-06SMALL H 美国(科学信息研究所)0.183001073-09ROUSSEAU R 比利时(安特卫普大学)0.212983089-09WHITE HD 美国(德雷赛尔大学)0.372501481-10MERTON RK 美国

0.2201168被引频次≥200中心度≤0.15

VANRAAN AFJ 荷兰(莱顿大学)0.024392085-97NARIN F

美国(CHI RES INC )0.08395876-96LEYDESDORFF L 荷兰(阿姆斯特丹大学)0.073163591-10CRONIN B 美国(印第安那大学)0.032901691-09HIRSCH JE 美国(加州大学圣迭戈大学)0.02258205-07SEGLENPO

美国(印第安那大学)

0.11

251

6

92-00

·87·情报杂志第31卷

被引频次<200中心度>0.15BRADFORD SC英国0.241990———LOTKA AJ美国0.21970———VINKLER P匈牙利(匈牙利国家科学院)0.261672291-10 MCCAIN KW美国(德雷塞尔大学)0.33162886-10 NEDERHOF AJ荷兰(莱顿大学)0.331501687-08 MACROBERTS MH美国0.17140289-96 BORGMAN CL美国(加利福尼亚大学洛杉矶分校)0.23136583-02 FRAME JD美国(乔治华盛顿大学)0.271280———LUUKKONEN T芬兰(芬兰科学院)0.21119590-97 NOYONS ECM荷兰(莱顿大学)0.791052292-10 LAWRENCE S美国(NEC研究所)0.25890———GOMEZ I西班牙(高等科学研究委员会)0.16871990-10 OPPENHEIM C英国(拉夫堡大学)0.2484880-10 KING J英国(农业和食品研究委员会(AFRC))0.2766287-88 CHEN CM美国(德雷赛尔大学)0.3965402-10 BARABASIAL美国(圣母大学)0.18640———BUTLER L澳大利亚(澳大利亚国立大学)0.22631296-09 PETERS HPF荷兰(莱顿大学)0.1962491-94 EUR COMM欧洲0.28620———GUPTA BM印度(Natl Inst Sci Technol&Dev Studies)0.23541295-10 COSTAS R荷兰(莱顿大学)0.22521305-10 BORNER K美国(印第安那大学)0.2351903-10 BATAGELJ V斯洛文尼亚(卢布尔雅那大学)0.26460———AMIN M英国(爱思唯尔公司)0.2742102 BHATTACHARYA S印度(Natl Inst Sci Technol&Dev Studies)0.2441997-07 SWANSON DR美国(芝加哥大学)0.19400———TANG R美国(西蒙斯学院/天主教大学)0.3138503-08 VANRAAN A荷兰(莱顿大学)0.28360———KAMADA T日本(东京大学)0.24300———BARJAK F瑞士(Univ Appl Sci Solothurn NW Switzerland)0.1922307-08 WOEGINGER GJ荷兰(埃因霍温科技大学)0.22160———

在1990年之前发表,对信息计量学领域问题的研究较早,属于信息计量学领域相关问题研究的奠基者。表2对第一区作者的主要研究领域、学术贡献、获普赖斯奖时间等信息进行了统计。

第二区作者在小同行内受关注程度较高,但是中心度相对较低。该区作者被引频次均较高,人均被引324.83次;发文量较第一区作者少,6位作者共发表文献67篇,人均14.5篇;活跃年份整体来看要晚于第一区作者,从1976年至2010年不等,甚至部分作者的首篇文献始自2005年。该区作者既不是连接信息计量学不同分支学科的关键节点,也不是在该领域研究较早的人物,但是亦在各自的分支领域做出了突出贡献,推动了所在分支学科的发展。如纳林(NARIN F)是美国著名的专利统计分析家,他通过对文献计量与专利计量进行对比分析研究,证明专利计量与文献计量有着类似的统计规律[9]。美国加州大学圣地亚哥分校物理系教授赫希(HIRSCH JE)提出h指数,用于衡量科研人员的个人科研成就[10],有效地推动了科研评价的发展。

第三区作者属于阈值范围内网络中的关键节点,但是其在小同行内的被关注程度要稍低于前两区作者。该区作者被引频次较低,人均被引84.29次,远远低于前两区作者;发文量也较少,人均发文5.84篇,其中有11位作者没有以信息计量学为主题的文献发表,这些作者为非本领域作者或者其文献并非以信息计量学为主题;活跃年份整体来看要晚于第二区作者,从1983年到2010年不等,有5位作者的首篇文献在2000年之后发表。这些作者的被引频次和发文量虽

·

97

·

第1期刘艳华,等:全球重要信息计量学家的可视化分析

然比较低,但是往往是连接某两个分支学科的关键节点,对学科的扩展做出了较大的贡献。如美国德雷赛尔大学信息科学与技术学院的陈超美(CHEN CM)博士,是信息可视化新领域的最早开拓者之一,他在信息可视化领域中引入Pathfinder算法,开发了引文网络分析的CiteSpace软件,扩展和提高了文献引文共被引网络分析的效率和应用范围,对科学知识图谱理论与方法做出了奠基性贡献。

表2第一区作者学术成就表

作者主要研究领域学术贡献获普赖斯奖时间

加菲尔德(GARFIELD E)引文分析及其应用研究等科学引文索引、影响因子和引文编年可

视化软件的创立

1984

穆德(MOED HF)文献计量学指标、引文分析、行为科学

期刊评价新指标SNIP1999

格伦采尔(GLANZEL W)科研指标与评价、科学地图绘制、引文

分析方法、引文影响等

推动了期刊评价指标的发展1999

埃格赫(EGGHE L)h指数、g指数作为测评科学家、期刊影

响力的指标研究、科学研究产出、作者

共被引分析等

创建g指数2001

普赖斯(PRICE DJD)指数增长率、逻辑增长率、普赖斯指数、

普赖斯定律以及最大引文年限等

提出科学知识指数增长率据其设立普莱斯奖

舒伯特(SCHUBERT A)科研指标、出版物产出、引文影响、相对

引文影响等

推动了期刊h指数的发展1993

布劳温(BRAUN T)引文影响力、科研指标、相对引文影响

力等

创立期刊h指数1986

斯莫尔(SMALL H)共被引分析、科学发现、图谱绘制等首次提出了论文“共引”的概念和共被

引分析方法

1987

鲁索(ROUSSEAU R)期刊影响力评价、引文评价指标、国际

科学合作等

提出网络链接行为的幂指数规律2001

怀特(WHITE HD)信息检索、模型构建、作者共被引分析、

知识结构分析等

作者共被引分析的开创2005

莫顿(MERTON RK)科学社会学科学的马太效应的提出1995

3结论

本文利用CiteSpace软件对信息计量学领域作者同被引分析的可视化,展示了该领域关键节点学者及高影响力学者,并依据指标数据的分布特征分为四个区。第一区作者11位,在小同行内的受关注程度较高,亦是信息计量学网络内的关键节点作者。这些学者是信息计量学领域某一分支的奠基者或拓展者,在引文分析、文献计量学指标、知识地图的绘制、科研评价等分支领域做出了卓越的贡献。如论证了科学知识指数增长率的科学计量学之父普赖斯;证实了信息的产生和分布中具有“马太效应”的莫顿;开创了科学引文索引的加菲尔德;为改进影响因子而提出了期刊评价新指标SNIP的穆德;首次提出论文“共引”概念和共被引分析方法的斯莫尔;将共被引引入作者分析,成功地开创了作者共被引分析新视角的怀特;为改进h 指数而提出g指数的埃格赫。除此之外,格伦采尔、舒伯特、布劳温、鲁索等学者亦推动了期刊评价指标、引文评价指标、网络计量学等分支领域的纵深发展。第二区作者6位,在小同行内具有较高的受关注程度,但不是连接信息计量学领域不同网络的关键节点;第三区作者31位,在小同行内的受关注程度较低,不过具有较高的中心度,往往是连接某两个分支学科的关键节点,对学科的扩展做出了较大的贡献。

通过以上研究可以看出,CiteSpace软件可视化较传统的信息计量方法的优点是原始数据不需要转换为矩阵的形式,可以将Web of Science中的原始数据格式直接导入CiteSpace进行运算及作图;并且对于同一数据样本,可以从不同角度展现数据特征;该软件为高中心度或高被引频次的节点标记颜色,清晰地展现出网络中的关键节点。当然,CiteSpace软件的可视化分析也存在一些不尽如人意的地方,比如,阈值的设置没有一个客观的标准,基本依据研究者对研究领域的主观理解来设置,阈值设置的太高或者太低都会影响到知识图谱的生成效果,从而影响到分析结果。另外,由于共被引分析的数据为引文数据,对于新发表的优秀论文来说不能及时呈现,需经过时间的积淀,因此一些新崛起的优秀学者无法在图谱中展示出来,这些问题都有待我们进一步研究。

(下转第101页)

·

08

·情报杂志第31卷

Web Communities[M].Ohio:Ideal Group Inc,2003:57-84[3]Vaughan L,Gao Y,Kipp M.Why Are Hyperlinks to Business Websites Created?A Content Analysis[J].Scientometrics,2006,67(2):291-300

[4]Vaughan L,You J.Comparing Business Competition Positions Based on Web Co-link Data:The Global Market vs.the Chi-

nese Market[J].Scientometrics,2006,68(3):611-628[5]Vaughan L,You J.Keyword Enhanced Web Structure Mining for Business Intelligence[J].Advanced Internet Based Systems

and Applications,2009:161-168

[6]Esteban R,Vaughan L.Patterns of Web Linking to Heterogene-ous Groups of Companies-The Case of Stock Exchange Indexes

[J].Aslib Proceedings:New Information Perspectives,2010

(2):144-164

[7]周秋菊,周在峰.基于共链分析图形化描述纸业企业竞争地位[J].图书情报工作,2008(8):62-65

[8]金俣昕.共链分析用于管理咨询业竞争态势研究[J].情报杂志,2009(11):23-26

[9]贾彦龙,谭宗颖.共链方法在识别竞争对手中的应用[J].图书馆理论与实践,2011(1):26-31

[10]王皓,杨思洛.链接分析在中国知名企业评价中的应用初探[J].情报杂志,2010(3):48-52

[11]邱均平,李晔君,李江,等.实质性共链分析的实证研究-对全共链分析的修正[J].情报学报,2007(4):488-495

[12]邱均平,李晔君,李江.链接分析的缺陷及其解决方案[J].情报理论与实践,2008(2):170-174

[13]Vaughan L,Yang R,Chen C,Liang W,Li B.Extending Web Co-link Analysis to Web Co-word Analysis for Competitive In-

telligence[EB/OL].[2010-12-28].http://www.cais-acsi.

ca/proceedings/2010/CAIS007_Vaughan_Final.pdf

[14]Vaughan Liwen,Justin You.Word Co-occurences on Webpages as a Measure of the Relatedness of Organizations:A New Webo-

metrics Concept[J].Journal of Informetrics,2010(4):483-

491

[15]冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006(2):88-92

[16]张洋.网络信息计量学理论与实证研究[M].北京:科学出版社,2009:26-28

[17]英国银行家杂志,世界银行品牌排行榜[EB/OL].[2011-01-16].http://www.thebanker.com/Regulation-Policy/Manage-ment-Strategy/Top-500-Banking-Brands.2010

[18]美国Bankersalmanac.com网站,世界银行排行榜[EB/OL].[2011-001-16]http://www.bankersalmanac.com/addcon/in-fobank/bank-rankings.aspx.2010

[19]Glance N,Hurst M,Tomokiyo T.Blogpulse:Automated Trend Discovery for Weblogs[C]//WWW workshop on the weblog-ging ecosystem aggregation,Analysis and Dynamics,2004[20]中国互联网实验室.中国博客市场份额调查报告[EB/OL].[2011-01-18].http://www.chinalabs.com/html/shichang-pinggu_wenzhang/2010/0709/37056.html

[21]Small H.Co-citation in the Scientific Literature:A new Meas-ure of the Relationship Between Two Documents[J].Journal of

the American Society for Information Science,1973,24(4):

269

[22]Leydesdorffl L,Vaughan L.Co-occurrence matrices and their applications in information science:Extending ACA to the Web

environment[J].Journal of the American Society for Informa-tion Science and Technology,2006,57(12):1616-1628[23]Vaughan L,Romero-Frias E.Web Hyperlink Patterns and the Financial Variables of Global Banking Industry[J].Journal of

information Science,2010(4):530-541

[24]Vaughan L,You J.Word Co-occurences on Webpages as a Measure of the Relatedness of Organizations:A New Webomet-rics Concept[J].Journal of Informetrics,2010(4):483-491

(责编:白燕琼

檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪

)(上接第80页)

参考文献

[1]Ronald Rousseau.Informetrics[J].图书情报工作,2009,53(12):5-7

[2]White H D,Griffith B C.Author Co-citation:A literature Measure of Intellectual Structure[J].Journal of the American

Society for Information Science,1981,32(3):163-171[3]White HD.Pathfinder Networks and Author Co-citation Analy-sis:Are-mapping of Paradigmatic Information Scientists[J].

Journal of the American Society for Information Science and

Technology,2003,54(5):423-434

[4]侯海燕.科学知识图谱:最有影响的50位科学计量学家[J].科学学研究,2007,25(3):404-406

[5]侯剑华,陈悦.战略管理学前沿演进可视化研究[J].科学学

研究,2007,25(增刊):15-21

[6]李运景,侯汉清,裴新涌.引文编年可视化软件HistCite介绍与评价[J].图书情报工作,2006,50(12):135-138

[7]陈悦,侯剑华,梁永霞译;CiteSpace II.科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009,28(3):401-420[8]侯剑华.工商管理学科演进与前沿热点的可视化分析[D].大连:大连理工大学,2009

[9]方曙,张勐,高利丹.窝工省(市)自治区专利产出与其GDP之间关系的实证研究[J].科研管理,2006,27(2):40-44[10]Hirsch J E.An Index to Quantify an Individual's Scientific Re-search Output[J].Proceedings of the National Academy of Sci-

ences of the United States of America,2005,102(46):16569-

16572

(责编:刘影梅)

·

101

·

第1期张洋,等:基于网络共链分析和共词分析的国际银行业竞争态势研究

计量经济学习题及全部答案

《计量经济学》习题(一) 一、判断正误 1.在研究经济变量之间的非确定性关系时,回归分析是唯一可用的分析方法。() 2.最小二乘法进行参数估计的基本原理是使残差平方和最小。() 3.无论回归模型中包括多少个解释变量,总离差平方和的自由度总为(n-1)。() 4.当我们说估计的回归系数在统计上是显着的,意思是说它显着地异于0。() 5.总离差平方和(TSS)可分解为残差平方和(ESS)与回归平方和(RSS)之和,其中残差平方和(ESS)表示总离差平方和中可由样本回归直线解释的部分。() 6.多元线性回归模型的F检验和t检验是一致的。() 7.当存在严重的多重共线性时,普通最小二乘估计往往会低估参数估计量的方差。() 8.如果随机误差项的方差随解释变量变化而变化,则线性回归模型存在随机误差项的 自相关。() 9.在存在异方差的情况下,会对回归模型的正确建立和统计推断带来严重后果。() 10... DW检验只能检验一阶自相关。() 二、单选题

1.样本回归函数(方程)的表达式为( )。 A .i Y =01i i X u ββ++ B .(/)i E Y X =01i X ββ+ C .i Y =01??i i X e ββ++ D .?i Y =01??i X ββ+ 2.下图中“{”所指的距离是( )。 A .随机干扰项 B .残差 C .i Y 的离差 D .?i Y 的离差 3.在总体回归方程(/)E Y X =01X ββ+中,1β表示( )。 A .当X 增加一个单位时,Y 增加1β个单位 B .当X 增加一个单位时,Y 平均增加1β个单位 C .当Y 增加一个单位时,X 增加1β个单位 D .当Y 增加一个单位时,X 平均增加1β个单位 4.可决系数2R 是指( )。 A .剩余平方和占总离差平方和的比重 B .总离差平方和占回归平方和的比重 C .回归平方和占总离差平方和的比重 D .回归平方和占剩余平方和的比重 5.已知含有截距项的三元线性回归模型估计的残差平方和为2i e ∑=800,估

信息资源标引管理需求分析报告-V2.0

信息资源标引管理需求分析报告

1需求描述 1.1元数据标引需求描述 元数据标引是将一类资源信息标引为便于被人理解的信息,用户通过对元数据信息的查看就可以明确这类数据的基本信息和获取方式等内容。 1.2信息资源目录标引需求描述 信息资源目录标引,是将某些元数据实体归纳到一个目录之下,用户如果想获取某方面的信息,通过目录导航的模式便捷的定位到相应的元数据实体上。 1.3功能结构图:

2元数据标引功能描述 2.1元数据元素管理 元数据元素是元数据的基本单元,元数据元素在元数据实体中是唯一的。元数据元素是用来描述元数据应该如何确定,比如,元数据“中文名称”的构建管理。通常元数据标准会包含:中文名称、英文名称、定义、数据类型、值域、短命、约束、最大出现次数等信息。 功能结构图: 2.1.1新增元数据元素 新增一个元数据元素,当前操作必须在当前元数据元素集合未被使用的情况下进行,否则不能新增。 2.1.2修改元数据元素 修改已经建好的元数据元素,被修改的元素据元素必须是未被使用的。 2.1.3删除元数据元素 删除一个元数据元素,被删除的元数据元素必须是未被使用的。

2.1.4元数据元素明细查看 查看元数据元素的详细信息。 2.2元数据管理 元数据是关于数据的数据,是描述数据的内容、覆盖范围、质量、现状、管理方式、数据的所有者、数据的提供方式等有关的信息。 功能结构图: 2.2.1新增元数据 按照元数据元素要求描述的信息,新增一个元数据。 2.2.2修改元数据 修改所选择的未被使用的元数据数据。 2.2.3删除元数据 删除所选择的未被使用的元数据数据。

计量经济学分析计算题Word版

计量经济学分析计算题(每小题10分) 1.下表为日本的汇率与汽车出口数量数据, X:年均汇率(日元/美元) Y:汽车出口数量(万辆) 问题:(1)画出X 与Y 关系的散点图。 (2)计算X 与Y 的相关系数。其中X 129.3= ,Y 554.2=,2 X X 4432.1∑ (-)=,2 Y Y 68113.6∑(-)=,()()X X Y Y ∑--=16195.4 (3)采用直线回归方程拟和出的模型为 ?81.72 3.65Y X =+ t 值 1.2427 7.2797 R 2=0.8688 F=52.99 解释参数的经济意义。 2.已知一模型的最小二乘的回归结果如下: i i ?Y =101.4-4.78X 标准差 (45.2) (1.53) n=30 R 2=0.31 其中,Y :政府债券价格(百美元),X :利率(%)。 回答以下问题:(1)系数的符号是否正确,并说明理由;(2)为什么左边是i ?Y 而不是i Y ; (3)在此模型中是否漏了误差项i u ;(4)该模型参数的经济意义 是什么。 3.估计消费函数模型i i i C =Y u αβ++得 i i ?C =150.81Y + t 值 (13.1)(18.7) n=19 R 2=0.81 其中,C :消费(元) Y :收入(元) 已知0.025(19) 2.0930t =,0.05(19) 1.729t =,0.025(17) 2.1098t =,0.05(17) 1.7396t =。

问:(1)利用t 值检验参数β的显著性(α=0.05);(2)确定参数β的标准差;(3)判断一下该模型的拟合情况。 4.已知估计回归模型得 i i ?Y =81.7230 3.6541X + 且2X X 4432.1∑ (-)=,2 Y Y 68113.6∑ (-)=, 求判定系数和相关系数。 5.有如下表数据 日本物价上涨率与失业率的关系 (1)设横轴是U ,纵轴是P ,画出散点图。根据图形判断,物价上涨率与失业率之间是什么样的关系?拟合什么样的模型比较合适? (2)根据以上数据,分别拟合了以下两个模型: 模型一:1 6.3219.14 P U =-+ 模型二:8.64 2.87P U =- 分别求两个模型的样本决定系数。 7.根据容量n=30的样本观测值数据计算得到下列数据:XY 146.5= ,X 12.6=,Y 11.3=,2X 164.2=,2Y =134.6,试估计Y 对X 的回归直线。 8.下表中的数据是从某个行业5个不同的工厂收集的,请回答以下问题:

计量经济学课后习题答案

计量经济学练习题 第一章导论 一、单项选择题 ⒈计量经济研究中常用的数据主要有两类:一类是时间序列数据,另一类是【 B 】 A 总量数据 B 横截面数据 C平均数据 D 相对数据 ⒉横截面数据是指【A 】 A 同一时点上不同统计单位相同统计指标组成的数据 B 同一时点上相同统计单位相同统计指标组成的数据 C 同一时点上相同统计单位不同统计指标组成的数据 D 同一时点上不同统计单位不同统计指标组成的数据 ⒊下面属于截面数据的是【D 】 A 1991-2003年各年某地区20个乡镇的平均工业产值 B 1991-2003年各年某地区20个乡镇的各镇工业产值 C 某年某地区20个乡镇工业产值的合计数 D 某年某地区20个乡镇各镇工业产值 ⒋同一统计指标按时间顺序记录的数据列称为【B 】 A 横截面数据 B 时间序列数据 C 修匀数据D原始数据 ⒌回归分析中定义【 B 】 A 解释变量和被解释变量都是随机变量 B 解释变量为非随机变量,被解释变量为随机变量 C 解释变量和被解释变量都是非随机变量 D 解释变量为随机变量,被解释变量为非随机变量 二、填空题 ⒈计量经济学是经济学的一个分支学科,是对经济问题进行定量实证研究的技术、方法和相关理论,可以理解为数学、统计学和_经济学_三者的结合。 ⒉现代计量经济学已经形成了包括单方程回归分析,联立方程组模型,时间序列分 析三大支柱。

⒊经典计量经济学的最基本方法是回归分析。 计量经济分析的基本步骤是:理论(或假说)陈述、建立计量经济模型、收集数据、计量经济模型参数的估计、检验和模型修正、预测和政策分析。 ⒋常用的三类样本数据是截面数据、时间序列数据和面板数据。 ⒌经济变量间的关系有不相关关系、相关关系、因果关系、相互影响关系和恒 等关系。 三、简答题 ⒈什么是计量经济学?它与统计学的关系是怎样的? 计量经济学就是对经济规律进行数量实证研究,包括预测、检验等多方面的工作。计量经济学是一种定量分析,是以解释经济活动中客观存在的数量关系为内容的一门经济学学科。 计量经济学与统计学密切联系,如数据收集和处理、参数估计、计量分析方法设计,以及参数估计值、模型和预测结果可靠性和可信程度分析判断等。可以说,统计学的知识和方法不仅贯穿计量经济分析过程,而且现代统计学本身也与计量经济学有不少相似之处。例如,统计学也通过对经济数据的处理分析,得出经济问题的数字化特征和结论,也有对经济参数的估计和分析,也进行经济趋势的预测,并利用各种统计量对分析预测的结论进行判断和检验等,统计学的这些内容与计量经济学的内容都很相似。反过来,计量经济学也经常使用各种统计分析方法,筛选数据、选择变量和检验相关结论,统计分析是计量经济分析的重要内容和主要基础之一。 计量经济学与统计学的根本区别在于,计量经济学是问题导向和以经济模型为核心的,而统计学则是以经济数据为核心,且常常是数据导向的。典型的计量经济学分析从具体经济问题出发,先建立经济模型,参数估计、判断、调整和预测分析等都是以模型为基础和出发点;典型的统计学研究则并不一定需要从具体明确的问题出发,虽然也有一些目标,但可以是模糊不明确的。虽然统计学并不排斥经济理论和模型,有时也会利用它们,但统计学通常不一定需要特定的经济理论或模型作为基础和出发点,常常是通过对经济数据的统计处理直接得出结论,统计学侧重的工作是经济数据的采集、筛选和处理。 此外,计量经济学不仅是通过数据处理和分析获得经济问题的一些数字特征,而且是借助于经济思想和数学工具对经济问题作深刻剖析。经过计量经济分析实证检验的经济理论和模型,能够对分析、研究和预测更广泛的经济问题起重要作用。计量经济学从经济理论和经济模型出发进行计量经济分析的过程,也是对经济理论证实或证伪的过程。这些是以处理数

大数据分析报告与可视化

.数据分析与可视化1.什么是数据分析? 数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价信息的一个过程。其过程概括起来主要包括:明确分析目的与框架、数据收集、数据处理、数据分析、数据展现和撰写报告等6个阶段。 1、明确分析目的与框架 一个分析项目,你的数据对象是谁?商业目的是什么?要解决什么业务问题?数据分析师对这些都要了然于心。基于商业的理解,整理分析框架和分析思路。例如,减少新客户的流失、优化活动效果、提高客户响应率等等。不同的项目对数据的要求,使用的分析手段也是不一样的。 2、数据收集 数据收集是按照确定的数据分析和框架内容,有目的的收集、整合相关数据的一个过程,它是数据分析的一个基础。 3、数据处理 数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。这个过程是数据分析整个过程中最占据时间的,也在一定程度上取决于数据仓库的搭建和数据质量的保证。 数据处理主要包括数据清洗、数据转化等处理方法。 4、数据分析 数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目提供决策参考。 到了这个阶段,要能驾驭数据、开展数据分析,就要涉及到工具和方法的使用。其一要熟悉常规数据分析方法,最基本的要了解例如方差、回归、因子、聚类、分类、时间序列等多元和数据分析方法的原理、使用范围、优缺点和结果的解释;其二是熟悉1+1种数据分析工具,Excel是最常见,一般的数据分析我们可以通过Excel完成,后而要熟悉一个专业的分析软件,如数据分析工具SPSS/SAS/R/Matlab等,便于进行一些专业的统计分析、数据建模等。 5、数据展现 一般情况下,数据分析的结果都是通过图、表的方式来呈现,俗话说:字不如表,表不如图。借助数据展现手段,能更直观的让数据分析师表述想要呈现的信息、观点和建议。 常用的图表包括饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵图、漏斗图、帕雷托图等。 6、撰写报告 最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。通过分析报. .告,把数据分析的目的、过程、结果及方案完整呈现出来,以供商业目的提供参考。一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,直观地看清楚问题和结有助于阅读者更形象、可以令数据更加生动活泼,提高视觉冲击力,论,从而产生思考。另外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,后者数据的初衷就是为解决一个同时也失去了报告的意义,是更重要的,否则称不上好的分析,商业目的才进行的分析,不能舍本求末。 数据分析常用的方法有哪些?他们多用来分析哪些类型的数据?通过分析可以得到怎样2. 的结果和结论?怎样得到保证其信度和效度?常用数据分析方法:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析; (scatter 、散点图)、直方图(Histogram):柏拉图数据分析常用的图表方法(排列图、点

计量经济学计算题题库

五、简答题: 1.给定一元线性回归模型: t t t X Y μββ++=10 n t ,,2,1 = (1)叙述模型的基本假定;(2)写出参数 0β和1β的最小二乘估计公式; (3)说明满足基本假定的最小二乘估计量的统计性质; (4)写出随机扰动项方差的无偏估计公式。 2.对于多元线性计量经济学模型: t kt k t t t X X X Y μββββ+++++= 33221 n t ,,, 21= (1)该模型的矩阵形式及各矩阵的含义; (2)对应的样本线性回归模型的矩阵形式; (3)模型的最小二乘参数估计量。 6.线性回归模型的基本假设。违背基本假设的计量经济模型是否可以估计 五、简答题: 1.答:(1)零均值,同方差,无自相关,解释变量与随机误差项相互独立(或者解释变量为非随机变量) (2)∑∑=== n t t n t t t x y x 1 21 1 ?β,X Y 1 0??ββ-= (3)线性即,无偏性即,有效性即 (4)2 ?1 2 2 -= ∑=n e n t t σ ,其中∑∑∑∑∑=====-=-=n t t t n t t n t t n t t n t t y x y x y e 1 11 21 2211 21 2 ??ββ 2. 答: (1)N XB Y +=; 1 21?? ? ????? ??=n n Y Y Y Y )1(2122212 12111111+???????? ??=k n kn n n k k X X X X X X X X X X 1 )1(210?+????? ??? ??=k n B ββββ 1 21???????? ??=n n N μμμ (2)E B X Y +=?; (3)()Y X X X B ''=-1 ?。 6.答: (1)随机误差项具有零均值。即

(完整word版)计量经济学思考题答案解析

计量经济学思考题答案 第一章绪论 1.1怎样理解产生于西方国家的计量经济学能够在中国的经济理论研究和现代 化建设中发挥重要作用? 答:计量经济学的产生源于对经济问题的定量研究,这是社会经济发展到一定阶段的客观需要。计量经济学的发展是与现代科学技术成就结合在一起的,它反映了社会化大生产对各种经济因素和经济活动进行数量分析的客观要求。经济学从定性研究向定量分析的发展,是经济学逐步向更加精密、更加科学发展的表现。我们只要坚持以科学的经济理论为指导,紧密结合中国经济的实际,就能够使计量经济学的理论与方法在中国的经济理论研究和现代化建设中发挥重要作用。 1.2理论计量经济学和应用计量经济学的区别和联系是什么? 答:计量经济学不仅要寻求经济计量分析的方法,而且要对实际经济问题加以研究,分为理论计量经济学和应用计量经济学两个方面。 理论计量经济学是以计量经济学理论与方法技术为研究内容,目的在于为应用计量经济学提供方法论。所谓计量经济学理论与方法技术的研究,实质上是指研究如何运用、改造和发展数理统计方法,使之成为适合测定随机经济关系的特殊方法。 应用计量经济学是在一定的经济理论的指导下,以反映经济事实的统计数据为依据,用计量经济方法技术研究计量经济模型的实用化或探索实证经济规律、分析经济现象和预测经济行为以及对经济政策作定量评价。 1.3怎样理解计量经济学与理论经济学、经济统计学的关系? 答:1、计量经济学与经济学的关系。联系:计量经济学研究的主体—经济现象和经济关系的数量规律;计量经济学必须以经济学提供的理论原则和经济运行规律为依据;经济计量分析的结果:对经济理论确定的原则加以验证、充实、完善。区别:经济理论重在定性分析,并不对经济关系提供数量上的具体度量;计量经济学对经济关系要作出定量的估计,对经济理论提出经验的内容。 2、计量经济学与经济统计学的关系。联系:经济统计侧重于对社会经济现象的描述性计量;经济统计提供的数据是计量经济学据以估计参数、验证经济理论的基本依据;经济现象不能作实验,只能被动地观测客观经济现象变动的既成事实,只能依赖于经济统计数据。区别:经济统计学主要用统计指标和统计分析方法对经济现象进行描述和计量;计量经济学主要利用数理统计方法对经济变量间的关系进行计量。 1.4在计量经济模型中被解释变量和解释变量的作用有什么不同? 答:在计量经济模型中,解释变量是变动的原因,被解释变量是变动的结果。被解释变量是模型要分析研究的对象。解释变量是说明被解释变量变动主要原因的变量。 1.5一个完整的计量经济模型应包括哪些基本要素?你能举一个例子吗? 答:一个完整的计量经济模型应包括三个基本要素:经济变量、参数和随机误差项。例如研究消费函数的计量经济模型:Y=α+βX+u 其中,Y为居民消费支出,X为居民家庭收入,二者是经济变量;α和β为参数;u是随机误差项。

信息资源的评价

因特网信息资源评价 一、教材分析: 这节课是浙江教育出版社出版的普通高中课程标准实验教科书《信息技术基础》第二章第四节的内容,它是第二章教学核心内容之一。本节课内容是建立在前面我们学习了信息的获取和检索、知道如何从网上获取信息的基础之上,本节课的重点是引导、培养学生如何鉴别因特网上信息真与假,对网上信息资源重新评估的能力。从而获取有用的信息,摈弃过时的、无用的信息,有效地利用网络资源,这是学生需要掌握的一种技能本节课内容采用一节课教学课时。 二、学情分析: 普陀中学高一学生他们动手能力强,同时具有了一定的理解能力、接受能力和鉴别能力,但他们的社会经验和鉴别信息真伪的能力还不是很强,对自己所需的信息的理性分析、鉴别能力比较薄弱。本节课理论性比较强,学生在掌握的时候可能具有一定难度。 三、教学目标: 1、知识与技能: 1、知道评价因特网信息资源的三种主要方式以及其特征。 2、了解信息资源评价的标准。 3、了解信息评价的基本方法 4、初步掌握网络资源评价的基本方法。 2、过程与方法: 通过任务驱动等活动,让学生掌握鉴别信息的一些方法,针对所需信息资源,会按照科学的、合理的方法进行评价。 3、情感态度与价值观: 培养学生鉴别真伪、理性分析问题的能力;提高学生学习信息技术课的兴趣,培养

学生自主探究、团结协作解决问题的能力。 四、重难点: 重点:网络资源评价的基本方法。 难点:网络信息资源的鉴别与评价。 五、教法方法: 讲授法、举例法、小组讨论法、任务驱动法。 六、教学过程 第一阶段:导入新课 案例:7月17日,家住天津市的王女士通过深圳网络警察报警平台报案称,其于7月10日21时许在家里上网时突然收到一条信息:“恭喜您的QQ号码在腾讯公司十周年抽奖活动中获得二等奖,奖金是人民币58000元和赞助公司送出的Q40笔记本电脑”。在点击信息中的“立即领取”的按钮后,王女士登录到一个领奖网站,在填写完毕个人资料后,被告知需先缴纳奖品的税金、保险、手续费、快递费等费用后,方可领取奖品。王女士于次日向该网站提供的银行账号先后汇入12450元,但至今未收到中奖奖品。问:假如大家遇到上述信息,会不会像王女士一样上当受骗呢 学生活动:学生回答。 教师总结:平时我们在上网获取信息的时候也会碰到很多真假信息,这就需要我们有一双慧眼,分辨真假。今天我们就来拥有这样的慧眼。 设计意图:通过普通人上当受骗的案例,使得学生能清楚的了解网上虚假骗人的信息很多,让学生有强烈的想鉴别这些信息真伪的想法。从而引出新课。

(完整word版)计量经济学习题与答案

期中练习题 1、回归分析中使用的距离是点到直线的垂直坐标距离。最小二乘准则是指( ) A .使∑=-n t t t Y Y 1 )?(达到最小值 B.使∑=-n t t t Y Y 1 达到最小值 C. 使 ∑=-n t t t Y Y 1 2 )(达到最小值 D.使∑=-n t t t Y Y 1 2)?(达到最小值 2、根据样本资料估计得出人均消费支出 Y 对人均收入 X 的回归模型为 ?ln 2.00.75ln i i Y X =+,这表明人均收入每增加 1%,人均消费支出将增加 ( ) A. 0.75 B. 0.75% C. 2 D. 7.5% 3、设k 为回归模型中的参数个数,n 为样本容量。则对总体回归模型进行显著性检验的F 统计量与可决系数2 R 之间的关系为( ) A.)1/()1()/(R 2 2---=k R k n F B. )/(1)-(k ) R 1/(R 22k n F --= C. )/()1(22k n R R F --= D. ) 1()1/(22R k R F --= 6、二元线性回归分析中 TSS=RSS+ESS 。则 RSS 的自由度为( ) A.1 B.n-2 C.2 D.n-3 9、已知五个解释变量线形回归模型估计的残差平方和为 8002=∑t e ,样本容量为46,则随机 误差项μ的方差估计量2 ?σ 为( ) A.33.33 B.40 C.38.09 D. 20 1、经典线性回归模型运用普通最小二乘法估计参数时,下列哪些假定是正确的( ) A.0)E(u i = B. 2 i )V ar(u i σ= C. 0)u E(u j i ≠ D.随机解释变量X 与随机误差i u 不相关 E. i u ~),0(2 i N σ 2、对于二元样本回归模型i i i i e X X Y +++=2211???ββα,下列各式成立的有( ) A.0 =∑i e B. 0 1=∑i i X e C. 0 2=∑i i X e D. =∑i i Y e E. 21=∑i i X X 4、能够检验多重共线性的方法有( ) A.简单相关系数矩阵法 B. t 检验与F 检验综合判断法 C. DW 检验法 D.ARCH 检验法 E.辅助回归法

计量经济学习题及参考答案解析详细版

计量经济学(第四版)习题参考答案 潘省初

第一章 绪论 试列出计量经济分析的主要步骤。 一般说来,计量经济分析按照以下步骤进行: (1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据 (4)估计参数 (5)假设检验 (6)预测和政策分析 计量经济模型中为何要包括扰动项? 为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。 什么是时间序列和横截面数据? 试举例说明二者的区别。 时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。 横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。 估计量和估计值有何区别? 估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。在一项应用中,依据估计量算出的一个具体的数值,称为估计值。如Y 就是一个估计量,1 n i i Y Y n == ∑。现有一样本,共4个数,100,104,96,130,则 根据这个样本的数据运用均值估计量得出的均值估计值为 5.1074 130 96104100=+++。 第二章 计量经济分析的统计学基础 略,参考教材。

请用例中的数据求北京男生平均身高的99%置信区间 N S S x = = 4 5= 用 =,N-1=15个自由度查表得005.0t =,故99%置信限为 x S t X 005.0± =174±×=174± 也就是说,根据样本,我们有99%的把握说,北京男高中生的平均身高在至厘米之间。 25个雇员的随机样本的平均周薪为130元,试问此样本是否取自一个均值为120元、标准差为10元的正态总体? 原假设 120:0=μH 备择假设 120:1≠μH 检验统计量 () 10/2510/25 X X μσ-Z == == 查表96.1025.0=Z 因为Z= 5 >96.1025.0=Z ,故拒绝原假设, 即 此样本不是取自一个均值为120元、标准差为10元的正态总体。 某月对零售商店的调查结果表明,市郊食品店的月平均销售额为2500元,在下一个月份中,取出16个这种食品店的一个样本,其月平均销售额为2600元,销售额的标准差为480元。试问能否得出结论,从上次调查以来,平均月销售额已经发生了变化? 原假设 : 2500:0=μH 备择假设 : 2500:1≠μH ()100/1200.83?480/16 X X t μσ-= === 查表得 131.2)116(025.0=-t 因为t = < 131.2=c t , 故接受原假 设,即从上次调查以来,平均月销售额没有发生变化。

信息可视化分析工具的比较分析_以CiteS_省略_ace_HistCite和Re

信息可视化分析工具的比较分析* ———以CiteSpace、HistCite和RefViz为例 田军 【摘要】文章选取SCI中以“Digital Libraries”为主题的文献为源数据,基于用户视角和功能视角对Cite Space、HistCite及RefViz进行分析比较,用户视角包括界面设计、软件操作、数据处理、节点控制、可视化图谱显示,功能视角包括国家与机构、著者、关键文献、研究热点及趋势。在此基础上,归纳总结各软件在学科知识领域应用中的共性与特性,期望为用户正确选择信息可视化工具提供有益的帮助。 【关键词】信息可视化工具CiteSpace HistCiteRefViz Abstract:The paper selected the literatures on subject of“digital libraries”as the source data from SCI,and then compared CiteSpace,HistCite andRefViz from user perspective and function perspective.The former covered interface design,software,data processing,node control,and visualization map display.The later included countries and institutions,journals,authors,key literature,and research hotspots and trends.In addition,this paper summarized the specialties and commonness of CiteSpace,HistCite andRefViz in applying and anticipates it can provide help when users select information through visual tools. Key words:information visualization tools CiteSpace HistCiteRefViz 1引言 大数据时代,信息呈现出数据量大、价值密度低及快时效等特点,人们保存、检索、分析及利用能力面临着巨大的挑战[1]。信息可视化工具的出现,使得大规模非数值型信息资源得以视觉呈现,为人们理解和分析数据提供了帮助。信息可视化工具种类繁多,CiteSpace、RefViz及HistCite3种广受关注[2]。本文在应用层面对这3款工具进行同源数据的对比分析,剖析各个分析软件在学科知识领域应用中的优缺点及各自的特色。 本文的文献数据来源于美国Thomson Scientific集团开发的web of science平台,该平台收录学科齐全,所收录的引文数据质量较高[3]。在web of science平台,时间跨度选择all years,数据库来源选取SCI-EXPANDED、SSCI、A&HCI、IC以及CCR-EXPANDED,数据类型选择all types,检索词为:TITLE=“digital librar*”,经过学科提炼得到4961条数字图书馆方向的文献数据,将这些数据以“txt”文本文档形式下载并保存,数据采集日期为2014年2月12日。 2基于用户视角的引文分析软件的比较分析 2.1界面设计比较分析 相同点:CiteSpace、HistCite和RefViz3款软件的主界面均包含菜单项、显示框和参数设置项。 CiteSpace的菜单项包含了文件、项目、数据、网络、可视化等栏目,显示框包含了数据基本信息和软件运行结果报告两部分,参数设置项包含了时间切割、术语来源、术语类型、节点类型、图谱精简和可视化类型等部分。如图1所示。 HistCite的菜单栏包含了文件选项、数据分析、可视化窗口等栏目,在主界面上可以依据记录、作者、期刊等参数对数据进行统计排序并显示,参数设置项包含了国家和地区、机构、语言、文献类型、出版年份等选项,如 *本文系教育部人文社会科学研究规划基金项目“信息用户在图书馆与社会网络使用中的双重融合实证研究”(项目编号:10YJA870029)的研究成果之一。

50个大数据可视化分析工具

50个大数据可视化分析工具 在大数据时代,数据可视化工具必须具有以下特性: (1)实时性:数据可视化工具必须适应大数据时代数据量的爆炸式增长需求,必须快速的收集分析数据、并对数据信息进行实时更新; (2)简单操作:数据可视化工具满足快速开发、易于操作的特性,能满足互联网时代信息多变的特点; (3)更丰富的展现:数据可视化工具需具有更丰富的展现方式,能充分满足数据展现的多维度要求; (4)多种数据集成支持方式:数据的来源不仅仅局限于数据库,数据可视化工具将支持团队协作数据、数据仓库、文本等多种方式,并能够通过互联网进行展现。 Excel 是快速分析数据的理想工具,也能创建供内部使用的数据图,但在颜色、线条和样式上可选择的范围有限。 Google Charts 提供了大量现成的图表类型,从简单的线图表到复杂的分层树地图等,还内置了动画和用户交互控制。 D3 能够提供大量线性图和条形图之外的复杂图表样式,例如V oronoi图、树形图、圆形集群和单词云等。 R语言 是主要用于统计分析、绘图的语言和操作环境。 Visual.ly 如果你需要制作信息图而不仅仅是数据可视化,Visual.ly是最流行的一个选择。

Processing 是数据可视化的招牌工具,只需要编写一些简单的代码,然后编译成Java,可在几乎所有平台上运行。 Leaflet 用来开发移动友好地交互地图。 OpenLayers 对于一些特定的任务来说,能够提供一些其他地图库都没有的特殊工具。 Polymaps 是一个地图库,主要面向数据可视化用户。可以将符号字体与字体整合,创建出漂亮的矢量化图标。 Gephi 是一个可视化的网络探索平台,用于构建动态的、分层的数据图表。 可以用CartoDB很轻易就把表格数据和地图关联起来。 Weka是数据分析的强大工具,还能生成一些简单的图表。 NodeBox是OS X上创建二维图形和可视化的应用程序。 Kartograph不需要任何地图提供者像Google Maps,用来建立互动式地图。 Modest Maps在一些扩展库的配合下,例如Wax,Modest Maps立刻会变成一个强大的地图工具。 Tangle是个用来探索、Play和查看文档更新的交互式库。既是图表,又是互动图形用户界面的小程序。当你调整一个图表中的输入范围时,其他关联图表的数据也会随之改变。 Rapha憀与其他库最大的不同是输出格式仅限SVG和VML。 jsDraw2DX用来创建任意类型的SVG交互式图形,可生成包括线、举行、多边形、椭圆、弧线等等图形。 Pizza Pie Charts是个响应式饼图图表。 FusionCharts XT是一款跨平台、跨浏览器的JavaScript图表组件,可提供令人愉悦的JavaScript图表体验。 iCharts有交互元素,可以从Google Doc、Excel 表单和其他来源中获取数据。

计量经济学计算题解法汇总

计量经济学:部分计算题解法汇总 1、求判别系数——R^2 已知估计回归模型得 i i ?Y =81.7230 3.6541X + 且2X X 4432.1∑ (-)=,2Y Y 68113.6∑(-)=, 2、置信区间 有10户家庭的收入(X ,元)和消费(Y ,百元)数据如下表: 10户家庭的收入(X )与消费(Y )的资料 X 20 30 33 40 15 13 26 38 35 43 Y 7 9 8 11 5 4 8 10 9 10 若建立的消费Y 对收入X 的回归直线的Eviews 输出结果如下: Dependent Variable: Y Adjusted R-squared F-statistic Durbin-Watson (1(2)在95%的置信度下检验参数的显著性。(0.025(10) 2.2281t =,0.05(10) 1.8125t =,0.025(8) 2.3060t =,0.05(8) 1.8595t =) (3)在90%的置信度下,预测当X =45(百元)时,消费(Y )的置信区间。(其中29.3x =,2()992.1x x - =∑) 答:(1)回归模型的R 2 =,表明在消费Y 的总变差中,由回归直线解释的部分占到90%以上,回归直线的代表性及解释能力较好。(2分) 家庭收入对消费有显著影响。(2分)对于截距项,

检验。(2分) (3)Y f =+×45=(2分) 90%置信区间为(,+),即(,)。(2分) 注意:a 水平下的t 统计量的的重要性水平,由于是双边检验,应当减半 3、求SSE 、SST 、R^2等 已知相关系数r =,估计标准误差?8σ=,样本容量n=62。 求:(1)剩余变差;(2)决定系数;(3)总变差。 (2)2220.60.36R r ===(2分) 4、联系相关系数与方差(标准差),注意是n-1 在相关和回归分析中,已知下列资料: 222X Y i 1610n=20r=0.9(Y -Y)=2000σσ∑=,=,,,。 (1)计算Y 对X 的回归直线的斜率系数。(2)计算回归变差和剩余变差。(3) (2)R 2=r 2==, 总变差:TSS =RSS/(1-R 2)=2000/=(2分)

数据分析与可视化

数据分析与可视化 1.什么是数据分析? 数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价信息的一个过程。其过程概括起来主要包括:明确分析目的与框架、数据收集、数据处理、数据分析、数据展现和撰写报告等6个阶段。 1、明确分析目的与框架 一个分析项目,你的数据对象是谁?商业目的是什么?要解决什么业务问题?数据分析师对这些都要了然于心。基于商业的理解,整理分析框架和分析思路。例如,减少新客户的流失、优化活动效果、提高客户响应率等等。不同的项目对数据的要求,使用的分析手段也是不一样的。 2、数据收集 数据收集是按照确定的数据分析和框架内容,有目的的收集、整合相关数据的一个过程,它是数据分析的一个基础。 3、数据处理 数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。这个过程是数据分析整个过程中最占据时间的,也在一定程度上取决于数据仓库的搭建和数据质量的保证。 数据处理主要包括数据清洗、数据转化等处理方法。 4、数据分析 数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目提供决策参考。 到了这个阶段,要能驾驭数据、开展数据分析,就要涉及到工具和方法的使用。其一要熟悉常规数据分析方法,最基本的要了解例如方差、回归、因子、聚类、分类、时间序列等多元和数据分析方法的原理、使用范围、优缺点和结果的解释;其二是熟悉1+1种数据分析工具,Excel是最常见,一般的数据分析我们可以通过Excel完成,后而要熟悉一个专业的分析软件,如数据分析工具SPSS/SAS/R/Matlab等,便于进行一些专业的统计分析、数据建模等。

信息资源管理作业

第一章信息资源管理基础 1、阐述信息化的基本内涵及其影响。 答:内涵:指一个具体组织实体(政府部门、事业单位或企业)应用信息技术提高信息资源开发和利用效率的过程与活动。它揭示了由信息革命所引起的社会经济全面变革的过程、活动和结果。 影响:①在信息化的进程中,信息化与工业化、农业化相互融合、相互促进、协同发展,社会产业结构发生重大变化。②随着社会信息化的深入,社会经济形态和就业结构发生根本性变化,传统的工业经济形态逐步被新的信息经济形态所改变。③信息化对社会组织和个人行为方式也产生了重大的影响。 2、什么是信息资源?信息资源有哪些类型? 答:狭义信息资源是指人类社会经济活动中经过加工处理有序化并大量积累的有用信息的集合,即霍顿所说的单数意义下的信息资源。广义的信息资源包括信息及其生产者、信息技术的集合,即霍顿所说的复数意义下的信息资源。 类型:①按社会组织属性的不同划分,信息资源被分为政府信息资源、企业信息资源和公共信息资源三类。②按增值状况划分,分为基础性信息资源和增值性信息资源。③按可利用范围的不同划分,分为共有信息资源、专有信息资源和个人信息资源。 3、全面(多角度)阐述信息资源管理的内涵。 答:涵义:综合运用各种方法和手段对信息及其生产者和支持工具进行规划、组织、开发、利用和控制的过程,其目的是有效的开发和利用信息资源为社会发展服务。 从管理对象看,信息资源管理对信息过程中的所有信息要素——信息、人员、信息技术等进行管理;从管理过程内容看,信息资源管理对信息资源进行规划、组织、开发、利用和控制;从管理手段看,信息资源管理手段包括技术手段、经济手段、行政手段、法律手段四大类;从管理层次看,信息资源管理可以分为宏观和微观两个层次;从管理应用领域看,信息管理被分为政府信息资源管理、企业信息资源管理和公共信息资源管理等。 实践能力考核选例 根据本章学习的内容,利用信息资源管理的观点,系统地考察一般社会组织(如政府部门、企事业单位)的信息化内涵和过程。 分析:内涵:指一个具体组织实体(政府部门、事业单位或企业)应用信息技术提高信息资源开发和利用效率的过程与活动。 过程:信息化与工业化、农业化相互融合、相互促进、协同发展,社会产业结构发生重大变化。以信息技术制造(如微电子、计算机等信息设备制造业)、信息内容生产(如门户网站、电子传媒出版业)和信息服务(如信息技术支持、信息中介、信息咨询等行业)为主题的信息产业成为社会的支柱产业。例如:以Web2.0以及协同式知识创造形式(如Wiki百科、百度百科)为代表的社会网络应用的发展,深层的改变了人们的社交行为,进而被引进企业经营活动中,产生了被称为“Enterprise2.0”的新型应用。 第二章信息化规划与组织 1、什么是组织战略?它的意义是什么? 答:组织战略是组织达到目标、完成使命的综合计划。即组织为了在外部环境中生存和发展,在总结历史经验、调查现状和预测未来的基础上,所作出的长远性、全局性的谋划和方

计量经济学综合分析练习题及答案.11

计量经济学上机综合练习题 (2008.11,周国富) 下表是按当年价格计算的中国1990—2006年国家财政用于文教科卫支出(Y )和国内生产总值(X )的统计资料(单位:亿元): 数据来源:《中国统计年鉴2007》。 (一)为了考察国家财政用于文教科卫支出(Y )和国内生产总值(X )的关系,观察Y 和X 的散点图,得到如下结果: 02000 4000 6000 8000 50000100000150000200000250000 X Y 要求:写出绘制上述散点图的命令格式。 答:绘制上述散点图的命令格式为: scat x y (二)上述散点图显示Y 与X 之间呈较强的线性关系,因此可以建立有截距项的Y 对X 的

线性回归模型,即μββ++=X Y 10。采用OLS 法得到如下结果: Dependent Variable: Y Method: Least Squares Date: 11/22/08 Time: 19:59 Sample: 1990 2006 要求:写出用OLS 法估计上述回归方程的命令格式。 答:用OLS 法估计上述方程的命令格式为: ls y c x (三)根据上述软件输出结果,完成下列任务(要求写出主要的步骤,得数可以直接取自软件输出结果) 1. 写出OLS 法得到的回归方程,并对结果的统计意义和经济意义进行解释。 解:OLS 法得到的回归方程为 Y = -450.6960 +0.035299X + e (-3.148239)(26.33443) R 2=0.978829 2 R =0.977417 统计意义:当X 增加1个单位时,可引起Y 平均增加0.035299个单位。 经济意义:当GDP 增加1亿元时,国家财政用于文教科卫支出平均增加0.035299亿元。 2. 进行经济意义检验。 答:随着GDP 的增加,国家财政用于文教科卫支出应随之提高。由于斜率β1的估计值为正号,因此模型的经济意义检验通过。 3. 进行变量的显著性检验【α=0.05,t 0.05(15)=1.753,t 0.025(15)=2.131】。 解:提出假设H 0: β1 = 0 H 1: β1≠0 计算检验统计量: S t 1 ? 11?βββ-= = 26.33443 由于t >t 0.025(15)=2.131(或者,其双尾P 值 = 0.0000<0.05),所以拒绝假设H 0:β1= 0, 接受对立假设H 1:β1≠0 。

计量经济学习题解析

第一章 1、下列假想模型是否属于揭示因果关系的计量经济学模型?为什么? (1)t S =112.0+0.12t R ,其中t S 为第t 年农村居民储蓄增加额(单位:亿元),t R 为第t 年 城镇居民可支配收入总额(单位:亿元)。 (2)1t S -=4432.0+0.30t R ,其中1t S -为第t-1年底农村居民储蓄余额(单位:亿元),t R 为 第t 年农村居民纯收入总额(单位:亿元)。 2、 指出下列假想模型中的错误,并说明理由: 8300.00.24 1.12t t t RS RI IV =-+ 其中,t RS 为第t 年社会消费品零售总额(单位:亿元),t RI 为第t 年居民收入总额(单 位:亿元)(指城镇居民可支配收入总额与农村居民纯收入总额之和),t IV 为第t 年全 社会固定资产投资总额(单位:亿元)。 3、 下列设定的精良经济模型是否合理?为什么? (1)3 01i i i GDP GDP ββμ==+?+∑ 其中,i GDP (i=1,2,3)是第一产业、第二产业、第三产业增加值,μ为随机干扰项。 (2)财政收入=f (财政支出)+ μ,μ为随机干扰项。 答案1、(1)不是。因为农村居民储蓄增加额应与农村居民可支配收入总额有关,而与城镇 居民可支配收入总额没有因果关系。 (2)不是。第t 年农村居民的纯收入对当年及以后年份的农村居民储蓄有影响,但并不 对第t-1的储蓄产生影响。 2、一是居民收入总额RI t 前参数符号有误,应是正号;二是全社会固定资产投资总额IV t 这 一解释变量的选择有误,它对社会消费品零售总额应该没有直接的影响。 3、(1)不合理,因为作为解释变量的第一产业、第二产业和第三产业的增加值是GDP 的构 成部分,三部分之和正为GDP 的值,因此三变量与GDP 之间的关系并非随机关系,也 非因果关系。 (2)不合理,一般来说财政支出影响财政收入,而非相反,因此若建立两者之间的模型, 解释变量应该为财政收入,被解释变量应为财政支出;另外,模型没有给出具体的数学 形式,是不完整的。 第二章五、计算分析题 1、令kids 表示一名妇女生育孩子的数目,educ 表示该妇女接受过教育的年数。生育率对 受教育年数的简单回归模型为 μββ++=educ kids 10 (1)随机扰动项μ包含什么样的因素?它们可能与受教育水平相关吗? (2)上述简单回归分析能够揭示教育对生育率在其他条件不变下的影响吗?请解释。 2、已知回归模型μβα++=N E ,式中E 为某类公司一名新员工的起始薪金(元),N 为

相关文档
最新文档