当代词典使用研究主题综述

当代词典使用研究主题综述
当代词典使用研究主题综述

!!!!!!!!!!!!!!!!!!!!""

""辞书使用指南

#本文的写作曾得到日本学者TOHO 教授的资

料支持及厦门大学吴建平博士和宁波大学张吉生教

授的悉心指导,特此表示感谢。当代词典使用研究主题综述#

罗思明赵海萍

提要本文采用历时研究的方法,通过对大量有关资料文献的分析,着重阐述了20世纪30年代以来词典使用研究的七个主题———词典用户的态度、需求、习惯和偏爱,词典和文本理解,词典和文本生成,语言教学与词典使用,词典和语言测试,词典技能及其教学,词典批评。文中对它们作了简要评价。

关键词词典使用研究主题

一、当代词典理论的主要特征

早期的词典理论与实践以编者为中心,从词典本体论出发,强调词典文本的规定性和规范性。20世纪中、后期,尤其是70年代末以来,词典研究发生了深刻的变化。词典理论家纷纷吸取接受美学、语言教学、心理学、信息学、认知科学等学科的研究成果,积极开展词典理论和实践研究。当代词典理论研究呈现的主要特征有:!研究重心发生转变。以词典用户为中心,

重视以词典文本为媒介的编者和用户之间的互动关系,强调词典用户的积极参与。

!重视词典用户研究。将用户需要,用户技能,用户的认知能力、认知水平和认知策略等课题纳入理论研究框架,提出词典编纂应从用户需要出发,力求词典结构与用户的心理词库和认知结构相类似。"主张开展跨学科研究。积极寻求认识论和方法论上的突破,主张采取社会语言学、心理语言学和认知语言学的研究取向,积极探索建立新的理论框架。#词典使用研究的学术地位上升。词典使用研究正式成为词典理论研究的一部分,取得了与词典历史研究、词典类型研究、词典批评研究等相同的分支学科地位,开辟了词典使用研究的理性时代。

但是,这些都还只是研究的刚刚开始。Hartmann和James指出,目前词典使用研究是“词典学中一个相对滞后的领域”[l]。本文采用历时研究的方法,通过对大量有关资料文献的分析,着重研究了20世纪30年代以来词典使用研究的主题,并对其加以简要评价,旨在为今后相关研究提供参考。

二、词典使用研究的主题

!.朦胧阶段

词典功能理论(theory of Iexicographic function)认为,词典是“实用产品”(utiIity product),人们编纂词典是为了满足特定需要(refer-ence needs)和执行特定功能。从辞书的最初原形———难词汇编(gIossary)来看,词典的确是为满足特定需要而产生的。BergenhoItz 和Tarp认为,在自《尔雅》以来的两千多年词典编纂史中,词典前言阐述词典用户及其需要的历史仅有几个世纪。[2]人们虽然在词典编纂之初就意识到词典的实用价值,但是有关词典使用的理论研究却起步很晚,且都是一些零散的使用说明,还称不上系统的理论研究。Cowie认为词典使用研究的重要突破时期是20世纪30—50年代。H.E.PaImer、A.S.Hornby和M.West等人在长期的海外语言教学中发现,用户对词典的需要存在差异,因而词典编纂应考

虑用户因素。以此为出发点,他们开创了英语作为外语的学习词典(EFL dictionary),并确立了“方便读者”(user friendiy)的编纂原则,如主要收录高频率词、设置句法信息、采用有限的释义词、义项按频率原则编排等,打破以往英语词典只注重信息内容而无视读者的局面。这无疑是理论上的一个重大突破。不过,当时尚只是词典使用研究的非理性时代。虽然词典理论家们开始意识到词典用户的重要性,但这种认识还处在非理性状态,缺乏足够的理论依据和研究方法;学习词典也仅作为外语教学研究的产物,隶属于外语教学和词汇学的研究。

!.萌芽阶段

(1)20世纪60年代

词典使用研究取得相对独立的学科地位始于20世纪60年代的美国。1960年在Indiana州Bioomington召开了一次关于词典的大会,与会者首次提出和达成共识的理念是“词典编纂时,编者心目中须以明确的用户对象及其特定的需要为指导”。从此,词典学家开始探讨“特定词典用户和参考需要”这一主题,试图回答谁是明确的读者对象,他们有哪些特定需求、技能和动机,“编者心中有读者”究竟指什么等问题。词典使用研究最早从对不同词典用户参考需求的研究开始,Barnhart是奠基人之一。1962年,他采用问卷调查方式对美国一年级大学生使用母语词典的六个信息范畴进行调查后,发表了题为《单语商业词典编纂问题研究》(Problems in Editing Commercial Monolingual Dictionaries)的文章。他指出,用户对词典信息范畴的需求顺序依次是意义、拼写、发音、同义词、用法和词源。1965年,Osman发表《词语功能和词典使用:高级英语词典使用指南》(Word Function and Dictionary Use:A Work-book for Ad-uanced Learners of English)。

(2)20世纪70年代

这一时期的研究主题有:!用户类型,着重讨论词典用户的类

型,内容涉及用户的年龄、性别、职业、教育水平等。!词典与用户参考需要,主要讨论词典信息范畴与用户需求之间的关系,并根据用户需求对词典信息按重要性程度进行排序。"词典技能及其教学,讨论词典技能的构成内容、词典使用策略、词典技能教学的必要性、词典技能教学与用户类型等。1970年,Steed发表《借助俚语词典教授词典使用技能》(Teaching Dictionary Skills Through a Slang Dictionary);1972年,Kennedy发表《高年级词典技能教学》(The Teaching of Dictionary Skills in the Upper Grades);1973年,Beattie发表《词典使用教学》(Teaching Dictionary Use)。英国语言学家Ouirk也加入词典使用研究行列,他从社会学角度对词典参考需求和词典的社会形象展开研究,并分别在1973年和1974年发表《英国词典的社会影响》(The Social Impact of Dictionaries in the U.K.)和《词典的形象》(The Image of the Dictionary),进一步证明“意义”这一信息范畴对使用母语词典的本族学生最为重要。到70年代末期,词典使用研究终于迎来了划时代的突破。1979年,Hartmann在英国埃克塞特大学组织了“词典及词典用户”专题研讨会,并发表《词典与词典用户》(Dictionaries and Their Users)一文。该文对词典使用研究作了较为系统的阐述,论题涉及研究对象和研究方法等相关内容。一个以用户为中心(user-centred)的词典研究新领域———词典使用研究由此而开创。1979年,Tomaszczyk率先对外语词典使用者及其使用词典的情况进行调查研究,发现他们在查找词语意义时偏爱使用双语词典。他的论文《词典:用户与使用》(Dictionaries:Users and Uses)阐述了有关的具体研究成果。

!.探索阶段

(1)20世纪80年代

80年代是词典使用研究稳步发展的年代,研究进一步扩大和深入。1980年,MoIdenhauer发表《培养词典使用技能》(Deueloping Dictionary Skills),UnderhiII发表《论词典使用》(Use Your Dictionary)。

1981年,B jOint对外国学生的英语单语词典参考需求和词典使用技能进行研究后,发表了《外国学生的英语单语词典使用研究:语言需求和词典使用技能》(The Foreign Student’s Use of Monolingual English Dictionaries:A Study of Language Needs and Reference Skills)。1982年,SchOifieid发表《为理解而使用英语词典》(Using the English Dictionary for Comprehension),研究语言活动与词典之间的关系。1983年,BenOussan发表《词典与EFL理解力测试》(Dictionaries and Tests of EFL Comprehension),着重研究了外国学生如何使用英语词典进行语言理解力测试。Nesi着重研究了词典与写作之间的关系,于1987年发表《词典是否有利于写作?》(Do Dictionaries Help Students Write?)。Hartmann将词典使用研究领域进一步拓展,研究了双语学习词典使用与双语学习词典编纂的关系,于1983年发表《双语学习词典及其使用》(The Bilingual Learners’Dictionary and Its Use)。更为可喜的是,1984年Kipfer编写了专门的词典使用教材《词典学著作:词典用户教程》(Workbook on Lexicography:A Course for Dictionary Users),系统地阐述了词典教学的重要性、词典用户需求、词典技能、词典教学原则等问题。1987年,Paui BOgaards对1979—1986年间的词典使用研究状况进行分析,发现当时对学生的词典使用研究仅有5~6例,如B jOint(1981)、Hartmann(1982)和GaiissOn(1983)等作的研究,于是他便呼吁拓展词典使用研究的广度和深度,积极开展合作性研究。1987年,Hartmann对当时的词典使用研究状况进行了总结性研究,并发表《词典使用研究四个取向:研究方法述评》(Four Perspectiues on Dictionary Use:A Critical Re-uiew of Research Methods),指出当时词典使用研究的主题主要集中在四个方面:!词典语言信息范畴及其对词典用户的重要性。"词典用户及其态度、期待与批评研究。#学习活动与词典用户参考需求。$词典使用技能与词典使用效益调查。[3]此外,词典使用研究的方法论也是该时期的研究主题之一。Hartmann对B jOint和

MitcheII等15人的研究方法进行了综合分析,并指出其不足:研究方法多局限于问卷调查,而单一的问卷调查无法全面真实地反映用户心理,可见词典使用研究需要方法论上的突破。[4]80年代词典使用研究关注的另一个问题,是词典技能以及词典技能教学的研究和实践为何没有得到应有的重视。[5]

对于80年代词典使用研究的主题,日本学者Tono分析得更加详细。他认为,这至少包括:①词典和目标用户参考需求。②用户参考需求与词典编纂。③词典使用技能,包括技能类型和评估、宏观结构技能、微观结构技能、词典使用技能与语言能力等。④词典使用与语言运用,内容涉及词典使用与文本理解、词典使用与文本生成、词典使用与词汇学习等。⑤词典使用技能教学。③词典与语言教学。①词典比较与批评。

(2)20世纪90年代至今

20世纪90年代的词典研究各领域进一步细化和深入,对词典使用的类型和词典用户的类型研究得更深更广,且研究者们开始探索新的研究理论和研究方法。研究者们(如Cowie、Hart-mann、RundeII、SchoIfieId、Tono、B joint、Nesi、刘华文、章宜华、魏向清、张柏然、雍和明、罗思明等)纷纷主张从用户的角度重新审视传统的词典理论,运用新的理论和方法去探究以用户为中心的新型理论模式如“原型理论(prototype theory)”、“词典功能理论(theo-ry of Iexicographic function)”、“词典交际论(communicative theory)”、“接受美学理论”等。在研究角度上,则主张利用心理学、社会学、心理语言学、语料库语言学和认知语言学的理论和范式去研究词典用户的心理表征、认知能力、认知模式、认知结构,通过外在行为研究词典用户的内在心理活动和规律,从“以人为本”出发,以“从人到典”和“从典到人”的双重模式去建构新时期的词典理论框架。到1996年“AiIa词典使用”论坛举行之际,词典使用研究已经取得了很大成就。Jan HuIstijn和Cowie对当时的词典

使用研究进行系统分析后,认为当时的词典使用研究主要集中在七个主题:①词典用户的态度、需求、习惯和偏爱。研究问题涉及使用频率(多用于书写,少用于口语)、查阅信息类型(多用于查阅词义和译语对应词,少用于查阅语法信息和语音信息)、语言信息范畴与词典用户的需求和满意程度(最不满意的是收词不全)。

②词典和文本理解。研究问题涉及词典类型(单语词典、双语词典以及电子词典)、用户类型(中级词典用户、高级词典用户和翻译)、最能满足用户需求的词典信息(释义、例证、语法信息和译语对应词等),认为词典文本的不可阅读性成为词典有效使用的主要障碍。③词典和文本生成。研究词典在文本生成中的使用过程与效用,涉及文本生成所需要的词典类型、用户类型、最能满足词典用户需求的词典信息,研究的重点是词典例证与翻译和论文写作之间的关系。④语言教学与词典使用。研究发现词典有利于词汇学习。PauI Bogaards发现在文本翻译过程中,使用词典的受试者比不用词典的受试者获得的词汇量小。但这方面研究尚有待进一步深入,需要探讨词典在词汇学习中究竟有什么作用,词典类型和词汇习得之间存在什么联系,语言教学与词典使用的作用是否有区别,哪类词典更有利于词汇习得等问题。⑤词典和语言测试。主要研究词典与考试得分之间的关系。关于词典对考试成绩的影响,存在着相互对立的“有用论”和“无用论”两种对立的观点。③词典技能教学。着重研究词典使用技能的构成、词典使用教学的必要与否、词典教学的原则、内容与方法等。但这一主题的研究进展不大,尚有待进一步深入,应进一步弄清词典教学与词典有效使用之间的关系,词典使用中所存在的问题,词典用户通常解决这类问题的方法等。①词典批评。主要研究词典批评的标准、理论框架、视角等。学者们认为急需解决的问题有:尽快制定一个统一的词典批评标准;明确标准的制定者是词典编者还是学术评论家或词典使用指导专家。[6]

这一时期的词典使用研究虽然取得了很大的进展,但缺乏一个建立在公认的词典使用研究理论基础上的统一研究范式,无论在认识论上还是在方法论上,都显得缺乏学术研究应有的科学性和系统性。例如,虽然研究者开始意识到,要解决词典技能教学问题,首先必须对具体词典用户在完成具体任务时使用词典过程的细节内容有更多了解,从而才能寻求最佳的教学模式、教学内容和教学方法,但研究者的注意力多集中于文本理解方面,而对文本生成则不够重视;同时对词典使用的部分环节也认识不足,常想当然地推导词典使用的过程和步骤。不过,上述问题在20世纪末开始得到重视。例如,1998年在有关基金会赞助下,Wiegand、TOnO、Mc-Creary、DOiezai、Atkins对有关问题展开了研究,并获得了大量可喜的成果。而在研究方法上,虽然有些研究者采用观察、访谈、实验和综合等方法,但仍多以问卷调查为主。这样获取的数据通常不够全面,可靠性程度不够高,因为人们的所思与所做毕竟不一定是同质的。

三、任重而道远

从用户角度出发重新审视传统词典理论和研究范式,是人类认识论和方法论进步的必然结果。“从物到人”和“从人到物”,是同一研究过程的两个不可分割的部分。词典使用研究无疑为传统的词典研究开辟了一条新的研究途径。目前虽然在部分领域取得了不少成就,但尚有许多问题急需解决,如词典使用研究的理论框架和方法、词典的功能、词典与语言习得和语言运用、词典技能教学内容、用户心理词库与词典等。Hartmann认为,目前词典使用研究存在的问题有:研究的数量少,规模小;研究涉及的用户类型和词典类型单一;研究的问题简单,缺乏系统性;独立性研究多,合作性研究少;分类研究多,综合性研究少。[7]为此,他对词典使用研究提出八条建议:!扩大使用者研究范围;"增加受研究人群;#扩

大所研究的参考工具种类;④使不同方法的研究更有可比性;⑤要使研究结果更易推广;③扩大研究中可变因素的范围;①进行词典出版前的使用情况调查;③提供更多的方法培训。[8]

附注

[1]Hartmann R R K&James D.Dictionary of Lexicography.London,New York:Rut-iedge,1998.

[2]Bergenhoitz H&Tarp S.Two Opposing Theories:On H. E.Wiegand’s Recent Dis-covery of Lexicographic Function.Journal of Linguistics,2003(31)

[3][4]Hartmann R R K.Four Perspectives of Dictionary Use:A Criticai Review of Re-search Methods.In:Cowie A P(ed.).The Dictionary and the Language Learner(Papers from the EURALEX Seminar at the Uniuersity of Leeds).1987.

[5][7]Hartmann R R K(ed.).Dictionaries in Language Learning.Beriin:Thematic Net-work Project in the Area of Languages,1999.

[6]Cowie A P.English Dictionaries for Foreign Learners:A History.Oxford:Oxford Uni-versity Press,1999.

[8]Hartmann R R K.词典使用者观察:特别关注跨语词典.胡美华译.辞书研究,2003(5)

参考文献

1.Atkins S B T(Ed.).Using Dictionaries.In:Studies of Dictionary Use by Language Learners and Translators.T bingen:Max Niemayer Veriag,1998.

2. B joint H.Modern Lexicography:An Introduction.Oxford:Oxford University Press,2000.

3.Hartmann R R K.Dictionaries and Their Users(Papers from the1978BAAL Seminar on Lexicography〔Exeter Linguistic Studies4〕).Exeter University,1979.

4.Schoifieid https://www.360docs.net/doc/4616056743.html,ing the Engiish Dictionary for Comprehension.TESOL Ouarterly,1982(16)

5.Tono Y.Research on Dictionary Use in the Context of Foreign Language Learning.In:Focus on Reading Comprehension(Lexicographica.Series Maior106).T bingen:Max Niemeyer Veriag,2001.

(下转219页)

《汉语词汇结构论》出版宋岚1-087

……………………………………………………

……………………………………

第五届全国语文辞书学术研讨会述评史鉴1-162中国辞书学会专科词典专业委员会第六届年会、百科全书专业委员

会成立大会暨学术讨论会综述马汝军1-167

…………………………………………

…………………………

第四届全国中青年辞书工作者学术研讨会综述宋岚1-170中国训诂学研究会举行2004年学术年会秘书处1-172

………………………………

双语辞书编纂出版学术研讨会征文2-009

………………………………………………

……………………………

对外汉语学习词典学国际研讨会在香港召开张博2-018台湾词典及语料库研究中心活动简述曾泰元2-032

……………………………………

…………………………………………………………

《百科全书的故事》出版曼2-144

………………………………………

全国双语词典学术研讨会征集论文辞讯2-219上海辞书学会举行换届大会辞秘3-007

………………………………………………

……………………………………

首届佛经音义研究国际学术研讨会即将举行3-019

………………………………

第二届对外汉语学习词典学国际研讨会征集论文3-044亚洲辞书学会第四届年会暨学术研讨会在新加坡召开励行3-149

…………………

………………………………

第六届汉语词汇语义学研讨会在厦门召开刘扬涛3-150

……………………………

首届佛经音义研究国际学术研讨会召开徐4-122 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!(上接181页)

6.霍庆文.英语学习词典史?序.北京:外语教学与研究出版社,2002.

7.刘华文.词典接受学理论初探.外语与外语教学,1997(3)

8.章宜华.自然语言的心理表征与词典释义.现代外语,1998(3)

9.罗思明,查如荣.辞书使用研究的认知视角.辞书研究,2002(5)

10.罗思明,王军,曹杰旺.词典用户技能及心理表征实验研究.辞书研究,2004(2)

11.魏向清,张柏然.新世纪词典学理论研究趋势展望.外语与外语教学,2001(4)

12.雍和明.词典交际论.外国语,2001(4)

(宁波大学科技学院外语系浙江315211)

(责任编辑陆嘉琦)

定向网络爬虫 开题报告

山东科技大学 本科毕业设计(论文)开题报告 题目网络爬虫 定向爬取?脚本之家?文本信息 学院名称信息科学与工程学院 专业班级计算机科学与技术2012级2班 学生姓名包志英 学号 201201050201 指导教师赵中英 填表时间:二0一六年三月二十八日

下,并不能很稳定的工作,内存消耗随着程序的运行而不断增大,直到达到jvm 分配的上限而崩溃。很多时候,你只能做个权衡,每个webclient使用若干次后就把它回收,然后重新启动一个,这非常影响性能。Rhino对于javascript的支持并不好,实际使用中,会发现各种Exception,很多时候会导致无法渲染出想要的结果,这个htmlunit的又一大缺陷。随着版本的更新,能够渐次解决一些问题,但是好的程序员,还是应该自己读源码来尝试解决问题。 Phantomjs相比于htmlunit,对于js的支持更接近真实的浏览器,但是并发性能差,通过java的exec调用系统命令来启动,更加降低了性能。 此外主流的浏览器都提供了相应的抓取支持,selenium可谓是一个集大成者,包含了上述的所有组件,以WebDriver的形式,适配各种爬虫组件,你可以用它操控浏览器自动抓取,当然,并发和性能的问题依然存在。 爬虫开发的主要问题是性能和反封锁。很多时候,采用高并发高频率抓取数据是可行的,前提是目标站点没有采用任何反爬措施(访问频率限制、防火墙、验证码……);更多时候,有价值的信息,一定伴随着严格的反爬措施,一旦ip 被封,什么组件都没戏了。你不得不维护一个代理IP池来解决这个问题,当然,这也带来了代理ip稳定性和速度的问题,这些问题都是无法回避的问题,我们需要针对具体的情况,采用对应的措施,以最大限度的完成爬虫爬取任务。 目前,爬虫的需求呈爆炸式增长的趋势,这是当前各种互联网创新和大数据时代的新常态。火车和八爪鱼等团队看到了这一点,并率先开发了相对完备的爬虫产品,很多用户都在使用,但是更多的用户希望直接把爬虫抓取任务外包出去,因为他们不懂技术,工具的使用需要逾越技术的鸿沟,大部分用户并没有这个逾越鸿沟的打算。我相信像猪八戒这样的技术外包平台会活的越来越好,我也相信各个技术门类会不断聚集,形成相对独立的社区,P2P的社区平台将提供爬虫开发者和爬虫需求者更加通畅的交流渠道。 目前,淘宝等平台上出现很多爬虫服务商,如 https://www.360docs.net/doc/4616056743.html,/item.htm?spm=a230r.1.14.4.10ZOWj&id=42659198536 &ns=1&abbucket=6#detail,这种定制开发的服务,增加了服务商的成本,服务往往是一次性的,满足了一个用户的需求,然而具有相似需求的用户,却很难有机会找到这个服务商,这就是为什么我们需要爬虫信息交流的平台。

网络爬虫详解

网络爬虫详解 一、爬虫技术研究综述 引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: (1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。 (2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。 (4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。 为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。 1 聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,如图1(a)流程图所示。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,如图1(b)所示。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。 相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: (1) 对抓取目标的描述或定义; (2) 对网页或数据的分析与过滤; (3) 对URL的搜索策略。 抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

课题研究之研究假设

课题研究之研究假设 研究假设是我们在实施课题研究设计之前,必须明确的问题。在教育科学研究中,提出具体的研究假设具有非常重要的作用。 一、为课题研究指明方向 研究假设使研究目的更明确,研究范围更确定,研究内容更具体,把研究数据的收集工作限定在一个更特定的方面和范围,因此,可以起到一种纲领性作用。 例1 学习策略是一个广泛的研究领域。斯诺曼认为,学习策略应由三部分组成:(1)策略技能,包括有效分析学习情境中的各种变量及关系,制定学习计划。(2)具体的策略技能,包括在有效的学习活动中熟练使用各种学习方法、监控学习进程和必要时修改先前的计划或方法。(3)元认知,包括意识到自己是如何思考的,知道如何适当运用自己的思维过程以实现某一特定的学习目标,知道应用上面两个成分的必要性,知道为什么、何时和如何使用上述技能。 “学习策略应用研究”课题,通过论证将假设确立为:(1)对每种学习形式来说,尽管有通用的学习策略,但每种学习形式都有与之相应的独特的学习策略。学生的学习策略和不同学习形式相适应,才能体现学习策略真正的价值。同时每一种组织形式下的学习策略也是相辅相成、互为补充的。(2)在不同的学习形式中运用学习策略,可明显提高学习效率,因为学习策略使学习行为理性化、具有针对性,从而避免盲目性。(3)学习策略研究要实现个性化、本土化。(4)教

师的教学策略和学生学习策略的整合是完善教学理论与实践的需要。(5)学习策略的掌握和应用是进行终身学习的必要条件。 学习领域的研究是新世纪教育改革发展的热点之一,国内外相关研究成果丰硕。国内研究更多停留在理论领域,因而学习应用性策略研究较少。又基于学习策略的个性化、本土化等特点,急需应用性研究,所以,本课题的选题具有较高的价值。但如果将学习策略的所有理论成果全部应用于实践,又在实践中同时开发创新,时间、空间、人力和物力都不允许,也没必要。所以,本课题将研究领域和主题设定在目前人们普遍关注的学习方式范畴,又只关注通用学习策略、个性化、本土化学习策略以及学与教策略的整合等领域,避免了漫无目的平均用力造成时间和精力的浪费,保证课题研究朝成功的方向发展。 二、保证课题研究直指成果 课题研究的过程实质上就是检验假设的过程,课题研究的直接目的就是为了验证假设。同时,验证假设的结果可以证实,也可以证伪。需要注意的是,假设与课题设计的其他环节不同,课题包括关于研究对象、范围、内容和方法的表述;而假设是关于事物本质和规律的合乎科学的猜测,是对课题中所提问题的尝试性解答,因此,在研究工作中不能把两者混为一谈。 例2“两种教学方法对学生学习成绩的影响”。这个课题可以提出三种假设:第一,接受教法一的学生学习成绩高于接受教法二的学生的学习成绩;第二,接受教法二的学生学习成绩高于接受教法一的学生的学习成绩;第三,接受两种教法的学生的学习成绩没有差异。无

词典翻译与文学翻译对比研究初探

作者简介:姜秋霞(1962— ),副教授,博士,研究方向:翻译学收稿日期:2001-01-11 2001年第8期 总第148期 外语与外语教学 F oreign Languages and Their T eaching 2001,№8Serial №148 词典翻译与文学翻译对比研究初探 姜秋霞 (南京大学外国语学院,江苏南京 210093) 摘 要:本文着重对比词典文本与文学文本在翻译转换中词义层面的不同选择及不同的语境参照体系,论述了语境概 念中显性语境与隐形语境及其辩证关系,初步分析了两种不同的文本在翻译过程中的一些差异。 关键词:词典翻译;文学翻译;转换;显性语境;隐形语境; Abstract :This paper explores some of the differences involved in dictionary translation and literary translation ,mainly in the trans fer 2ence of the meaning of w ords and the context they refer to.S pecifically ,it argues a transparent context and an opaque context ,and presents a discussion of their dialectical relationship. K ey words :dictionary translation ,literary translation ,trans ference ,transparent context ,opaque context 中图分类号:H315.9 文献标识码:A 文章编号:1004-6038(2001)08-0056-03 无论是词典翻译,还是文学翻译,都涉及词、句的转换, 都有大体一致的准则和要求,即尽可能准确传递原文的信息内容,尽可能保持形式结构的对等,也就是所谓在译文语言中寻求最大程度的对等语。然而不同体裁的文本在翻译转换过程中有不同的特点和要求。就词典翻译和文学翻译而言,词典文本是以词为核心,以词、短语、句为独立单位存在的;而文学文本则是以篇章存在的,其中的句子甚至段落只是相对独立的单位,单个的词语则更具有很大程度上的临时依附性。词典中各词的释义浓缩性强,涵盖面广,具有很大的普遍性,即词义的共性特征;文学文本中的词、句受特定语境及艺术创作要求的限制,独特性强。词典的例句是以词头为中心生成的句式结构,文学文本中词与句是依据语境的要求发生的,因而两者的信息结构不同。由于两类文本有以上各种差异,致使两种语言文本的翻译在转换中有不同的选择取向。本文试就词义转换在两种不同文本翻译中的差异进行一些对比。 一、词义层面与选择角度 所谓翻译,就是用一种语言形式再现另一种语言的形式和内容构成的各种信息,如语言符号所负载的概念,句子及篇章的结构意义,语篇的语言风格,以及语言所传递的情感、审美等艺术信息。在所有形式和内容的信息中,词语的转换是最基本的。关于在翻译转换中的词语意义,奈达、巴尔胡 达罗夫等早有过各种分类,大体可归纳为“指称意义” (refer 2ential meaning )、“言内意义”(intralingual meaning )和“语用意 义”(pragmatic meaning )。“指称意义”指的是语言符号所代表 的含义,即索绪尔的“能指”(signifier )与“所指” (signified )的语符关系;“言内意义”是指词语与共存状态下的其他语言成分相互联系所产生的意义,即结构意义;“语用意义”则是指语言在具体使用过程中,即特定语境下所产生的意义。就词典文本和文学文本而言,词典中的词(尤指词目词)是以能指为主要特性的,语符主要传递其概念意义,所选例证是一组概念按一定逻辑形式所构成的语义,以体现词目词的概念或能指性为主;而众所周知,文学文本是言语(parole )的表现形式,因而主要体现其语用色彩;传递形象意义,主要体现形象性或表现性功能。这就要求译者在进行两种文本的转换过程中对词义的选择有不同的取向。请看下例: 11A :Her v oice was faint but steady. 她的嗓音低微然而深沉①。 B :Jane was forced to smile com pletely ,...and said in a conscious ,low ,yet steady v oice ,.... (J.Austin :Emma )简再也忍不住了,笑了起来……她心中有数,然而不慌不忙地低声说:……。(张经浩译《爱玛》 )A 为词典文本例句;B 为文学文本例句。对比两个文本 中steady 对v oice 的描述,在译文中是不完全一样的。“深沉 的嗓音”很好地对应了该词条第5义项的“镇定的,冷静的,沉着的”的释义,具有该词在描述声音时最具概念化的表达方式。B 的译文则使“镇定、冷静、沉着”形象为“不慌不忙”。又如: 21A :in the open air 在户外② B :But when she was there beside the sea ,abs olutely alone , she cast the unpleasant ,pricking garments from her ,and for the

网络爬虫知识

网络爬虫 1.工作原理 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。基本步骤: 1)人工给定一个URL作为入口,从这里开始爬取。 2)用运行队列和完成队列来保存不同状态的链接。 3)线程从运行队列读取队首URL,如果存在,则继续执行,反之则停止爬取。 4)每处理完一个URL,将其放入完成队列,防止重复访问。 5)每次抓取网页之后分析其中的URL(URL是字符串形式,功能类似指针),将经过过滤的合法链接写入运行队列,等待提取。 6)重复步骤 3)、4)、5) 2.关键技术 1.对抓取目标的描述或定义 2.对网页或数据的分析与过滤 3.对URL的搜索策略

3.网页搜索策略 1.广度优先 广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL 在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。 2.深度优先 即从起始网页开始,选择一个URL,进入,分析这个网页中的URL,选择一个再进入。如此一个链接一个链接地深入追踪下去,处理完一条路线之后再处理下一条路线。该算法在设置抓取深度时很容易导致爬虫的陷入(trapped)问题,同时每深入一层,网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近,而过度深入抓取到的网页却价值很低,所以目前常见的是广度优先和最佳优先方法,很少使用深度优先策略。 3.最佳优先 最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。将在第4节中结合网页分析算法作具体的讨论。研究表明,这样的闭环调整可以将无关网页数量降低30%~90%。 4.网页分析算法 1.网络拓扑 基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。 a)网页粒度的分析算法

清华大学项目及课题研究方向汇总

清华大学 土木工程系 1.用燃煤灰渣生产微晶玻璃 2.钝化镁粉新技术 3.金属用高温陶瓷保护膜(液) 4.高性能二次灌浆料 5.大掺量粉煤灰混凝土 6.钢筋混凝土模板工程计算机辅助设计系统--- FWCAD 7.各种城市交通规划与城市交通问题解决方案 8.基于GIS的典型中等城市综合防灾分析示范系统 水利水电工程系 9.碾压混凝土拱坝新技术研究和工程设计 10.流场实时测量系统 11.土工建筑物应力变形分析软件系统 12.水轮机及其附属设备选型计算机辅助设计软件版本 13.土体非线性解耦K—G模型及其应用研究 14.高效耐磨渣浆泵 环境科学与工程系 15.高浓度有机废水的厌氧生物处理技术 16.生物预处理去除饮用水源中微污染技术 17.城市生活污水内循环三相生物流化床处理技术 18.城市生活垃圾与危险废物处理处置系列技术 19.回转管组合式活性炭固定床连续吸附净化技术 20.生物质型煤成型及燃烧固硫技术与装备 21.高效油烟静电净化装置 22.利用农作物秸秆生产生物质型块作压缩饲料的项目建议 23.高含硫废水和高含硫碱渣废液同时脱硫脱氨专利技术 24.挥发性有机物(VOCs)及恶臭气体的生物净化技术 25.高含盐、高含油、高氯根污水处理专有技术 机械工程系 26.生产线设计与机器人化制造单元技术

27.电动汽车动力电池性能测试系统 28.大批量生产线监控与管理系统 29.装配生产线定扭矩扳手施扭质量控制系统 30.用于金属焊管生产的激光切割-焊接技术及工艺 31.多功能快速成形制造系统(M-RPMS)技术 精密仪器与机械学系 32.MEMS方位水平仪 33.微小型雾化给药装置 34.医用红外热像仪 35.朗奇光栅纹影仪 36.新型大型龙门式五坐标并联机床 37.警员虚拟情景训练系统 38.指纹图象采集与身份自动鉴别系统 39.快速定位定向车 40.微机械惯性仪表 41.附网存储(NAS)技术及产品开发项目简介 热能工程系 42.大型循环流化床生活垃圾焚烧炉 43.“多重富集型”直流煤粉燃烧器 44.汽轮机智能汽封抽汽器 45.护卫式汽封 46.新型汽轮机组级间密封及轴封装置 47.电站设备故障仿真与操作指导软件培训系统 48.动力设备状态维修与诊断技术及其应用 49.基于Internet的发电机组远程监测与诊断网络系统 50.350MW火电机组全工况实时仿真与多功能在线综合研究系统 51.饮用水净化技术及设备 52.离子交换树脂的电再生技术 53.电去离子净水技术 汽车工程系 54.汽车电动助力转向系统(EPS)研究 55.汽车排气催化器性能评价试验与匹配技术

网络爬虫开题报告doc

网络爬虫开题报告 篇一:毕设开题报告及开题报告分析 开题报告如何写 注意点 1.一、对指导教师下达的课题任务的学习与理解 这部分主要是阐述做本课题的重要意义 2.二、阅读文献资料进行调研的综述 这部分就是对课题相关的研究的综述落脚于本课题解决了那些关键问题 3.三、根据任务书的任务及文件调研结果,初步拟定执行实施的方案(含具体进度计划) 这部分重点写具体实现的技术路线方案的具体实施方法和步骤了,具体进度计划只是附在后面的东西不是重点南京邮电大学通达学院毕业设计(论文)开题报告文献[5] 基于信息数据分析的微博研究综述[J];研究微博信息数据的分析,在这类研究中,大多数以微博消息传播的三大构件---微博消息、用户、用户关系为研究对象。以微博消息传播和微博成员组织为主要研究内容,目的在于发祥微博中用户、消息传博、热点话题、用户关系网络等的规律。基于微博信息数据分析的研究近年来在国内外都取得了很多成果,掌握了微博中的大量特征。该文献从微博消息传播三大构件的角度,对当前基于信息数据分析的微博研究

进行系统梳理,提出微博信息传播三大构件的概念,归纳了此类研究的主要研究内容及方法。 对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。文献[6]综述了聚焦爬虫技术的研究。其中介绍并分析了聚焦爬虫中的关键技术:抓取目标定义与描述,网页分析算法和网页分析策略,并根据网络拓扑、网页数据内容、用户行为等方面将各种网页分析算法做了分类和比较。聚焦爬虫能够克服通用爬虫的不足之处。 文献[7]首先介绍了网络爬虫工作原理,传统网络爬虫的实现过程,并对网络爬虫中使用的关键技术进行了研究,包括网页搜索策略、URL去重算法、网页分析技术、更新策略等。然后针对微博的特点和Ajax技术的实现方法,指出传统网络爬虫的不足,以及信息抓取的技术难点,深入分析了现有的基于Ajax的网络爬虫的最新技术——通过模拟浏览器行为,触发JavaScript事件(如click, onmouseover等),解析JavaScript脚本,动态更新网页DOM树,抽取网页中的有效信息。最后,详细论述了面向SNS网络爬虫系统的设计方案,整(转载自:https://www.360docs.net/doc/4616056743.html, 小草范文网:网络爬虫开题报告)体构架,以及各功能模块的具体实现。面向微博的网络爬虫系统的实现是以新浪微博作为抓取的

文献综述-基于C++的网络爬虫的设计与实现

基于C++的网络爬虫的设计与实现的研究综述 作者:xxx 指导老师:xxx 摘要:本文归纳了网络爬虫的设计与实现方面的研究内容,概括了网络爬虫的定义与爬取策略、网络爬虫的体系结构、设计网络爬虫的关键问题以及爬虫身份的识别等方面的观点,并总结了如何通过一个或多个给定的种子网站,将网站上相应的网页抓取下来,并将其存入数据库或文本文件中的研究成果。本文也指出了如何通过解决传统的通用搜索引擎在某些领域的局限性,帮助人们更加有效地提取与利用互联网信息,进而提高人们在检索信息效率方面的研究需求。最后,本文提出了一个满足用户需求的网络爬虫的开发方案。 关键词:网络爬虫;通用搜索引擎;互联网 The Design and Implementation of Web Spider Based on C++ Author:xxxTutor: xxx Abstract:This paper summarizes the research about the design and implementation of the web spider, summarizesthe view aboutthe definition of web spider, the crawling strategy of the web spider, the architecture of the web spider, the key issues to design the web spider and identification of the web spider ,and summarizes the research about how to catch the web-pages which links to the corresponding web site through one or more given seed site, and then stores it into a database or text file . The paper also points out how to solve the limitations of the Traditional General Search Engine in some areas , help people more effectively extract the information and make use of the Internet, then improve people’sresearch needs in the area of information retrieval. In the end, the paper proposesa web spider development planwhich can meet the user’s needs. Keywords:WebSpiders ;Tradition Universal Search Engine ; Internet

.度课题研究方向指引(课题选题参考)

说明: 本“参考”仅仅提供给大家一个课题研究的选题方向,提供基本思路,它不 可能把当前教育所面临的所有问题或课题涵盖,也无意使“参考”成为束缚大家课题选择的框框。需要特别指出的是:你的兴趣、你的需要、你的愿望、你的当务之急、你的水平、你的学术或教学背景、你的具体情况,是决定你课题选择或研究方向的基本因素。 课题指南项目不等同于课题名称,应用和落实的过程应是进一步分解和细化的过程。申报时,应该注意尽可能广泛收集相关研究成果并在其基础上提出新的 研究思路,同时要注意研究力量的组合、配置,注意研究过程的科学设计。 参考选题(一) 一、基础教育研究 1.学校校园文化建设研究 2.优质教育资源合理配置研究 3.校本课程资源开发与利用研究 4.校本研训的探索与实践 5.学生个性、特长的发展实践研究 6.学生参加社会实践活动的方法、途径研究 7.学生在校有效学习时间调研与分析 8.学生家庭作业现状调查与分析 9.新课程初、高中学科教学过渡的问题与对策研究 10.中小学生科学素质培养研究 11.中小学综合实践活动课程开发与建设研究 12.教师教学方式创新与学生学习方式转变研究 13.解决学生厌学情绪的对策研究 14.提升中小学作业有效性的实验研究 15.自主学习模式的探索与研究 16.课堂教学有效反馈研究 二、教育管理与教育评价研究 1.初中生学业考试评价研究

2.中小学生综合素质评价研究 4.寄宿制学校学生管理研究 5.小学生日常行为规范养成与评价研究 6.城市流动人口子女教育研究 7. 学校公共安全教育及管理模式研究 8. 中小学生校内外安全工作研究 三、德育与心理健康教育研究 1.家长委员会在学校和班级管理中的作用研究 2.德育资源的开发与应用研究 3.构建社区、学校、家庭三位一体德育网络研究 4.信息时代中小学网络道德教育研究 5.中小学生诚信教育研究 6.青少年法制教育与预防犯罪问题研究 7. 中小学生心理问题预防与矫正研究 8.中小学生人际交往的指导研究 9.优秀班主任工作个案研究 10.网络对青少年学生身心健康影响及对策研究 11.中学生青春期教育研究 四、体育卫生与美育研究 1.中小学生肥胖症、近视等产生原因及对策研究 2.中小学生体质健康状况与学校体育卫生健康教育研究 3.体育、卫生行为习惯养成与教育因素研究 4.体育锻炼促动学生身心发展研究 5.中小学体育教学有效性研究 6.展开“阳光体育运动”的理论与实践研究 7.高中体育与健康课程选修学习研究 8.艺术教育课程资源的开发与利用研究

《中国翻译词典》序-季羡林

《中国翻译词典》序 现在颇有一些人喜欢谈论“中国之最”。实事求是地说,有五千年文明史是的中国“最”是极多极多的。几大发明和几大奇迹,不必说了。即在九百多万平方公里的锦绣山河中,在人们日常生活的饮食中,“最”也到处可见。、 然而,有一个“最”却被人们完全忽略了,这就是翻译。 无论是从历史的长短来看,还是从翻译作品的数量来看,以及从翻译所产生的影响来看,中国都是世界之“最”。这话是符合实际情况的,因而是完全正确的。 根据学者们的研究,中国先秦时代已有翻译活动。这是很自然的。只要语言文字不同,不管是在一个国家或民族(中华民族包括很多民族)内,还是在众多的国家或民族间,翻译都是必要的。否则思想就无法沟通,文化就难以交流,人类社会就难以前进。 至迟到了东汉末年,印度佛教就传入中国。在此后的一千多年中,中国僧人和印度僧人,以及中亚某些古代民族的僧人,翻译了大量佛典,有时个人单独进行,有时采用合作的方式。专就一个宗教来说,称之为“最”,它是当之无愧的。从明清之际开始,中间经过了19世纪末的洋务运动和1919年开始的五四运动,一直到今天的改革开放时期,中国人(其中间有外国人)又翻译了其量极大的西方书籍。各种学科几乎都有。佛典翻译以及其他典籍的翻译,所产生的影响是无法估量的。 如果没有这些翻译,你能够想象今天中国文化和中国社会会是什么样子吗? 这些话几乎都属于老生常谈的范畴,用不着在细说了。我现在想从一个崭新的,从来没有人提到过的角度上,来谈一谈翻译对中国文化的重要意义。 最近半个多世纪以来,在世界上一些大国中,颇有一些有识之士,在认真的思考谈论人类文化的演变和走向问题。英国学者汤因比可以作为一个代表。他的大著《历史研究》已被译为汉文。他把世界上过去所有的文明分为23个或26个,说明没有任何文明能永存的。我的想法同这个说法相似。我把文化(文明)的发展分为五个阶段:诞生、生长、繁荣、衰竭、消逝。具体的例子请参看汤因比的著作。我在这里声明一句:他的例子我并不完全赞同。 汤因比把整个中华文化(他称之为“文明”)分为几个。这一件我认为有点牵强、机械。我觉得,不能把中华文化分成几个,中华文化是一个整体。 但是,这里就出现了一个尖锐的问题:你既然主张任何文化都不能永存,都是一个发展的过程,为什么中华文化能成为例外呢?为什么中华文化竟能延续不断地一直存在到今天呢?这个问题提的好,提到了点子上。我必须的认真地予以回复。 倘若对中华五千年的文化发展史仔细加以分析,中间确能分出若干阶段,中华文化并不是前后一致地、毫无变化地发展下来的。试以汉唐文化同其他朝代的文化相比,就能看出巨大的差别。汉唐时代,中华文化在世界上占领导地位,当时的长安是世界上文化的中心。其他朝代则不行。到了近代,世界文化中心西移,我们则努力“西化”,非复汉唐之光辉灿烂了。 但是,不管经过了多少波折,走过了多少坎坷的道路,既有阳关大道,又有独木小桥,

一篇文章了解爬虫技术现状 岂安低调分享

一篇文章了解爬虫技术现状岂安低调分享 干货观点案例资讯我们本文全面的分析了爬虫的原理、技术现状、以及目前仍面临的问题。如果你没接触过爬虫,本文很适合你,如果你是一名资深的虫师,那么文末的彩蛋你可能感兴趣。 需求 万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼,不可能去每一个网页去点去看,然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取相 应内容的程序,这就是爬虫。 原理 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的

某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;所以一个完整的爬虫一般会包含如下三个模块:网络请求模块爬取流程控制模块内容分析提取模块网络请 求 我们常说爬虫其实就是一堆的http(s)请求,找到待爬取的链接,然后发送一个请求包,得到一个返回包,当然,也有HTTP长连接(keep-alive)或h5中基于stream的websocket 协议,这里暂不考虑,所以核心的几个要素就是:url请求header、body响应herder、内容01URL 爬虫开始运行时需要一个初始url,然后会根据爬取到的html 文章,解析里面的链接,然后继续爬取,这就像一棵多叉树,从根节点开始,每走一步,就会产生新的节点。为了使爬虫能够结束,一般都会指定一个爬取深度(Depth)。 02Http请求 http请求信息由请求方法(method)、请求头(headers)、请求正文(body)三部分组成。由于method一般是header中的第一行,也可以说请求头中包含请求方法,下面是chrome访问请求头的一部分:GET / HTTP/1.1Connection:Keep-AliveHost:https://www.360docs.net/doc/4616056743.html,Use r-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko)

基于Python的网络爬虫-开题报告

基于Python的网络爬虫的设计与实现 1.本课题所涉及的问题在国内(外)的研究现状综述 无论国内国外,随着动态网页技术的发展,网络爬虫的难度也越来越高。很大一部分的动态网页是搜索不到的,例如聊天室系统,另外还有很多页面是需要注册为用户并登录才可以看到,并且在登录过程中有输入验证码这一操作,验证码现在对于网络爬虫是一大难题。目前来说,大多数爬虫是用后台脚本类语言写的,其中python无疑是用的最多最广的,并且页诞生了很多优秀的库和框架。但是一般来说,搜索引擎的爬虫对爬虫的效率要求更高,对于大多用户提出的与主题或者领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果为了克服通用搜索引擎的不足,提出了面向主题的聚焦爬虫的研究。现在,聚焦爬虫已经成为爬虫的研究热点之一。 2.本人对课题任务书提出的任务要求及实现预期目标的可行性分析过去,不管是翻阅书籍,还是通过手机,电脑等从互联网上手动点击搜索信息,视野受限,信息面太过于狭窄,且数据量大而杂乱,爆炸式信息的更新速度是快速且不定时的。要想手动获取到海量的信息,并进行分析整理,都要耗费巨多的时间,精力,效率低下,但是通过网络爬虫,根据需求获取海量网络数据,进行数据清洗,去重,入库,存表,数据可视化,把分析结果反馈给用户,并把数据结合搜索引擎存储,用户在查询数据的时候实现搜索建议,搜索结果关键字高亮化,展示热门搜索等功能,精简搜索范围,提高搜索效率,提供令人满意的结果,克服了通用搜索引擎的不足。 3.本课题需要重点研究的、关键的问题及解决的思路 绝大部分网站都有反爬虫机制,数据不能获取到,这时需要采取设置请求头,设置请求的时间间隔,伪造代理信息或者采取其他的措施来解决。部分网站需要登录之后才能找到需要的数据,在登录的过程中会遇到输入验证码的问题,可以选择模拟登陆,第一次登录之后,鼠标右键,查看网络,查找登录时的参数字段信息,利用这些字段名,通过模拟浏览器操作实现自动登录,验证码可以选择手动输入也可以选择人工打码。数据库性能会因为表结构的设计受到很大的影响,每张表的字段值或多或少,需要合理的设计数据库,这个可以通过垂直分表,水平分表,选择合适的存储引擎等来实现,在存储的过程中,选择异步存储,依靠连接池来实现数据量过大导致的时间,性能,效率上的问题。 4.完成本课题所必须的工作条件(如工具书、实验设备或实验环境条件、某类市场调研、计算机辅助设计条件等等)及解决的办法 1.Windows系统 2.Firefox和Firebug、FirePath组件 3.Elasticsearch环境 4.安装MySQL 5.Python语言环境

附录二:谭载喜主要著述一览_翻译与翻译研究概论:认知视角课题

中国出版传媒股份有限公司中国对外翻译出版有限公司 中译翻译文库 ·翻译思想与理论研究丛书 中译翻译教材 ·翻译专业研究生系列教材 翻译与翻译研究概论 ——认知 ·视角 ·课题 Translation and Translation Studies: Perceptions, Perspectives and Methodology ??? 著

图书在版编目(CIP)数据 翻译与翻译研究概论:认知·视角·课题 /谭载喜著. —北京:中国对外翻译出版有限公司,2012.11 (中译翻译文库?翻译思想与理论研究丛书) (中译翻译教材·翻译专业研究生系列教材) ISBN 978-7-5001-3382-7 Ⅰ.①翻… Ⅱ.①谭… Ⅲ.翻译理论-研究生-教材②翻译-研究- 研究生-教材 Ⅳ.①H059 中国版本图书馆CIP数据核字(2012)第225964号 出版发行 / 中国对外翻译出版有限公司 地 址 / 北京市西城区车公庄大街甲4号物华大厦6层 电 话 / (010) 68357328 68359287 68359376 68359303 68359719 邮 编 / 100044 传 真 / (010) 68357870 电子邮箱 / book@https://www.360docs.net/doc/4616056743.html, 网 址 / http: // https://www.360docs.net/doc/4616056743.html, 出版策划/张高里 策划编辑/林国夫 责任编辑/袁仁辉 特约编审/谢天振 胡安江 排 版 / 竹页图文 印 刷 / 北京天来印务有限公司 经 销 / 新华书店 规 格/700×960毫米1/16 印 张/23.5 版 次/2012年11月第一版 印 次/2012年11月第一次 ISBN 978-7-5001-3382-7定价:48.00元 版权所有侵权必究 中国对外翻译出版有限公司

教育研究课题的选择

教育研究课题的选择 教育研究课题的选择,是教育科研工作的首要环节,也是关键的一步。这是因为课题的选择引导着研究方向,并制约整个研究工作的进行以及研究的价值。但在现实之中,确确实实存在着一些教师找不到研究课题,不知道如何选择研究课题,或者选择的研究课题本身是“伪问题”而是不是“真问题”等现象。针对现存的种种问题,我们将从课题来源、课题选择的一般步骤、课题选择的方法和策略等方面做具体的分析与介绍。 一、课题的来源 一线教师作为特殊的教育研究群体,不同于专业研究者,其研究工作应主要围绕自身的教学实践展开,课题来源主要有以下几个方面: (一)在教学中发现问题 教学中的问题是教师教育研究课题的主要来源。教学实践中的问题可以说是千变万化,层出不穷的。 1.将教育实践活动中迫切需要解决的问题直接转化为研究课题 教师可以把那些重要的、迫切需要解决的问题转化为研究课题。例如,长期困扰教育界的中小学课业负担过重问题产生原因是什么?这一问题怎样才能得到解决?再如学习困难学生是怎样形成的?学习困难学生有哪些特点?教育教学中怎样促进学习困难学生的转化?学生厌学是一个相当普遍的问题,这种状况是怎样形成的?与教学内容、教学方法有着怎样的关系?怎样提高学生的学习兴趣等。这些问题几乎在每个教师教学过程中都会碰到,并一直没有得到彻底解决。从这些突出的现实问题中提出课题进行研究最能充分发挥教师自身的优势,能直接的提高教学质量。 2. 从教学实践的疑难、矛盾和困境中发现研究课题 教师可以从教学实践的疑难、矛盾和困境中发现研究课题。教师在教学过程中常常会遇到各种各样的疑难、矛盾与困境,并且没有现成的成功解决方法可供借鉴。这种疑难或困境至少有以下几种类型: (1)教师的理想与实际存在着差距。例如,教师希望在教学过程中突出学生的主体性,以此为基点进行新的教学设计,试图引发学生兴趣,唤起学习热情,但实施下来效果并不明显,学生的学习成绩还受到了一定的影响。 (2)教学情境中教师与学生、学生与学生的目标之间存在着冲突。如教师从“培养学生创造力”的指导思想出发,在教学中布置较有挑战性的作业,但这种做法却导致一部分学生跟不上功课,产生挫败感,最终厌学。

近三十年来国外词典对比研究的现状与特点

摘要词典研究中的基础性工作之一是了解国际词典编纂与研究的特点与发展动态,做到知己知彼。文章以《国际词典学》为封闭域,对其自1988年创刊到2014年间所刊载的词典对比文献进行整理、分类和分析,指出国际词典学界的词典对比研究呈现出明显的“欧洲中心”特点,其分析焦点是外向型英语学习词典的对比,汉外词典对比研究则极为薄弱。文章认为,中国要实现从词典古国、词典大国向词典强国的迈进,需要加强汉外词典的对比研究工作。 关键词词典对比词典类型语文词典学习词典《国际词典学》 引言 词典研究的基础性工作之一,是摸清自己的家底。刘艳春、谢熠、冯晨(2014)分析了《辞书研究》自1979年第1期到2012年第4期所刊载的4603篇学术性文章,对我国当代辞书研究进行了全景式概览,为学界对我国辞书研究特点的整体把握提供了可靠的数据。系统性的词典研究需要知己知彼。国内学界同时也需要了解国际词典学界词典编纂与研究的重点和最新发展动态。“把中国的词典发展史置于世界词典演变史的大框架之中阐述……中国词典的学术高度和民族特色也就愈发得到彰显。”(黄建华 2006)本文旨在分析国际词典学界在词典对比研究领域体现出来的特点与发展态势,选取学术期刊《国际词典学》(international journal of lexicography)为代表性数据源。该刊为欧洲词典学会会刊,始创于1988年,由牛津大学出版社出版。《国际词典学》理论与实践并重,内容涉及词典设计、编纂、使用等各方面,并力图涵盖世界上各种语言的词典。如刊名所示,该期刊所刊载的文章,具有国际性、典型性、代表性和前瞻性的特点。 本文对该刊自1988年创刊到2014年间所刊载的词典对比研究成果进行整理和分类,分析国际词典学界在词典对比研究领域的现状和发展动态,以期勾勒出国际词典学界在该领域的研究热点、焦点以及未来的发展态势。 从词典类型学视角分析,从1988―2014年近30年间,《国际词典学》所刊载的词典对比研究文献主要分为两类:同一类型词典间的对比;不同类型词典间的对比。 一、《国际词典学》中同一类型词典间的对比研究 《国际词典学》中同一类型词典的对比研究主要包括通用型词典间的对比研究以及专科词典间的对比研究。专科词典间的对比研究文献仅有pedro a. fuertesolivera & marisol velascosacristan(2001)对两部英西经济学词典的宏观和微观结构进行的对比,余者针对的是各种类型的通用型词典,因此这是本文的论述重点。通用型词典间的对比研究又可细化为三类:其一是语文词典之间的对比研究;其二是外向型单语学习词典间的对比研究;其三是双语词典间的对比研究。下面分项叙述。 (一)《国际词典学》中语文词典间的对比研究 第三个次类型是关于非英语语种的语文词典间的对比研究。数量同样不多,仅有三篇。fabienne h. baider(2007)分析了三部法语历史词典――《利特雷法语词典》光盘版、《法语宝库》和《罗伯特历史词典》,旨在说明历时词典对语言与历史的建构作用。annamaria de cesare(2003)分析了六部意大利语词典对副词词目的处理。cristiano furiassi(2003)分析了近期的意大利电子词典对“英语假朋友”词汇的处理。这类研究论题较为分散,没有形成研究焦点。 (二)《国际词典学》中关于外向型单语学习词典间的对比研究 《国际词典学》关于外向型单语学习词典的研究非常丰富,主要分为两个小类,具体如下。 (三)《国际词典学》中双语型学习词典研究 《国际词典学》中关于双语型词典的研究按照语种的不同大致可以分为两类:一是与英语词典有关的对比研究。计有6篇。nakao(1989)从立目单位的选择、义项的排列与解释、

相关文档
最新文档