新闻网页关键词提取(IJEME-V8-N1-6)

新闻网页关键词提取(IJEME-V8-N1-6)
新闻网页关键词提取(IJEME-V8-N1-6)

I.J. Education and Management Engineering, 2018, 1, 48-58

Published Online January 2018 in MECS (https://www.360docs.net/doc/459583915.html,)

DOI: 10.5815/ijeme.2018.01.06

Available online at https://www.360docs.net/doc/459583915.html,/ijeme

Keyphrase Extraction of News Web Pages

Chandrakala Arya a*, Sanjay k. Dwivedi b

a Research Scholar, Department of Computer Science, B.B. Ambedkar University, Lucknow-226025,India

b Professor, Department of Computer Science, B. B. Ambedkar Unversity, Lucknow-226025, India

Received: 28 Februayr 2017; Accepted: 11 September 2017; Published: 08 January 2018

Abstract

Keyphrase extraction from news web pages is an important task for news documents retrieval and summarization. Keyphrases are like index terms that enclose the important information about document content. Keyphrases actually offer concise and precise description of document content. Key phrases are considered as a single word or a combination of more than one word that represent the important concepts in a text documents. The aim of this paper is to develop and evaluate an automatic keyphrases extraction approach for news web pages. Our approach identifies the candidate keyphrases from documents and chooses those candidate keyphrase having highest weight score. Weight formula combines the feature set that includes TF*IDF, phrase disatnce in documents and lexical chain that is based on WordNet to represent semantic relations between words. The experimental results show that the performance of our approach is better than the contemporary approaches today.

Index Terms: Keyphrase extraction, Lexical chain, Web News, TF*IDF, WordNet.

? 2018 Published by MECS Publisher. Selection and/or peer review under responsibility of the Research Association of Modern Education and Computer Science.

1.Introduction

Under the growth of worldwide networking through the internet, the news consumption pattern moved from the traditional physical newspapers to online news aggregate system. As thousands of web news is posted on the internet every day, it is difficult to retrieve and summarize the relevant document effectively. So keyphrase extraction technique is used to provide the main contents of a given web page. It is useful in many areas like summarization, automatic indexing, topic search and clustering [7]. Keyphrase extraction is one of the most important tasks in news web pages. Readers make benefit from keyphrase because they can judge more quickly whether the news web page is worth reading.

* Corresponding author.

E-mail address: arya.chandrakala@https://www.360docs.net/doc/459583915.html,, skd200@https://www.360docs.net/doc/459583915.html,

Keyphrases provide a concise description of document content. We treat a document as a set of phrases; any phrase in a new document can be extracted as a keyphrase. Keyphrase can be defined as a phrase of one or more words that denote the main concept of the document. Phraseness and informativeness are the two main features of keyphrase. Phraseness is a fairly dynamic idea which depicts the degree to which a given word sequence is considered to be a phrase. Informativeness denotes how well a phrase catches or outlines the important notions in a set of documents. A set of keyphrases related to a document gives high- level description of a document content that helps readers in searching for relevant information.

Keyphrase extraction in a news web page has been a challenging research topic in recent years because news changes very rapidly. Only a small number of news websites have author given keyphrases and manually allocating keyphrases for each web news document is very effortful. Thus it is absolutely necessary to automatically extract keyphrases. Automatic keyphrase extraction benefits users for the large document collection. Keyphrases of a document should be semantically related with the other words of the document. Therefore, in this paper, we proposed a Keyphrase Extraction approach, which uses lexical chain of semantically related words that are interconnected by semantic relations. The number of words and the number of semantic relations among the words can be different for each lexical chain. WordNet is used for the construction of lexical chain.

The organization of the paper is follows as. In section 2, previous studies on keyphrase extraction are discussed first. Section 3 describes the dataset used in the experiment. In section 4, we describe our proposed approach for the news web page keyphrase extraction. Experimental results and evaluation are discussed in section 5. Finally, some concluding remarks and future scope is discussed in section 6.

2.Related Work

In the previous works authors have suggested that document keyphrase can be useful in many areas as information retrieval and summarization. Chien [1] developed a keyphrase extraction system for Chinese and other Asian languages. Witten I. H. et al. [2] describe KEA algorithm, based on Na?ve Bayes classifier automatically extracts keyphrases from text. This algorithm recognizes candidate keyphrases using lexical methods and computes feature values for each candidate by using machine learning algorithm and analyze which candidates are noble keyphrases. Martinez J. L. et al. [3] focus on AKE (Automatic Keyword Extraction), it is a keyword extraction system which is used to extract news articles keywords. KIP (Keyphrase identification program) [4] uses sample human keyphrsaes and then learns to identifiy additional news keyphrases. KIP mines noun phrases from documents and score will be allocated to each noun phrases. Depending on the weights the words that have higher score than the threshold will be selected as keyphrases. Wang J. et al. [5] proposed in their paper Neural Network based keyphrase extraction method. Lui Y. J. [11] presents a domain independent keyphrase extraction algorithm, which distinguish keyphrases from non –keyphrases by using statistical and computational linguistics techniques combination, a new attribute set and a new machine learning method; and shown that it perform well than other keyphrase extraction methods. Li z. F. et al. [12] proposed an approach based on lexical chain by using Reget’s thesaurus and improve the KEA keyphrase extraction. Duwairi R. et al. [13] presents a framework for keyphrase extraction based on the KEA system. It relies on supervised learning particularly Na?ve Bayes algorithm. Xu, S. et al. [14] introduce several novel word features by extracting inlink, outlink, category and infobox information from Wikipedia article set. Luo, Z. et al. [15] propose a method to integrate the comment posts for keyphrase extraction from web news documents. Boudin, F. [16] present and compare five centrality measures for graph based keyphrase extraction and used three datasets of different language and domain. Their results outperform the other centrality measure on short documents. Xie, F. et al. [17] proposes an approach which acquires semantic features within phrases from a single document. Their result demonstrates better performance than TFIDF and KEA. Gao, Y. et al.

[18] propose a method to extract hot keyphrases from news report; their method consists a two-step process of keyphrase extraction based on TF*PDF. In their method each step uses position- weighted TF*PDF schema. Li, Z. et al. [19] propose a method based on the lexical chain to improve KEA keyphrase extraction, their

experiments result shows improvements compare with KE A and Nguyen and Kan’s method. Hsu, H. M. et al.

[20] propose subject- keyphrase concept to extract subject-keyphrases from a documents. They use definition-use chain for subject-keyphrase extraction algorithm. Wang, C. et al [21] propose a system for automatic online news topic keyphrase extraction, their system perform effectively with 70.61% precision and 67.94% recalls.

3.Description of The Dataset

The online news articles have been chosen from the ‘The Hindu’ news website. All these selected news is world news posted from 20 April 2016 to 30 April 2016. Our dataset contains 150 web news documents. The key purpose, we select ‘The Hindu’ news website for the experiment is that every news web page has author assigned keywords. We take the author assigned keywords as gold standard keyphrase. We choose some keyphrase manually for each document. Most of the keyphrases consists of one or more than one words. Keyphrases having more than three words are less in number in our dataset. Average number of manually assigned keyphrases per document is 15. Here it is interesting to note that all author allotted keyphrase for a document may not occur in the title of the document. Total number of noun phrases in our dataset is 2250. The total number of author assigned keyphrases for all the documents in our dataset is 479.

4.Proposed Method

In the proposed method firstly in the document words are segmented, stemmed and stop words are removed. After that candidate phrases from the document are identified. Weight of each candidate phrase is computed by the features TF*IDF, phrase distance, and building lexical chain. According to the weight, a high scorer candidate phrases is selected as a keyphrases. The process of keyphrase extraction is shown in Fig1.

Fig.1. Keyphrase Extraction Process

The steps of the proposed method are as follows:

1.Words are segmented and stemmed and stop words are removed.

2.Identify the candidate phrase from each document.

https://www.360docs.net/doc/459583915.html,pute the TF*IDF and phrase distance of each candidate word

4.Select the top n candidate phrase according to the value of TF*IDF and phrase distance.

5.Build the lexical chains of each top n candidate phrase.

https://www.360docs.net/doc/459583915.html,pute the weight of each candidate phrase.

7.Select the top m candidate words as the keyphrase according to their weights. Select those candidate

words as keyphrases which have higher weights.

4.1.Identification of Candidate Phrase

Keyphrases are extracted from candidate phrases. The noun phrases in the document are treated as the candidate keyphrase [6]. In order to recognize the noun phrases documents have been tagged by stanford Part- Of- Speech (POS) tagger [27]. We used Stanford POS tagger to extract the lexical information about the terms in a document. Fig. 2 shows the lexical tag assigned by the tagger for a document. According to this figure, JJ, DT, NN, NNS, VBZ, NNP, PRP$, VBN, IN, CD, etc are lexical tags assigned by the POS tagger.

Fig 3 shows the meaning of these tags. Candidate keyphrase extracted from Fig 2. Are: terrorists, central forensic science laboratory, DNA sample, government officials, National Investigation agency, investigation team, spokesperson, photographs, sensors.

Fig.2. POS Tagged Document

Fig.3. Meanings of the Tags

4.2. TF*IDF of Candidate Phrase

After identifying candidate phrase, the collection of candidate phrases identified in the web news documents may be huge in number. From a vast collection a small number of phrases may be selected as the keyphrases. In this paper we select 15 keyphrases from a single document. TF*IDF of each candidate phrase is used to rank the phrases. TF*IDF measure the phrase frequency in a document compared to its rarity in general use. We compute the TF*IDF of each word by the given eq. (1)

**log()f n i t N TF IDF t n = (1) Where tf is the frequency of term t in a document, tn is the total number of terms in a documents, N is the total number of documents and ni is the number of documents in the dataset that contains term t.

4.3. Phrase Distance

The distance attribute is the position where a phrase first appears in the document. The candidate keyphrases that appears early in a document should be given higher score. Like previous approach [7], Distance of a phrase from the start of a document is measured as the number of words that precede its first appears divided by the number of words in the documents. The distance of a phrase in the document is calculated as in eq. (2) tan j

n PhraseDis ce n = (2)

Where nj is the number of words that predate its first appearance, and number of words in the document are denoted by n.

4.4. Construction of Lexical Chain

Firstly Morris and Hirst [8] give the concept of lexical chain. According to them lexical cohesion is an arrangement of related words that give the continuity of lexical meaning. Lexical cohesion occurs as a result of semantic relation between words. One of the main advantages of lexical cohesion is that it is an easily recognizable relation that enables the computation of lexical chain. Lexical chains visualize the semantically related words or phrases in the text. These words or phrases are called the lexical items and each item gives a specific meaning to a lexical chain. In this paper we use WordNet for creating lexical chains. With the help of path between concepts, lexical chain can be found. In general two concepts can have many possible lexical chains. For creating lexical chains we ignore numbers, units, currencies, times/periods, names, places and referring items [10]. Suo, Hong-guang et al. [22] use HowNet to determine the relationship between words and build vocabulary chain. For the construction of lexical chain we used synonym, hypernym/hyponym, coordinate term and meronym, Silber, H. Gregory [23] and Ercan, Gonenc [9] also used the same relations except coordinate term. In order to rank lexical chains, high scoring chains must be picked as the important concept from the original document. We use Barzilay and Elhadad [24] idea of strong chain.

Fig 4 shows the different set of lexical chains chooses from the tagged document in Fig 2.

Lexical chains usually depend on semantic relations that can be acquired from WordNet. Hypernym/ Hyponym, Synonym/ Repetition, Meronym/ Holonym, Antonym, and Sibling relations are used to build lexical chains.

Fig 5 shows the lexical graph of LC1 in detail.

Weights of every relation between word senses are given allegedly [9]. Table 1, shows the allocated weights for the relation. Subsequent to scoring each lexical chain of the word, we select the chain with a maximum score as the lexical chain.

Table 1. Weight of Lexical Chain Relation

Relation Explanation of

Weight

Relation

Synonym/ reiteration Same meaning 10

Coordinate Term Sibling 8

Hypernym/hyponym General/specific 7

Meronym Is a part of 4

According to these assigned weights, the score of lexical chain LC1 is equal to 43 (=5*7 + 8) since there are five Hypernym/Hyponym relations and one Coordinate term.

Fig.4. Set of Lexical Chain

Fig.5. Lexical graph

4.5.Weight of Candidate Phrase

Weight of a candidate phrase can be obtained by the combination of the features: TFIDF, phrase distance, and lexical chain shown in eq. (3).

*

IDF

TF

*

weig ht (3) =

a

+

*

*

Lex ical

chain

c

+

phrase

distance

b

Where TF*IDF is the value of the candidate phrase, phrase distance is the distance into the document of candidate phrase first appearance, and lexical chain is the length of the chain that contains candidate phrase and a, b, c are the parameters that can be adjusted. The value of these parameters in our experiment has been set to 1.

Suppose we have to find the weight of a candidate phrase “Terrorist ”, which we selected from our dataset. The weight computation as discussed in eq. (3) comprise of three components, the value of each component has been obtained as follows.

Firstly we calculate the TF*IDF of the phrase “Terrorist ”. The position of “Terrorist” phrase in the document of our dataset is 9 and the number of words in the whole document is 367, then the value of TF*IDF is calculated as in eq. (1)

**log()f n i t N TF IDF t n =

TF*IDF= 0.0174832

Secondly we find the value of Phrase distance of the “Terrorist ” phrase as calculated in eq. (2)

tan j

n PhraseDis ce n =

Where the value of nj is 6 in the document and n is 367. Therefore the value of phrase distance is

Phrase distance = 0.0163

In the next step, we construct and then calculate the value of lexical chain. We choose lexical chain LC1 from fig. 4, because the value of LC1 is higher than other lexical chains. The value of lexical chain LC1 is 43, calculated in previous section 4.4. Finally the weight of the candidate phrase is calculated as:

W= 1*0.0174832+ 1* 0.245 + 1* 43

W= 43.0174832 ~ 43.01

Like the “terrorist” phrase, all the candidate phrases of the dataset are calculated. We select the top fifteen higher weight scorer candidate phrases as keyphrases of a document.

5. Experiment Result and Evaluation

Experiments were carried out to evaluate the overall performance of our approach. For evaluating the automatically generated keyphrases, we first take the two standard information retrieval metrics precision and recall. The precision; measures the proportion of number of extracted key phrases that are also author tagged key phrases to the total number of extracted keyphrases. The second one ‘recall’ measures the proportion of the extracted key phrases that are also author tagged key phrases to the number of author tagged keyphrases. These metrics show how well generated phrases match a set of relevant phrases.

Pr e t

e N ecision N ?= (4)

Re e t

t N call N ?= (5)

Where Ne is the number of keyphrases extracted, Nt the number of keyphrases tagged by author. N e∩t is the number of extracted keyphrases that are also keyphrases tagged by author.

Table 2 shows the keyphrases assigned by the author of the news article which is the document number 2 in our dataset.

Table 2. Author Assigned Keyphrases for News Article Number 2 in the Dataset

Document No. Author Key

2 Pathankot attack

2 forensic attack

2 Terrorism

2 Special Investigation

Team

2 Joint investigation

From the document 2, our proposed approach extracted the top 5 keyphrases as shown in Table3.

Table 3. Top 5 Keyphrases Extracted By our Proposed Approach

Document No. Author Key

2 Pathankot attack

2 forensic science laboratory

2 terrorism

2 Special Investigation Team

2 National Investigation agency

Table 2 and Table 3 show that out of 5 keyphrases extracted by our approach, 3 keyphrases matched with the author assigned keyphrases.

In order to compare our approach with state- of- the-art keyphrase extraction systems we have selected KEA [2] and KESR [25]. Most existing systems identify candidate phrases by the method applied in KEA and KESR. KEA is comparatively simple and useful in automatic keyphrase extraction. The KEA identifies candidate keyphrase using lexical methods and calculates the feature value of each candidate phrase, and then predicts the good keyphrase from candidate by using machine learning algorithm. The basic model of KEA involves two stages. Firstly build a model for recognizing keyphrases by using training documents where the author keyphrases are known. Secondly, use the model create on first stage, choose the keyphrases from a new document. The overall performance of KEA show that on average KEA can match between one and two of the five keyphrases chosen by the average author in the collection.

NFAS system considers all phrases except stop words in the web news pages. In this system Key-phrase Extraction based on Semantic Relations (KESR) algorithm is used for keyphrase extraction. The goal of KESR is to extract those words that have a low frequency but provide a major impact to the text subject. The basic model of KESR algorithm involves two attributes: TFIDF, and word similarity and lexical chain. Word similarity is computed through HowNet. Extracted keyphrases compared with the phrases in the news title and phrases in the core hints provided by the author. By comparing their results with TF*IDF and KELC (Key-phrase extraction based on lexical chains) [22], KESR outperforms the other two in both the cases, when the title kept and when the title removed and core hints kept.

In this paper, we compare the overall performance of our keyphrase extraction method with the existing keyphrase extraction methods. In the experiment, the number of keyphrases to be extracted was set to 5, 10, and 15 respectively. Table 4, shows that the approach presented in this paper seems to be better than other approaches in terms of precision and recall.

Table 4. Precision and Recall Comparison of Three Approaces

Number of

Keyphrases

Average Precision Average Recall

Our Approach KESR KEA Our

Approach

KESR KEA

5 0.34 0.32 0.28 0.25 0.24 0.29

10 0.22 0.20 0.19 0.46 0.36 0.40

15 0.17 0.18 0.15 0.51 0.41 0.48

Fig 6 shows the comparison of the individual performance of three different approaches. Precision is the proportion of the keyphrases extracted that are correct. The experiments indicates that the precision of our approach when extracting 5, 10, and 15 keyphrases is 0.34, 0.22 and 0.17 respectively is greater than KEA and KESR for the same 5, 10 and 15 keyphrases 0.28, 0.19 and 0.15; and 0.32, 0.20, and 0.18 respectively.

Fig.6. Precision Comparison of Three Algorithms.

Fig 7 shows the recall comparison of three different approaches. Recall is the fraction of relevant instances that are retrieved. Recall of our approach when extracting 5, 10, and 15 keyphrases is 0.25, 0.46 and 0.51 respectively is greater than KEA and KESR for the same 5, 10 and 15 keyphrases 0.29, 0.40 and 0.48; and 0.24, 0.36, and 0.41 respectively.

Fig.7. Recall Comparison of Three Algorithms

6.Conclusion and Future Work

In this paper, we presented an effective technique which can extract keyphrases from news web page. In this work, we take noun phrases of the documents as a candidate Phrase, and used POS tagger for this task. While ranking candidate keyphrases, weights of each candidate keyphrase is measured and choose the highest score keyphrases. To determine the weight of the keyphrase we use the TFIDF, phrase distance in the document and lexical chain. The approach is evaluated by the evaluation parameters precision and recall. Experimental results show that this approach is competitive with other known approaches.

In the future, we might want to use more datasets to assess our system. For keyphrase extraction algorithm there is no standard datasets are available. In this paper we compare the extracted keyphrase with the author assigned keyphrases. But there are many other issues in this method. First, author assigned keyphrases are not generally show up in the document to which they belong. So, if a keyphrase is not contained in a given web page, it is never extracted as a keyphrase of the given web page by the automatic keyphrase extraction algorithm. Second authors provide only limited keyphrases which are less than extracted automatic. Therefore we will accomplice more research on searching for a more logical and target approach to assess the automatic extraction results.

References

[1]Chien LF. PAT-tree-based adaptive keyphrase extraction for intelligent Chinese information retrieval.

Inf. Process. Manage.1999 Jul 1; 35(4):501-21.

[2]Witten IH, Paynter GW, Frank E, Gutwin C, Nevill-Manning CG. KEA: Practical automatic keyphrase

extraction. InProceedings of the fourth ACM conference on Digital libraries 1999 Aug 1; 254-255. [3]Martínez-Fernández JL, García-Serrano A, Martínez P, Villena J. Automatic keyword extraction for

news finder. InInternational Workshop on Adaptive Multimedia Retrieval 2003 Sep 15; 99-119.

[4]Wu YF, Li Q, Bot RS, Chen X. KIP: a keyphrase identification program with learning functions. In

Information Technology: Coding and Computing, 2004. Proceedings. ITCC 2004. International Conference on 2004 Apr 5; 2: 450-454.

[5]Wang J, Peng H, Hu JS. Automatic keyphrases extraction from document using neural network.

Advances in Machine Learning and Cybernetics. 2006; 633-41.

[6]Wu YF, Li Q. Document keyphrases as subject metadata: incorporating document key concepts in

search results. Information Retrieval. 2008 Jun 1; 11(3):229-49.

[7]Frank E, Paynter GW, Witten IH, Gutwin C, Nevill-Manning CG. Domain-specific keyphrase extraction.

In16th International Joint Conference on Artificial Intelligence (IJCAI 99) 1999; 2: 668-673).

[8]Morris J, Hirst G. Lexical cohesion computed by thesaural relations as an indicator of the structure of

text. Computational linguistics. 1991 Mar 1; 17(1):21-48.

[9]Ercan G, Cicekli I. Using lexical chains for keyword extraction. Information Processing & Management.

2007 Nov 30; 43(6):1705-14.

[10]Steffen R. Lexical chain Annotation Guidelines. 2012.

[11]Lui YJ, Brent R, Calinescu A. Extracting significant phrases from text. In Advanced Information

Networking and Applications Workshops, 2007, AINAW'07. 21st International Conference on 2007 May 21; 1: 361-366.

[12]Li ZF, Zhao XH, Yi J, He B. Improvement of KEA Based on Lexical Chain. In Advanced Materials

Research 2013; 756: 2999-3004.

[13]Duwairi R, Hedaya M. Automatic keyphrase extraction for Arabic news documents based on KEA

system. Journal of Intelligent & Fuzzy Systems. 2016 Jan 1; 30(4):2101-10.

[14]Xu S, Yang S, Lau FC. Keyword Extraction and Headline Generation Using Novel Word Features. In

AAAI 2010 Jul 5; 1461-1466.

[15]Luo Z, Tang J, Wang T. Improving keyphrase extraction from web news by exploiting comments

information. InAsia-Pacific Web Conference 2013; 140-150.

[16]Boudin F. A comparison of centrality measures for graph-based keyphrase extraction. In International

Joint Conference on Natural Language Processing (IJCNLP) 2013; 834-838.

[17]Xie F, Wu X, Hu X. Keyphrase extraction based on semantic relatedness. In Cognitive Informatics

(ICCI), 2010 9th IEEE International Conference on 2010; 308-312

[18]Gao Y, Liu J, Ma P. The hot keyphrase extraction based on tf* pdf. InTrust, Security and Privacy in

Computing and Communications (TrustCom), 2011 IEEE 10th International Conference on 2011 Nov 16; 1524-1528

[19]Li Z, He B. Adding Lexical Chain to Keyphrase Extraction. InWeb Information System and Application

Conference (WISA), 2014 11th 2014; 254-257.

[20]Hsu HM, Chang RI, Chang YJ, Lin SY, Wang YJ, Ho JM. Subject-Keyphrase Extraction Based on

Definition-Use Chain. In Web Intelligence and Intelligent Agent Technology (WI-IAT), 2015 IEEE/WIC/ACM International Conference on 2015 Dec 6; 3: 199-202.

[21]Wang C, Zhang M, Ru L, Ma S. An automatic online news topic keyphrase extraction system. In

Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology-Volume 01 2008 Dec 9; 214-219.

[22]Suo H, Liu Y, Cao S. A keyword selection method based on lexical chains. Journal of Chinese

Information Processing. 2006; 20(6):25-30.

[23]Silber HG, McCoy KF. Efficiently computed lexical chains as an intermediate representation for

automatic text summarization. Computational Linguistics. 2002 Dec; 28(4):487-96.

[24]Barzilay R. Lexical chains for summarization (Doctoral dissertation, Ben-Gurion University of the

Negev). 1997

[25]Wu X, Wu GQ, Xie F, Zhu Z, Hu XG. News filtering and summarization on the web. IEEE Intelligent

Systems. 2010 Sep; 25(5):68-76.

[26]https://www.360docs.net/doc/459583915.html,/software/tagger.shtml

Authors’ Profiles

Chandrakala Arya is Research Scholar at Department of Computer Science in B.B.

Ambedkar University, Lucknow, India. She has received her M.C.A. Degree in the year 2011

from Uttarakhand Technical University. Her research interest includes Information Extraction

and Text Summarization. She has published some of the research papers in international

conferences.

Prof. Sanjay K. Dwivedi is Professor and Head at Department of Computer Science in B.B.

Ambedkar University, Lucknow, India. He has received his Ph.D. Degree from Banasthali

Vidyapeeth in area of Web Mining in the year 2006. His research interest includes Web

content Mining, Semantic Web, Search Engine performance evaluation, Machine translation,

Information Retrieval etc. He has published many of the valuable research papers in various national and international Journals of repute.

How to cite this paper: Chandrakala Arya, Sanjay k. Dwivedi,"Keyphrase Extraction of News Web Pages", International Journal of Education and Management Engineering(IJEME), Vol.8, No.1, pp.48-58, 2018.DOI: 10.5815/ijeme.2018.01.06

中考新闻类题目训练及答案修订版

中考新闻类题目训练及 答案 Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】

中考“新闻”类试题模拟演练 1.阅读下面的专题报道,探究《舌尖上的中国2》可供借鉴的成功经验,写出你的探究结果。 2012年,一部美食纪录片《舌尖上的中国》曾感动无数中国人;2014年4月,《舌尖上的中国2》回归央视荧屏,登陆中央电视台综合频道和中央电视台纪录频道,爱奇艺、乐视网等网络平台也同步推出。《舌尖上的中国2》共分8集,前七集依次为《脚步》《心传》《时节》《家常》《秘境》《相逢》《三餐》,第八集则为拍摄花絮,每集50分钟。央视相关负责人表示,比起前作,《舌尖上的中国2》在拍摄制作上比第一季更加精致大气,美食范围也更广。在微博上,网友对《舌尖上的中国2》表示出了极大的欢迎,但对播放时间非常的不满意,认为这是央视“深夜报复社会”的举动,完全就是“逼人吃宵夜”的节奏。 探究结果: 2.给下面一则新闻拟写标题。(不超过12个字) 标题: 据新华社北京4月13日电(记者齐中熙、樊曦)2014年4月13日9时30分,自2011年6月30日开通运营的京沪高速铁路运送旅客宣告突破2亿人次。2013年2月28日,在京沪高铁开通运营1年8个月之际,京沪高速铁路运送旅客突破1亿人次;而仅1年2个月后,这条高速铁路的运送旅客量就实现了翻番,再次展示出其巨大的输送潜能。 3.用一句话概括下面这则新闻的主要内容。(不超10个字)

本报青岛4月11日电(记者宋学春)2014年青岛世界园艺博览会世园村开村仪式11日举行。 世园村总占地约55公顷,总建筑面积约40万平方米,紧临世园会园区,位于青岛滨海公路和世园大道交汇处,交通非常便捷。世园村开设了世园会特许产品、青岛旅游纪念品专卖店,吸引了多家星级酒店和20余家特色餐厅入驻,建设了完善的公共服务设施和应急保障设施,集种植加工、科研培训、旅游观光于一体的茶博园,将为国内外宾客提供住宿、餐饮、购物、办公、休闲等综合服务。世园村的规划设计、工程建设、园艺景观、服务设施等体现了绿色、环保、低碳的生态理念。 (《人民日报海外版》2014年4月12日) 4.阅读下面的新闻,请你拟写恰当的导语。 政府实施营养改善计划, 农村学生个子变高了 本报北京4月11日电(董洪亮、赵玲)。教育部副部长刘利民说,将进一步加强学生营养健康教育,把食物与营养知识纳入中小学课程,引导学生养成科学的饮食习惯。 监测表明,实施营养改善计划后,学生不能保证每天吃三顿饭的比例从2012年度的%下降到2013年度的%;6-15岁男、女生各年龄段平均身高同比增加和0.6厘米,体重均增加了0.3公斤;西部小学男、女生的贫血率下降和个百分点;西部小学生的语文和数学平均成绩同比提高了和分。 据介绍,营养改善计划的食品和资金“两个安全”得到保障,实施规模世界第三,食堂建设完成过半。监测表明,计划实施过程中存在一些问题和隐忧。

信息提取与概括

2016年全国中考语文试题分类汇编12《语言表达三》 信息提取与概括 ) 重庆商报讯在山水环抱的重庆,每个人都摆脱不了江河印记。5月20日,“寻美重庆江河”摄影大赛在武隆正式启动。作为采访首站的武隆迎来了国内近百名知名摄影爱好者。据悉,该系列活动还将走访重庆各个区县,用镜头寻美重庆江河。只要就是以重庆江河为拍摄对象,具备自然美、人文美的作品,都可以参赛。即日起至8月31日止,摄影爱好者可以发送相关重庆江河的摄影、摄像作品到组委会,评选结果将于今年9月15日在媒体上公布。主办方强调,这项活动能唤起人们对江河的记忆与感情,激发人们保护生态的热情。 【答案】6.(4分)标题:“寻美重庆江河”摄影大赛启动(中心事件2分,表述规范2分) 【重庆市B卷】7.综合性学习(11分) 请阅读下面两则材料,按要求答题。 材料一:为解决山区高海拔地区中小学生冬季取暖问题,2015年6月,重庆市政府启动了“暖冬计划”。该计划实施范围就是全市海拔800米以上的中小学校与公办幼儿园,涉及21个区县995所学校,受益学生21万余名。主要措施包括购置安装油灯、碳晶墙暖电热饭、电烤炉、暖风机、硅晶电热膜等取暖设备,少数有条件的学校可安装空调,不宜安装取暖设备的学校提供御寒所需衣服、鞋子、手套等物资。截至2015年底,全市共投入8700多万元,为山区农村学生创造出安心学习的温暖环境。学生张薇说:“现在教室安了油灯,像春天一样温暖。冬天再也不用提火盆上学了,手也不长冻疮了!” 材料二:“暖冬计划”实施后,孩子们出于好奇,一下课就争先恐后地去触摸取暖片,很容易烫伤手或触电。老师一方面要担心学生的安全,另一方面还要担心取暖设备的保护问题。 ⑴根据材料一,简要介绍什么就是“暖冬计划”。(50字以内)(4分) “暖冬计划”指 【答案】7.⑴(4分)“暖冬计划”指重庆市政府为山区高海拔地区的中小学与公办幼儿园安装取暖设备或提供御寒物资,确保学生温暖过冬的计划。 【福建省龙岩市】5.综合性学习(9分) 某语言学者对闽西方言的使用与保护问题作了一个摸排调查。下面就是她收集到的零碎资料,请分析、梳理与整合这些信息,回答下面的问题。 材料一:(少漫画) 材料二:有位老华侨回到阔别已久的龙岩,熟悉的乡音,绵绵的乡情,使她情不自禁与诗一首:少小离家古稀回,乡音难改鬓毛衰。发小相见喜相泣,一曲山歌丝竹醉。 材料三: 学生:“老师,为什么我感觉这首诗不压韵呢?” 老师用客家话朗诵了一遍,说:“这下您感觉押韵了不?” “感觉到了,很好听!” “方言就是我们祖先的声音,就是声音的活化石,最能体现古诗词的韵味,就是非物质文化遗产的重要组成部分。”

提取关键词方法

如何提取关键词 提取关键词在考纲里并不是一个单设的考点,它其实是信息筛选和压缩语段这两个考点的一个综合,主要考查学生概括思想内容,提取关键信息的能力。要求考生具有较强的理解、分析、筛选、概括、语言表达等各项能力。它首先要求考生在准确理解文段的基础上找到有效信息,并从中筛选出核心信息;然后用最简洁的语言加以概括,且概括时只能用词或短语。 ■能力提升指导 尽管这是近几年出现的一个新题型,但它涉及的能力要求在以前的相关考点中早有规定,只要大家掌握我们下面介绍的几种方法,解答起来,仍然可以得心应手。 一、研究语段话题 任何语段,无论是记叙、议论或说明,它总是围绕一个话题来展开的,体现话题的词语肯定是关键词之一,如:例①提取下面一段话的主要信息,写出四个关键词。(2005年高考全国卷) 据报道,我国国家图书馆浩瀚的馆藏古籍中,仅万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。 这个语段谈论的话题是古籍修复的处境问题,“古籍”“修复”两个词是我们在答题时首先要考虑的。文段通过一系列的数据告诉我们古籍修复的处境不好,具体表现是事多人少,这样,我们就又可找出另外两个关键词——“人才”“不足”。 二、寻找中心语句 有的语段有较为概括的中心句,或提起下文,或总结上文,或承上启下,我们可抓住这个句子,顺藤摸瓜找到相关关键词,如: 例②提取下面一段话的主要信息,写出四个关键词语。(2006年高考广东卷) 从甲骨文到草书、行书的各种书法艺术,间接地反映了现实某些方面的属性,将具体的形式集中概括为抽象的意象,通过视觉来启发人们的想象力,调动人们的情感,使人们从意象中体味到其间所蕴含的美。这也就是一些讲书法的文章里常说的“舍貌取神”——舍弃客观事物的具体现象特征,而摄取其神髓。 最后一个句子就是本段的中心句,而“舍貌取神”又是这个句子的核心。只要我们抓住这个句子,找出“貌”“取”“神”三字的各自所指,就能轻易套牢其中的三个关键词——“意象”“体味”“神髓”,再用上面所讲的话题法,找出本语段的话题对象——“书法”,另一关键词也便找出来了。 三、明确具体要求 并不是每一道“提取关键词”的题的要求都是一样的,有的还根据语段的特点有具体要求,并且,有的要求可能还比较含蓄。对此,我们就一定要弄明确试题要求我们提取的是哪方面的关键词,以防泛泛去找,劳而无功。如:例③根据要求提取下面一段话的主要信息,写出六个关键词(可以是短语)。(2006年高考江苏南通市高三第一次调研考试) 由于司马迁认识到了,历史终归是“人”的历史,不是“天”的意志史,于是以“绍圣《春秋》”为使命的司马迁抛弃了孔子既定的历史纪年法——编年体,而改用纪传体。这决不是一个技术问题,而是观念问题。他对那冰冷的历史巨轮投以轻蔑的一哂,然后满怀慈悲地去关心轮子下的那些泣血的生灵:从而,我们看到,一代一代的人物以及他们对历史必然性的反抗,对自身命运的体认,构成了《史记》的主色调。史学成了人学,必然性成了戏剧性,逻辑的链条崩溃了,生命的热血喷涌而出…… (1)历史纪年法的史学观:_____________。 (2)人学的史学观:___________________。 这道题要求分别提取有关“历史纪年法史学观”和“人学史学观”的关键词,我们就只能去寻找能表明这两种史学观特点的词语。这就意味着我们没必要到前两句去找。我们还要意识到,既然是两种对立的史学观,那两组关键词在语意上就应该是相反的。这其实是题目的一个隐含要求。分析至此,答案自明:(1)冰冷、必然性(或“历史必然性”)、逻辑;(2)慈悲、戏剧性、生灵(或“命运”或“生命的热血”)。 四、分析构段特点

信息提取与概括课件

祝福同学生日的学生随着年龄增长越来越多;图表三需要纵向比较,会发现初中生对母亲与同学生日的关注差异较大。这三项信息可综合整理为两条信息。 答案:随着年龄的增长关注母亲生日和关注同学生日的学生越来越多,但初中生对母亲生日的关注率远远小于对同学生日的关注率。 例2:(甘肃金昌市2008年试题)央视青歌赛的综合知识考核一直倍受关注。有些歌手给出的错误答案堪称“经典”。 问:“杯水车薪”这一成语是什么意思?答:用一杯水作为给车夫的工钱。 问:“焚书坑儒”是什么朝代的事?答:宋朝的铁木真。 问:“满城尽带黄金甲”是何朝代的哪位农民起义领袖写的诗?答:秦朝。李世民。 问:人类历史上的“两河文明”是指哪两河?答:黄河、长江。 探究一下,这一则材料反映了怎样的问题? 解析:此题属于信息提炼或观点提取,答题时首先要立足题干中“综合知识考核”这一关键,而材料中的四问四答均为知识错误的笑谈,这些最基本的知识被误答反映了当前歌手的文化素质或综合素养低下,引人深思。 答案:有些歌手的文化素养堪忧。 例3:(广西崇左市2008年试题)请把下面的语言材料概括成一句话的新闻。(不超过30字) 在汶川特大地震灾害之前,为保护学生生命安全,灾区广大教师中涌现出一大批英雄人物。他们英勇无畏和大爱之举,集中体现了新时期人民教师的光辉形象和崇高的师德风范。为此,教育部最近发出决定,在全国教育系统迅速开展想抗震救灾的英雄教师学习的活动。学习他们坚强不屈和勇于献身的精神,以抗震救灾的英雄教师为榜样,教书育人,为人师表。 答: 解析:概括一句话新闻,重点是把握新闻的主要事实。在信息丰富的新闻材料中,关键是分清主次,抓出最主要的新闻信息。一句话新闻题不可忽视对原文词句的直接摘录组合。 答案:教育部号召全国教育系统开展向抗震救灾英雄教师学习的活动。 例4:(湖南郴州市2008年中考试题)请你认真阅读下面一则消息,找出消息的导语。 英国《独立报》5月l0日报道:2008年奥运,中国准备以最佳的面貌迎接世界。从l00万名报名者中筛选出来的7万名奥运会志愿者和3万名残奥会志愿者正在中国各地接受培训,争取在奥运会期间,当50万外国人以及200万中国各地游客来到北京时,能展现出中国的最佳面貌。他们将在这个为迎接奥运会几乎重新翻修的北京城中开展志愿工作。中国为奥运会斥资约200亿英镑,许多旧街区被拆除,取而代之的是熠熠生辉的新奥运场馆。 导语:

信息的概括和提炼方法

信息的概括和提炼方法

信息的概括和提炼方法 【篇一:信息的概括和提炼方法】 《语文课程标准》:“国内外的重要事件,学生的家庭生活,以及日常生活的话题等都可以成为语文课程的资源”,“学生要初步具备搜集和处理信息的能力”。`因此,新闻信息的筛选与提炼题应运而生。近几年来,这类试题频繁出现于全国各地中考试卷中。 考查方式:处理新闻、概括内容、提炼观点、图表表述、给事物下定义……涉及记叙性语段信息提取、说明性语段信息提取、议论性语段信息提取、图表信息提取。 例题解析 记叙性语段信息提取:人(物)+地点+时间+事件 中考试卷中信息提取类试题主要有以下几种题型: 题型二:新闻内容的概括 【例1】请用一句话提取下面这段文字的主要内容。(限15字以内) 今年是建国60周年,也是《湖北日报》创刊60周年。在2月6日至3月15日《湖北日报》开展的形象人物评选活动中,聂海胜当选《湖北日报》形象人物。这次旨在以人物彰显媒体品质的评选活动,得到广大读者的积极支持。经热心读者手机短信、网络投票等方式推荐,襄樊籍航天英雄聂海胜以其责任、理性、坚毅的品质以及巨大影响力最终脱颖而出。 参考答案:聂胜海当选《湖北日报》形象人物 【例2】请自己组织语言,概括下面这段文字的主要内容。(限15字以内)

欧盟健康风险科学委员会发表报告指出,如果5年内每周使用随身听5天,且每天以高音量收听音乐平均超过一个小时的话,那么5%至10%的使用者将面临永久性失聪的危险。最近几年,欧盟的随身听特别是mp3的销售数量猛增,约有5000万到1亿人特别是年轻人在使用随身听,因此有必要对人体的危害进行调查并采取措施,以保护青少年不受随身听和其他类似装置的损害。 参考答案:随身听会造成永久性听力损伤(或:常用随身听可能导致永久性失聪。) 题型三:给新闻拟标题 【例1】给下列这则新闻加上恰当的标题。(不超过12个字) 据介绍,世界数字图书馆包罗万象,从图书到各种档案都有,资料质量非常高。它按时间、地点、主题和捐助机构等内容提供搜索和浏览服务。使用者可以用阿拉伯文、中文、英文、法文、葡萄牙文、俄文与西班牙文7种语言查询。 参考答案:世界数字图书馆正式启用 【例2】给下列新闻拟一个标题。 再现传统盛景的2009年温州“拦街福”开街已经十天,市民热情高涨,深深感受到了温州传统文化的魅力。 “拦街福”是温州是传统习俗,始于宋,盛于清,流传至今。今年突出“传承文明、文化兴市”的主题,主要活动有拦街祈福、民俗文化展示、民间艺术展演等。到昨天为止,光顾“拦街福”的市民已达到35万人次,现场每天都洋溢着欢乐祥和的气氛。 参考答案:“拦街福”开街市民热情高涨(或:市民热情高涨感受文化魅力) 解析:给新闻拟标题与概括新闻一样,都是考察概括能力。但它们之间也有明显的区别。首先,拟标题要求语言更简洁,概括性更强。标

概括题提取关键词四法

提取关键词四法关键词本是网络中经常提及的词语,指的是人们输入搜索框中的文字。关键词的内容大多为网站名、网页名、新闻事件、人名、术语、软件名等。而高考常考语段压缩题型——提取关键词中的“关键词”实是关键信息句中的核心信息。 提取关键词,说到底就是要善于提取关键信息句中的核心信息,考查的是学生提取关键信息的能力。 2011年高考,有两个省(福建省和四川省)的语文试卷中出现了语段压缩题,具体试题内容如下: 福建卷: 阅读下面的材料,回答问题。 某翻译家在《文艺报》上撰文指出:有人说中国人称自己的国家为“中国”,表示自己是坐镇在世界中央的天朝,说明中国人自傲。但从国名的中文翻译来看,译名却能够表达中国人的感情。例如,“英国”为什么不译作“阴国”?“美国”不译作“紊国”?“德国”为什么不译作“歹国”?这是因为中国人要从同音字中选出具有最美好含义的字来命名这些国家。用什么字呢?用“英雄”的“英”、“美丽”的“美”、“道德”的“德”、“法律”的“法”、“芬芳”的“芬”、“祥瑞”的“瑞”……而外国,比如英国,用英文译别国的国名,只用音译,译名中不含有褒贬意义。 请用一句话概括该翻译家的观点。(3分) 答:_______________________________________________________ 此题虽不属提取关键词这类题,但与之有关,解答时要把握住该段文字的核心内容,即中文翻译较外文翻译更能表达美好的感情。答题时要强调中文翻译的感情色彩优势。另外,要注意句子结构的完整,不要把句子写成短语。参考答案为“对别国国名的翻译,中文能表达美好的感情,而外文不能” 四川卷 阅读下面的材料,概括要点回答中国建设世界一流大学缺少“什么”。不超过25字。(4分) 4月23日,“2011大学校长全球峰会”在清华大学举行。其中,“中国建设世界一流大学”成为热议的话题。多位大学校长接受记者采访时表示:目前,中国顶尖大学在吸纳拥有国际学术背景人才、借鉴发达国家的教学制度和成功经验等方面缺乏全球化视野;许多人安于现状,在科研方

新闻概写,提取关键词

. 新闻概写,提取关键词 ①什么是新闻? “新闻就是新近发生的事实的报道。”有动态新闻、综合新闻、公报新闻、评述新闻等。新闻具有针对性、真实性、时效性以及语言的叙述性和简洁性。 狭义的新闻有时专指“消息”。 新闻是一种以记叙为主的文体,其有如同记叙文一样的基本要素,但由于各种部分的内容要求不同,故其各个部分的概述要点不尽相同。新闻必须具备时间、地点、人物、事件、原因(包括经过、结果)等五个要素。 ②新闻的结构: 概写新闻、并非一般要求下的内容概括,如单句找主干、复句看偏正关系及强调内容,句群抓中心句、分析结构层次等所能解决并合乎要求的,往往更需要考虑其文体特点。因而对新闻的结构也应有所了解。新闻的结构一般包括标题、导语、主体、结尾四部分。 a标题 标题是新闻的“眼睛”,有一行标题和多行标题之分。其主标题旨在揭示消息的主题或重要新闻事实;副标题(又称辅题、子题)用以补充说明情况,或指出内容范围,作出内容提要等。概写标题通常要求的是一行标题(即主标题)的概写。 一般说来标题较标题新闻更简洁,往往不需要时间,只要求两个必备要素人物和事件,句中通常不停顿,文末不用标点。 b导语 导语是新闻的纲领和中心所在,读者可以从导语中得到整个新闻的总印象。根据其主体部分拟写导语,要求简明扼要,重点突出,概括性强。常见的导语写法有叙述式、描写式和结论式等。 通常情况下,导语部分除时间、地点(报道具体时间具体地点的动态新闻要有时间、地点要素)外,其余要素均应具有。 c主体 新闻的主体部分自然要有时间、地点、人物、事件(包括经过、结果)、原因五个要素。其在事件的顺叙中,有时还插入有关的背景材料和其他相关内容。 压缩主体时,自然要删去那些插叙、补叙部分的背景材料及其他相关内容。 d结尾 结尾(有时可无)是整个消息的结束语,它用于揭示事实的意义,指出事件发展的趋向,具有画龙点睛的作用。除基本要素“人物”、“事件”外,其他要素往往不必出现。形式有小结式、评论式、希望式等。 ③新闻概写的类型:

语言运用之提取关键词

语言运用之提取关键词 语言运用之提取关键词yaya “关键词”这一概念原来较为常见的是在学术论文的前面,指的是一篇文章或一段文字中最紧要的词语。置于论文之首,是为了读者了解论文的基本内容。后来的网络搜索沿用了这一概念,仍是取的这一含义。 提取关键词的实质是考查学生筛选信息和压缩语段的能力,因此,具备这两种能力是解答这种试题的前提,当然作为一种独立的题型,它还有自身的特点,我们答题时还要做到如下几点。 一、研究语段话题 任何语段,无论是记叙、议论或说明,它总是围绕一个话题来展开的,体现话题的词语肯定是关键词之一,如: 例、提取下面一段话的主要信息,在方框内写出四个关键词。(2005年全国卷) 据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。 答案: 这个语段谈论的话题是古籍修复的处境问题,“古籍”“修复”这两个词就是我们在答题时首先要考虑的。文段通过一系列的数据告诉我们古籍修复的处境不好,具体表现是事多人少,这样,我们就又可找出另外两个关键词——“人才”“不足”。 二、寻找中心语句 有的语段有较为概括的中心句,或提取下文,或总结上文,或承上启下,我们可抓住这个句子,顺藤摸瓜找到相关关键词,如: 例、提取下面一段话的主要信息,写出四个关键词语。(2006年广东卷) 从甲骨文到草书、行书的各种书法艺术,间接地反映了现实某些方面的属性,将具体的形式集中概括为抽象的意象,通过视觉来启发人们的想象力,调动人们的情感,使人们从意象中体味到其间所蕴含的美。这也就是一些讲书法的文章里常说的“舍貌取神”——舍弃客观事物的具体现象特征,而摄取其神髓。 答: 最后一个句子就是本段的中心句,而“舍貌取神”又是这个句子的核心。只要我们抓住这个句子,找出“貌”“取”“神”三字的各自所指,就能轻易套牢其中的三个关键词——“意象”“体味”“神髓”,再用上面所讲的话题法,找出本语段的话题对象——“书法”,另一关键词也便找出来了。 三、明确具体要求 并不是每一道“提取关键词”的题的要求都是一样的,有的还根据语段的特点有具体要求,并且,有的要求可能还比较含蓄。对此,我们就一定要弄明确试题要求我们提取的是哪方面的关键词,以防泛泛去找,劳而无功。如: 例、根据要求提取下面一段话的主要信息,写出六个关键词(可以是短语)。(2006年江苏南通市高三第一次调研考试) 由于司马迁认识到了,历史终归是“人”的历史,不是“天”的意志史,于是以“绍圣《春秋》”为使命的司马迁抛弃了孔子既定的历史纪年法——编年体,而改用纪传体。这决不是—个技术问题,而是观念问题。他对那冰冷的历史巨轮投以轻蔑的—哂,然后满怀慈悲

如何提取关键词

如何提取关键词 一.提取关键词的本质 1.提取关键词本质上是对语段关键、主要、核心信息的集中。 2.提取关键词本质上是压缩的压缩,精练的精练,关键的关键。 3.提取关键词本质上是要淘汰掉次要的、支撑的、解说的信息。 4.提取关键词本质上考查的语段信息筛选能力和梳理思路能力。 二.提取关键词的三大原则 1.首先通览语段寻找锁定有效信息:冷静取舍。 2.其次筛选有效信息中的核心信息:再次取舍。 3.提取而不是组合语段中的关键词:文中原有。 4.主要用双音词或短语的形式表述:二字多字。 三.提取关键词的三个技法 1.核心话题法:抓取语段核心话题词语。 任何文体性质的语段都得围绕某个核心话题展开,这个话题词语在语段中出现的频率一般较多,承载语段核心话题的词语肯定是关键词之一 2.关键语句法:筛选语段中的关键句。 有的语段中会有针对核心话题的核心陈述句,有的语段中有或总领或总结的概括性中心句,抓住这类关键语句就易于筛选出关键词 3. 结构层次法:任何语段都表现为一定的思路层次。 并列式语段关键词常散布在各层次中,递进式语段关键词常出现在最后层次中,总分式语段关键词常出现在总说句中 四.提取关键词的高考真题例析 1.提取下面一段话的主要信息,写出四个关键词。(2005年高考全国卷) 据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。 [答案]古籍修复人才不足 [解析]这个语段谈论的核心话题是古籍修复的处境问题,“古籍”“修复”这两个词是我们在答题时首先要考虑的。文段通过一系列的数据告诉我们古籍修复这个核心话题的处境不好,最重要的具体表现是事多人少,这样,我们就又可找出另外两个关键词——“人才”“不足”。 2.提取下面一段话的主要信息,写出四个关键词语。(2006年高考广东卷) 从甲骨文到草书、行书的各种书法艺术,间接地反映了现实某些方面的属性,将具体的形式集中概括为抽象的意象,通过视觉来启发人们的想象力,调动人们的情感,使人们从意

新闻提取信息复习测试题

新闻提取信息复习测试题 一、新闻类提取信息题目 (一)概括新闻的主要内容 1、将下则消息概括成一句话新闻。 人民网5月14日报道5月13日,中国目前最大的一台光学天文望远镜在中国科学院云南丽江高美古天文观测站落成并正式运行。这台大型光学天文望远镜高8米,通光孔径米,重40余吨,是东亚地区最大口径的通用光学天文望远镜之一。 据悉,米光学望远镜可以清晰地分辨出300公里以外一根蜡烛的火苗,其综合性能属同级望远镜中的国际中上水平,主要用于对恒星和星系进行观测。据介绍,该望远镜投入使用后,效果很好。 2、概括新闻的主要内容,限18个字以内。 本报讯(记者梅晓芸通讯员陈建波)襄樊市教育局昨日出台中考优录政策:今年中招,五类考生可享受中考加分。其中,农村独女户考生中考成绩,由往年的加5分改为加10分参加录取。 五类可享受中考优录政策的考生及具体加分情况如下: 1.港澳台同胞子女、海外侨胞子女、革命烈士弟妹、少数民族考生,中考成绩加5分参加录取。 2.农村独女户(独生女)考生,中考成绩加10分参加录取;农村计划生育二女户考生,中考成绩加5分参加录取。 3.因公牺牲军人子女、一级至四级残疾军人子女,中考成绩加10分参加录取。 4.烈士子女、驻边疆国境的县(市)、沙漠地区、国家确定的边远地区中的三类地区和军队确定的特、一、二类岛屿部队现役军人子女,中考成绩加20分参加录取。 5.残疾考生、现役军人子女在同等条件下优先录取。据市教育局基础教育科科长何涛介绍,同时具备几种优录条件的考生,只取其中最高的一项,不重复加分。 3、概括下面语段的主要信息(15个字以内)。 2007年5月25日,教育部体卫艺司副司长在新闻发布会上介绍,2005年一项针对38万多名学生的监测显示,7至18岁的城乡男生平均身高比2000年检测结果分别高出了7厘米、1分米。但是,学生的多项体能指标却呈下降趋势。如肺活量,2005年7至18岁城市男生和女生肺活量分别下降了285毫升,303毫升;乡村男生和女生肺活量分别下降了237毫升、259毫升。2005年和2000年相比,大中小学生的立定跳远成绩也绝大多数下降。如7至18岁城市男生和女生立定跳远成绩分别下降了厘米和厘米。 (二)1、“5?12”汶川大地震中幸存下来的孩子是灾区未来的希望,他们还有几十年的人生路要走。然而,痛失亲人的哀痛,噩梦般的经历,不可能不在孩子们的心里留下难忘的阴影。因此,如何帮助灾区的孩子走出震后梦魇,成了一项急迫的工作。5月22日,数十名心理专家从不同地方飞抵灾区,在儿童节来临之际与孩子们面对面,进行心理疏导,为他们幼小的心灵“减震”。 2文化部办公厅日前下发紧急通知,要求各地文化部门立即会同公安、工商、电信等部门,组织执法人员对传播这些违法游戏的网站、场所进行检查,一经发现上述电脑游戏,立即查禁、收缴,并根据线索,追根溯源,严查彻究,依法予以处罚。 3邵宏庚今年34岁。去年年底,当他得知上海世博会正在征集会徽后马上行动,接下来的时间里把所有精力都投入到设计中。今年2月他将自己最满意的第1加1件作品(如图)送到上海,这件作品最终从9046件应征作品中脱颖而出,被正式确定为上海世博会会徽。 4、用一句话概括下面这则新闻报道的内容。(字数不超出空格的限制36字)(2分) 作为民航西北管理局十一五期间计划新建的5个机场之一的六盘山机场,以2015年为设计目标年,满足年旅客吞吐量2万人次,货邮吞吐量530吨的需要。设计机型为波音737和空客320系列以下飞机使用,飞行区等级为4C级。经过三年多的建设,5月10日12时20分,北京中心一架奖状560型飞机经过1小时50分左右的飞行,安全平稳地降落在固原六盘山机场。这次试飞的成功,为机场6月26日通航奠定了基础。六盘山机场的投入使用,将成为打通固原通往全国乃至世界的空中通道。 5、人有意气,才能有豁达的胸襟。“惟江上之清风,与山间之明月,耳得之而为声,目遇之而成色”,苏子有意气,虽遭官场与文场一齐泼来的污水,但他仍意气风发,“侣鱼虾而友麋鹿”,心胸豁达可见一斑。

提取关键词分析

中语文必修四复习·提取关键词 □□复习提要 一、什么叫关键词?关键词与学习生活的关系。 二、如何提取关键词?(以说明性语段为主) 1、确定说明的对象。 2、确定说明对象的特点、性质和功用等。 3、确定其它信息:如何……,怎么办等。 三、关键词之间存在着一定的逻辑关系: (因果关系、并列关系、递进关系、转折关系、目的关系/说明关系)/什么→是什么→为什么→怎么办 如果把关键词串成句子,则能体现短文的主要内容。 四、如何寻找关键词? 1、看题目。 2、看出现的频率。 3、看总括性语句。 4、分层次。

5、可多确定一至二个“关键词”,然后进行筛选。 【分析】关键词本是网络中经常提及的词语,指的是人们输入搜索框中的文字。关键词的内容大多为网站名、网页名、新闻事件、人名、术语、软件名等。什么是“关键词”?新版现代汉语词典对此是这样解释的“(1)指能体现一篇文章或一部著作的中心概念的词语。(2)指检索资料时所查内容中必须有的词语。”依照这里的解释不难理解,提取关键词,说到底就是要善于提取“核心信息”,是一种压缩信息类的题型,考查学生提取关键信息的能力。 【解题方法】做这类题目,首先要分清语段的类型,看是记叙性语段,还是议论性语段,还是说明性语段。

如果是记叙性语段,首先要找出叙述的对象是什么,文段围绕这个对象说了什么事,最后的结果如何或者影响如何,然后在这基础上再提取关键词;如果是议论性语段,首先要找出语段的观点是什么,围绕此观点分别使用了哪些论据,然后在此基础上再提取关键词;如果是说明性语段,就要首先找出说明的对象是什么,文章对此说明对象说明的特征是什么,然后在这基础上再提取关键词。 提取完成后要检验,方法是把提取到的关键词连结成句,如果能够体现短文的主要内容,就可以认定是符合要求。 □□提取关键词的题型初次出现在2005年全国高考试卷(1)中:

中考新闻类提取信息题目

拓展练习(一)——新闻类提取信息题目 1、(达州)请给下面一则新闻加上标题(不超出12个字)“5·12”汶川大地震中幸存下来的孩子是灾区未来的希望,他们还有几十年的人生路要走。然而,痛失亲人的哀痛,噩梦般的经历,不可能不在孩子们的心里留下难忘的阴影。因此,如何帮助灾区的孩子走出震后梦魇,成了一项急迫的工作。5月22日,数十名心理专家从不同地方飞抵灾区,在儿童节来临之际与孩子们面对面,进行心理疏导,为他们幼小的心灵“减震”。 2、将下则消息概括成一句话新闻。(2分)人民网5月14日报道 5月13日,中国目前最大的一台光学天文望远镜在中国科学院云南丽江高美古天文观测站落成并正式运行。这台大型光学天文望远镜高8米,通光孔径2.4米,重40余吨,是东亚地区最大口径的通用光学天文望远镜之一。 据悉,2.4米光学望远镜可以清晰地分辨出300公里以外一根蜡烛的火苗,其综合性能属同级望远镜中的国际中上水平,主要用于对恒星和星系进行观测。据介绍,该望远镜投入使用后,每年能容纳数十项先进水平的天体物理观测课题和研究工作。 ______________________________________________________________________________ 3、(黄冈) 将下则消息概括成一句话新闻。(2分)北大投资l.4亿元的教学楼,刚刚抱回“鲁班奖”,就被发现是豆腐渣工程——墙体开裂并漏水,实验室的气体经常“香飘满楼”。 “鲁班奖”出这样的尴尬事不是第一回了。1990年,中国体育博物馆就荣膺“特别奖”,设计年限100年,但仅仅l5年过后,就于最近爆出丑闻——因为漏水等问题而终止使用。鲁班奖是中国建筑行业的最高奖项,现在连建筑物基本的遮风挡雨都保证不了,真是建筑行业极大的嘲讽。 有人总结这两项工程的共同点,都是“献礼工程”。前者献给亚运会,后者献给北大校庆。因为献礼,也为了评奖,两项工程注重外表的华丽和与众不同。而且,为了赶工期,很多环节被“节俭”掉了。 4、(四川眉山)为下列一则新闻拟一标题,不超过15字。(2分) 成都商报讯 4月13日,又一套“竹编福娃”在四川省青神县中国竹艺城制作完成。该作品将捐赠给北京奥组委,以表达竹艺城员工对即将举行的北京奥运会的祝福。每一幅竹编作品要使用2000多根薄如蚕丝的竹丝。 5、(无锡)下面是一篇新闻报道的主体部分,请你用一句话概括它的主要信息,不超过10字。汶川蓥华镇中学初一(1)班邓清清被武警水电三中队的抢险官兵救了出来,她说:“在下面,我怕。我又冷又饿,只能靠看书缓解心中的害怕。” 另一个被埋在废墟里的名叫罗瑶的女孩在手脚受伤的情况下,一遍遍地哼着乐曲,靠着“钢琴梦想”激励自己不要睡着,结果她战胜了死神。 6、(襄樊)请用一句话提取下面这则新闻的主要内容。(2分,限20字以内) 他们感动着古城襄樊,他们的故事传颂在襄江两岸。2008年3月25日晚,由襄樊市委宣传部主办的2007年度感动襄樊十大人物评选结果揭晓。被评选出的感动襄樊2007年度十大人物是:年复一年的抚养、教育40多个“问题孩子”的江建军;身残志坚,自强不息地成就一番事业的王国良;重病在身,却把最后的能量献给山区教育的肖永才;面壁十载,临摹永乐宫壁画的“画痴”刘庸之……他们身份各异,经历不同,但都有共同的一点,那就是拥有震撼人心的人格力量。 7、(徐州)5 月23 日上午,从全市各行业选拔出的9 名北京奥运会徐州火炬手启程前往苏州。他们将代表900 多万徐州人民参与奥运圣火25 日上午在江苏境内首站的传递。 9 名火炬手包括丰县女交巡警张敏、《都市晨报》记者王瑜珩、第九届世界技巧锦标赛冠军苏红等。据悉:江苏境内传递火炬手总数为624 名。5 月25 日至27 日,北京奥运圣火将在我省传递。届时,徐州火炬手将和其他615 名火炬手一道,高擎奥运火炬,在江苏境内完成传播奥林匹克精神和宣传北京奥运会“科技奥运、人文奥运、绿色奥运”理念的神圣使命。 请帮助校报记者在下面的横线上为此消息拟个标题(2 分) 7.(郴州)请你认真阅读下面一则消息,找出消息的导语。英国《独立报》5月l0日报道:2008年奥运,中国准备以最佳的面貌迎接世界。从l00万名报名者中筛选出来的7万名奥运会志愿者和3万名残奥会志愿者正在中国各地接受培训,争取在奥运会期间,当50万外国人以及200万中国各地游客来到北京时,能展现出中国的最佳面貌。他们将在这个为迎接奥运会几乎重新翻修的北京城中开展志愿工作。中国为奥运会斥资约200亿英镑,许多旧街区被拆除,取而代之的是熠熠生辉的新奥运场馆。 导语: 8.(广西崇左)请把下面的语言材料概括成一句话的新闻。(不超过30字)(2分) 在汶川特大地震灾害之前,为保护学生生命安全,灾区广大教师中涌现出一大批英雄人物。他们英勇无畏和大爱之举,集中体现了新时期人民教师的光辉形象和崇高的师德风范。为此,教育部最近发出决定,在全国教育系统迅速开展想抗震救灾的英雄教师学习的活动。学习他们坚强不屈和勇于献身的精神,以抗震救灾的英雄教师为榜样,教书育人,为人师表。 答: 9.(海南)阅读下面的新闻,按要求答题。除夕到初六,家中成了麻将“赌窝” ,江苏南京初三学生小魏认为这严重影响了自己的学习,于是在小区门口贴出一副“夜夜麻将声,怎能学习?天天想一中,你去考吧!”的讽刺对联,希望父母能给他一个安静的学习环境。结果对联劝父的效果并不理想,其父亲认为丢了脸,将对联揭去,并将儿子的脸打肿。居民们一起指责老魏不该打儿子,有什么话好好说,有居民还报了警。 请给这则新闻拟一个标题。(可以从材料中找) 10.(济南)阅读下面这则新闻,按要求回答问题: 2008年5月12日14时28分,四川省汶川县发生了里氏8.0级地震。面对突如其来的灾难,我们万众一心,众志成城,凝聚成撼动人心的精神力量。温家宝总理星夜兼程奔赴灾区,指挥抗震救灾。济南军区救援部队14日凌晨即徒步开进灾区……这场灾难,让每一个中国人都心手相牵、骨肉相连。 请在下面的空格内为这则新闻拟写标题。(12个字以内)

浩海信息多,浓缩取精华 ——压缩语段提取关键词

浩海信息多,浓缩取精华——压缩语段提取关键词 浩海信息多,浓缩取精华 ——压缩语段提取关键词 19.提取下面这则新闻报道的主要信息,写出四个关键词。(4分)(2015“绵阳一诊”) 第二届科博会期间,公安部门在会场设置安保部,先后对主要活动现场及周边环境进行了20余次实地勘察,设计出了精确、合理、科学的安保工作框架,从组织机构、应急响应、保障措施等方面都作出了细致的安排,实现了会展中心周边整体物理隔离,增加了视频监控点位80余个,规划了大型停车区域5个,制定了详细的车辆通行、分流方案,确保会场秩序井然。 在此基础上,安保指挥部还设置了28个职能组,统一从各警种、各部门和相关县(市、区)抽调警力,参加科博会安保执勤。记者在会场看到,巡特警、交警、派出所民警都着装上岗,在会场内来回巡逻,一旦发生突发情况,他们将第一时间进行处置。 什么是关键词? 关键词指的是一篇文章或一段文字中最紧要的词语。 一般放置在文段前面,让读者了解文段的基本内容。 后出现在网络搜索中,指人们输入到搜索框中的关键文字。 就今天讨论的内容,我们可以搜索“高考压缩语段 关键词”,这三个词就可称为关键词。 提取关键词是近年来高考中出现的一种压缩信息类的题型,主要考查学生概括思想内容,提取关键信息的能力。说到底就是要善于提取“核心信息”,善于提炼恰当的词语来表达内容。 应注意的问题: 1、关键词既可以是双音节词,也可以是四字短语或多音节短语; 2、关键词一般是名词、动词、形容词,不会是虚词; 3、书写时注意词语的顺序,因为不少题暗含顺序的要求,最好按原文顺序书写。 考点扫描 提取关键词是信息筛选和压缩语段这两个考点的一个综合。它主要考查学生概括思想内容,提取关键信息的能力。 它首先要求考生在准确理解文段的基础上找到有效信息,并从中筛选出核心信息;然后用最简洁的语言加以概括,且概括时只能用词或短语。 基本步骤为:压缩内容——提取主干——筛选比较——整合表达 (一般可表述为:“什么怎么样”这种结构) 一、关注话题 任何语段,它总是围绕一个话题来展开,体现话题的词语肯定是关键词之一。 可采用语法分析法,抓句子的主干。 用“什么怎么样”这种格式来进行概括。 (2005全国1)提取下面一段话的主要信息,在方框内写出四个关键词。 据报道,我国国家图书馆浩瀚的馆藏古籍中,仅1.6万卷“敦煌遗书”就有5000余米长卷需要修复,而国图从事古籍修复的专业人员不过10人;各地图书馆、博物馆收藏的古籍文献共计3000万册,残损情况也相当严重,亟待抢救性修复,但全国的古籍修复人才总共还不足百人。以这样少的人数去完成如此浩大的修复工程,即使夜以继日地工作也需要近千年。

信息的提炼与概括

《信息的提炼与概括》教学设计 一、教学目标 1、按要求从阅读材料中提取出主要信息,用准确简明的语言加以表述。 2、通过探究和练习,掌握信息提取的答题思路和方法。 3、提取信息, 获得知识、受到启迪。 二、教学方法 1、讨论法 2、讲练法 3、归纳法 三、教学过程 (一)课前朗读 (二)导入 (三)明确常见考试题型: 1、以写人记事为主的叙事类; 2、以说明对象,说特征为主的说明类; 3、从事实和道理依据中概括观点的议论类。 (四)明确本课学习重点 叙事类:概括新闻内容和给新闻拟标题 (五)讲析“概括新闻内容”和“拟新闻标题”的区别 明确:1、概括新闻内容。新闻内容常常具备时间、地点、人物、事情 等要素,我们要筛选出这些要素,采用“人物(或事物) +何时何地做什么(或怎样)”的形式。 2、拟定新闻标题。标题是文章的眼睛,根据新闻标题简洁、新颖、 醒目的要求,我们要筛选出主要信息,采用“人(或事物)+干什 么(或怎样)”的形式。 (六)完成例题 示例1:将下列内容概括成一句话新闻,不超过14个字。 中国科学院动物所的汪松教授上月在英国爱丁堡接受了世界著名的爱丁堡科学奖。1998年起设立的爱丁堡科学奖,每年颁发

给一位世界上有杰出贡献的科学家。汪松教授是中国获得这一奖项 的第一人 明确:汪松教授荣获爱丁堡科学奖。 示例2:以尽量简洁的语言,概括下面这段文字所叙述的主要事实。(不超过26个字) 哈尔滨一位老人历时九个月,行程数千里,骑着三轮车来到天津。他的三轮车上挂满了写着日军罪行的条幅。他的外公 和外叔公都是抗日地下工作者,均被日军残忍地杀害了。当年 日军对中国的侵略给他留下了痛苦的回忆,最近日本教科书篡 改历史的事件更激起了他的义愤,于是他踏上了声讨日军罪行 之路。 明确:哈尔滨一位老人骑三轮车声讨日军罪行,到达天津。 示例3:给下面这则新闻拟一个标题(不超过15个字) 新华社北京3月23日电文化部日前要求各地文化部门查处《臭作》等四款存在非法内容的电脑游戏。 记者了解到,文化部门在市场上发现的这几款违法游戏产品,存在大量的不健康的内容,违反了我国的法律规定,危害了青少年的身心健康。 文化部办公厅日前下发紧急通知,要求各地文化部门立即会同公安、工商、电信等部门,组织执法人员对传播这些违法游戏的网站、场所进行检查,一经发现上述电脑游戏,立即查禁、收缴,并根据线索,追根溯源,严查彻究,依法予以处罚。 明确:文化部要求查处《臭作》等电脑游戏 (七)总结答题策略,归纳出答题思路和方法 明确:1、做题思路:通读审题、定位筛选、整合表述 2、提取、整合信息方法:①结合文中的关键词或关键语句来 进行概括(导语是对新闻主体事件的高度概括,可从导语 入手,提取关键词)。②用自己的语言进行概括。第一步 是“筛选信息”,根据题目要求去粗存精、去次留主,把符

如何提取关键词(ziyu精心排版)

压缩语段之提取关键词 ■考点扫描 提取关键词在考纲里并不是一个单设的考点,它其实是信息筛选和压缩语段这两个考点的一个综合,主要考查学生概括思想内容,提取关键信息的能力。要求考生具有较强的理解、分析、筛选、概括、语言表达等各项能力。它首先要求考生在准确理解文段的基础上找到有效信息,并从中筛选出核心信息;然后用最简洁的语言加以概括,且概括时只能用词或短语。 ■能力提升指导 尽管这是近几年出现的一个新题型,但它涉及的能力要求在以前的相关考点中早有规定,只要大家掌握我们下面介绍的几种方法,解答起来,仍然可以得心应手。 一、研究语段话题 任何语段,无论是记叙、议论或说明,它总是围绕一个话题来展开的,体现话题的词语肯定是关键词之一。 二、寻找中心语句 三、明确具体要求 并不是每一道“提取关键词”的题的要求都是一样的,有的还根据语段的特点有具体要求,并且,有的要求可能还比较含蓄。对此,我们就一定要弄明确试题要求我们提取的是哪方面的关键词,以防泛泛去找,劳而无功。 四、分析构段特点 每个语段的构成都有自身的特点,或总分,或分总,或并列,或偏正,或解证,或承接,等等。不同的构成,就意味着关键词的位置不同。 五、关注层次(标点)变化 六、注意用词频率 ■提取关键词--备考训练 1、提取下面一段话的主要信息,在横线上写出四个关键词。 据新华社杭州2月22日电(记者余靖静)珍稀古籍文澜阁《四库全书》影印竹版今天在杭州文澜阁开印,已被预订掉三四十套。 据悉,影印本文澜阁《四库全书》由杭州出版社与浙江图书馆合作整理出版,投入经费约2800万元,其中民资占80%以上。杭州出版社总编辑徐海荣表示,影印本文澜阁《四库全书》将于2007年3月“出炉”,首印500套,每套约1700册,定价42万元。 此次文澜阁《四库全书》重印受到浙江商人及海外华商的青睐。一位在开印现场的华商说:“我起码要带10套去欧洲,让欧洲不仅知道中国文化,也亲眼看看我们的‘国宝’。” 答:____________________________________________________________。 2、提取下面这则新闻的主要信息,在横线上写出三个关键词。

相关文档
最新文档