自然语言处理发展及应用综述

2019年第7期

142研究与探讨

信息技术与信息化

自然语言处理发展及应用综述

赵京胜* 宋梦雪高祥

ZHAO Jing-sheng SONG Meng-xue GAO Xiang

摘　要自然语言处理旨在设计算法使计算机像人一样理解和处理自然语言，是互联网和大数据时代的必然。自

然语言处理涉及许多领域，包括词汇、句法、语义和语用分析，文本分类、情感分析、自动摘要、机器翻译和社会计算等。随着通信和计算机相关技术的发展，自然语言处理的应用需求也越来越大。分析自然语言处理的相关背景、常用方法和应用领域，并对NLP 的发展进行了展望。

关键词自然语言处理；信息抽取；自动文摘

doi：10.3969/j.issn.1672-9528.2019.07.046

* 青岛理工大学山东青岛 266520

1 前言

人类的日常生活离不开语言，自然语言作为一种最直接和简单的表达工具无处不在，自然语言处理（Natural Lan-guage Processing，NLP）是将人类交流沟通所用的语言经过处理转化为机器所能理解的机器语言，是一种研究语言能力的模型和算法框架，是语言学和计算机科学的交叉学科。作为人工智能的一个重要分支，在数据处理领域也占有越来越重要的地位，如今被大多数人熟知和应用。自然语言处理主要分两个流程：自然语言理解（Natural language Un-derstanding ，NLU）和自然语言生成（Natural language Generation，NLG）。NLU 主要是理解文本的含义，具体到每个单词和结构都需要被理解；NLG 与理解相反，分三个阶段，确定目标，通过评估情况和可用的交际资源来计划如何实现目标，并将计划形成为文本。

本文对自然语言处理的相关概念、发展历史和相关研究问题进行分析，特别是自然语言处理应用领域的知识体系，包括文本分类、自动文摘等领域，并对自然语言处理的发展进行了展望和预测。2 自然语言处理的发展

自然语言处理是一门包含着计算机科学、人工智能以及语言学的交叉学科，这些学科既有区别又相互交叉。其发展历程可分为四个阶段：1956年以前的萌芽期，1957-1970年是快速发展期，1971-1993年是低谷发展期，1994年到如今是复苏融合期。

1936年A.M.Turing 发明了“图灵机”，使纯数学的逻

辑符号和实体世界之间建立了联系，为后来计算机的发展提供了理论基础。20世纪50年代提出的自动机理论以图灵机的计算模型为基础，被认为是现代计算机科学发展的基础[1]。后来Kleene 又在这种模型之上提出了有限自动机和正则表达式。1956年，Chomsky 提出了上下文无关语法，同年在人工智能诞生之后，自然语言处理迅速融入该领域之中。在快速发展期，上下文无关语法的提出使得该领域的研究分为了基于规则的符号派和基于概率的随机派[2]，促使了未来的很多年人们都在研究这两种方法到底哪种方法更有效。在低谷期，许多研究人员也在一直坚持并取得了一些成果，70年代的语音识别算法研制成功，隐马尔科夫模型（Hidden Markov Model，HMM）提出并得到了广泛应用[1]。繁荣期主要表现在三个方面：首先是概率方法的大规模应用；其次是计算机的速度和存储量的大幅度提高，促使该领域的物质基础得到了改善；最后是网络技术的发展带来的强大推动力。3 自然语言处理的研究方法和内容3.1自然语言处理的研究方法

中文信息处理主要是对字、词、段落或篇章进行处理。主要方法分别是基于规则和基于统计的方法，前者是人工根据语言相关的规则对文本进行处理；后者则是通过大规模的数据库分析数据，从而实现对自然语言的处理。自然语言处理受数据影响较大，而数据的增长是大多数NLP 应用（如机器翻译）性能提高的原因，所以拥有强大的数据支持才可以更好的对文本进行进一步的理解和分析，这使得如今很多NLP 应用程序采用数据流分析方法[3]。

自然语言的处理流程大致可分为五步：第一步获取预

料。第二步对语料进行预处理，其中包括语料清理、分词、