R语言文本挖掘预测模型案例分析报告 附代码数据

R语言文本挖掘预测模型案例分析报告  附代码数据
R语言文本挖掘预测模型案例分析报告  附代码数据

R语言文本挖掘预测模型案例分析报告

2.2数据的特点

数据的特点可以在下面看到。

2.3字数

如上所示,博客和新闻样本通常比Twitter样本长,这是有道理的,因为Twitter 限制为140个字符。有超过250个单词的可以忽略的条目,所以我删除它们来更清楚地显示大部分数据。

因为三个来源都有明确的分布模式,所以假设一个随机样本将具有相似的分布模式是合理的。

3创建和处理样本

由于语料库比较大,我只用10%的样本进行探索性数据分析,并开发出我的初始模型。

3.1选择10%的样本

3.2清理

清理过程将包括词干,也适应语法差异和错误拼写。

相关主题
相关文档
最新文档