R语言文本挖掘预测模型案例分析报告附代码数据

R语言文本挖掘预测模型案例分析报告

2.2数据的特点

数据的特点可以在下面看到。

2.3字数

如上所示，博客和新闻样本通常比Twitter样本长，这是有道理的，因为Twitter 限制为140个字符。有超过250个单词的可以忽略的条目，所以我删除它们来更清楚地显示大部分数据。

因为三个来源都有明确的分布模式，所以假设一个随机样本将具有相似的分布模式是合理的。

3创建和处理样本

由于语料库比较大，我只用10％的样本进行探索性数据分析，并开发出我的初始模型。

3.1选择10％的样本

3.2清理

清理过程将包括词干，也适应语法差异和错误拼写。

R语言文本挖掘预测模型案例分析报告 附代码数据