阅读背景:

文本挖掘的基本流程

来源:互联网 

一、获取文本

  我们获取网络文本,主要是获取网页HTML的形式。我们要把网络中的文本获取文本数据库(数据集)。编写爬虫(Spider)程序,抓取到网络中的信息。可以用广度优先和深度优先;根据用户的需求,爬虫可以有垂直爬虫和通用爬虫之分,垂直爬取主要是在相关站点爬取或者爬取相关主题的文本 ,而通用爬虫则一般对此不加限制。爬虫可以自己写,当然现在网络上已经存在很多开源的爬虫系统(比如python的Scrapy和pyspider)。  我们获取网络文本,主要是获取网页HTML的形式。我们要把网络中




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: