应用爬虫从网上抓取到一个网页内容,要想能准确显示,必须要获得网页的原始编码,否则会涌现乱码。首先须要获得网页内容,最简略的方法就是通过JDK自带的HttpURLConnection类,要实现更庞杂的抓取操作,请应用开源的爬虫框架,如Crawler4j,Web-Harvest,JSpider,WebMagic,Heritrix,Nutch等,我其实不是来讲爬虫相干技巧的,只是网页内容的获得须要应用到爬虫技巧,所以顺带提提有关爬虫的框架,具体你们自己去研讨。这里为了简便起见,我就以JDK自带的HttpURLConnection类来抓取网页内容,抓取示例代码以下: 应用爬虫从网上抓取到一个网页内容,要想能准确显示,必须要获得网页的原始编码,否则会涌