阅读背景：

java用htmlparser爬取页面后的中文内容问题

发表于:2021-01-09

问题是这样的：我要爬取的网页编码是utf-8的，我在parser里面设置请求编码格式utf-8，然后爬取后的内容就是这样的：<a class=\"a_topic\" href=\"http:\/\/huati.weibo.com\/k\/%E7%BB%A7%E6%89%BF%E8%80%85%E4%BB%AC?from=526\" target=\"_blank\">#\u7ee7\u627f\u8005\u4eec#<\/a>\u8f66\u6069\u5c1a\u548c\u5d14\u82f1\u9053\u7684\u7f57\u66fc\u53f2\u5373\u5c06\u4e0a\u6f14\uff01\u660e\u665a\u5c06\u64ad\u51fa\u7684\u7b2c9\u96c6\u4e2d\uff0c\u6069\u5c1a\u5728\u5496\u5561\u5e97\u88ab\u4e00\u540d\u7537\u5ba2\u4eba\u7ea0\u7f20\uff0c\u6b64\u65f6\u82f1\u9053\u633a\u8eab\u800c\u51fa\u66ff\u5979\u89e3\u56f4\u2026\u2026\u8be6\u60c5\uff1a 是不是应该对这些做什么进一步处理啊？而且还有一个问题是我测试其他的一些编码为utf-8的网页，显示内容有中文都是正常的。实在搞不懂是为什么啊，求大神指导，谢谢! 问题是这样的：我要爬取的网页编码是utf-8的，我在parser里面设置请求编码格式utf-8

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。

你可能喜欢:

新浪微博笔试题：删除字符串中多余的空格

修改 oracle 默认中文字符集成为：SIMPLIFIED CHINESE_CHINA.ZHS16GBK

区块链学习之Fabric的环境搭建-手动搭建_lwgzj的博客_搭建fabric区块链

函数返回值什么时候入栈？

需要帮助命名一个代表值及其线性变化的类

提高SQL执行效率的方法

《学习opencv》笔记——矩阵和图像操作——cvDet,cvDit,cvDotProduct,cvEigenVV and cvFlip

直方图匹配(直方图规定化)

linux 中JDK环境变量不一致问题导致mysql无法连接，总是告诉权限出错

【Unity3D】学习笔记（第6记）鼠标选中敌人显示轮廓线

相关阅读:

快速开始 PieCloudDB Database：PieProxy 外部接入工具演示

数仓虚拟化技术：PieCloudDB 通过中国信通院 2023 「可信数据库」性能评测的强力支撑

文心一言员工跳槽工资翻倍， AI 人才备受追捧；推特称其部分源代码遭泄露；Docker 撤回受争议的收费方案|极客头条

JQuery实现用户名无刷新验证的小例子

jQuery中:password选择器用法实例

JS 树形递归实例代码

解包system.img成HIT archive data格式的包

js实现收缩菜单效果实例代码

javascript模拟评分控件实现方法

javascript中的遍历for in 以及with的用法

随便看看:

[置顶] Cocos2d-JS中使用CocosStudio资源——关卡选择界面

详解TCP/IP的三次握手和四次挥手

DDD | 领域驱动设计初探

Oracel数据库将两个select查询语句的结果拼接在一起的两种方式

grafana快速搭建数据平台

centos修改主机名整理（勿喷）

简析云计算应用的十个关键要求

微服务——SpringCloud（Eureka注册中心搭建）

Backtrader官方中文文档:第二部分Installation安装

14：00面试，15：00就出来了，问的问题过于变态了。。。