问题是这样的:我要爬取的网页编码是utf-8的,我在parser里面设置请求编码格式utf-8,然后爬取后的内容就是这样的:<a class=\"a_topic\" href=\"http:\/\/huati.weibo.com\/k\/%E7%BB%A7%E6%89%BF%E8%80%85%E4%BB%AC?from=526\" target=\"_blank\">#\u7ee7\u627f\u8005\u4eec#<\/a>\u8f66\u6069\u5c1a\u548c\u5d14\u82f1\u9053\u7684\u7f57\u66fc\u53f2\u5373\u5c06\u4e0a\u6f14\uff01\u660e\u665a\u5c06\u64ad\u51fa\u7684\u7b2c9\u96c6\u4e2d\uff0c\u6069\u5c1a\u5728\u5496\u5561\u5e97\u88ab\u4e00\u540d\u7537\u5ba2\u4eba\u7ea0\u7f20\uff0c\u6b64\u65f6\u82f1\u9053\u633a\u8eab\u800c\u51fa\u66ff\u5979\u89e3\u56f4\u2026\u2026\u8be6\u60c5\uff1a 是不是应该对这些做什么进一步处理啊?而且还有一个问题是我测试其他的一些编码为utf-8的网页,显示内容有中文 都是正常的。实在搞不懂是为什么啊,求大神指导,谢谢!
问题是这样的:我要爬取的网页编码是utf-8的,我在parser里面设置请求编码格式utf-8