阅读背景：

Python爬虫抓取页面内容

发表于:2020-11-18

博客园示例：Ctrl+Alt+L格式化代码

#coding:utf-8
import requests
from lxml import etree


def gettitle(url):
    html=requests.get(url)
    selector=etree.HTML(html.text)
    title=selector.xpath('//a[@id="cb_post_title_url"]/text()')
    return title[0]

def getcontent(url):
    html=requests.get(url)
    selector=etree.HTML(html.text)
    contentlist=selector.xpath('//div[@class="postBody"]/div/p/text()')
    contents=''
    for i in contentlist:
        contents=contents+"\n"+i
    return contents
print("请输入博客园文章的链接：")
url=input("")
print(gettitle(url))
print(getcontent(url))#coding:utf-8

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。

你可能喜欢:

[BZOJ]2626: JZPFAR

Django测试使用现有数据库

SQL用户定义的函数：在用户定义的函数中获取TOP n记录

UIWebView通过JS语句获取网页（html）的某些数值

什么是POI?[Apache.org摘录]JAVA的API如何访问微软的文件【Excel,Word等等】

Java的堆（Heap）和栈（Stack）的区别

查看oracle的schema和User

HDU2030.汉字统计_佐佐木乌诺的博客

YARN集群搭建与使用_阿华田的博客

相关阅读:

Unity5 Assetbundle简单使用及打包Material文件超大的问题

kafka学习00-Kafka相关概念

00.【置顶】【合集】大前端

Android夜间模式实现

避雷指南：11个常见 Kubernetes 误区详解

Selenium 与 Android自动化测试

利用“进程注入”实现无文件复活 WebShell

JS string 00 .00

Docker技术全景：推动云原生架构的关键力量

[置顶] （二十七）unity4.6学习Ugui中文文档-------Unity3D UI (uGUI)窗口扩展

随便看看:

如何在SQL Server中使用随机记录集

同城双活：交易链路的稳定性与可靠性探索

IE及firefox下获取及设置样式值的代码

得物 Zookeeper SLA 也可以 99.99% ｜得物技术

前端工资高，需求大，找工作却困难？简历怎么写，很重要！

git提交代码时报错，提不了

MongoDB的权限配置：开启auth之后的eval权限

Android跑马灯的实现及问题总结

基于微信校园共享洗衣小程序毕业设计成品作品（6）毕业设计论文模版

[置顶] 给PLSQL插上飞翔的翅膀-PLSQL优化