本文共 1368 字,大约阅读时间需要 4 分钟。
学习的最好模式,就是学了就去马上用。上次是学完了urllib和re库之后尝试爬取了豆瓣分享的书单,那个时候发现urllib这个标准库还是不太好使。今天刚学了requests
这个更好用的库之后,尝试和re一起使用爬取简书的第一页。
第一步:获取响应
使用的requests非常简单,非常人性化的get功能。import requests# 获取respnoseheaders = { 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36', 'Host':'www.jianshu.com'}url = 'http://www.jianshu.com/'response = requests.get(url,headers)print(response.status_code)context = response.text
第二步:从网页中提取目标信息
这一步主要涉及到观察网页构造,然后使用正则表达式我的目标是:
先尝试构建获取作者的正则表达式
pattern = re.compile('
一鼓作气,构建所有的目标信息的正则表达式模式:
pattern = re.compile('
转载地址:http://mslja.baihongyu.com/