百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

一步步走上爬虫巅峰——进阶1(Requests、XPath语法和lxml模块)

off999 2024-11-05 10:54 21 浏览 0 评论

Requests库

Requests :唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。

发送get请求

直接调用requests.get

import requests

response = requests.get('https://www.baidu.com')

response的属性

import requests

params = {'wd': 'python'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4090.0 Safari/537.36 Edg/83.0.467.0'}
# params: 接受一个字典或者字符串的查询参数,字典类型自动转换为url编码,不需要urlencode()
response = requests.get('https://www.baidu.com', params=params, headers=headers)
# 查看响应内容,response.text返回的是Unicode格式的数据
print(response.text)
# 查看响应内容,response.content返回的是字节流数据
print(response.content.decode('utf-8'))
# 查看完整url地址
print(response.url)
# 查看响应头部字符编码
print(response.encoding)
# 查看响应码
print(response.status_code)

response.text和response.content的区别

  • response.content:直接从网络上面抓取的数据,没有经过任何解码,所以是bytes类型(硬盘上和网络上传输的字符串都是bytes类型)
  • response.text:将response.content进行解码的字符串,数据类型为str,解码需要指定一个编码方式,requests会根据自己的猜测来判断编码的方式,所以有时会猜测错误,就会导致解码产生乱码。这时候应该使用response.content.decode('utf-8')进行手动解码

发送POST请求

直接调用requests.post,如果返回的是json数据,可以调用response.json()来将json字符串转为字典或列表

下面是爬取拉勾网的一个示例,记得请求头添加Cookie,才能成功爬取到

import requests

data = {'first': 'true',
        'pn': '1',
        'kd': 'python'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/83.0.4090.0 Safari/537.36 Edg/83.0.467.0',
           'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
           'Cookie': 'user_trace_token=20200331183800-0c1f510a-ae9a-4f04-b70d-e17f9edec031; '
                     'LGUID=20200331183800-b8eca414-b7b2-479d-8100-71fff41d8087; _ga=GA1.2.17010052.1585651081; '
                     'index_location_city=%E5%85%A8%E5%9B%BD; lagou_utm_source=B; _gid=GA1.2.807051168.1585805257; '
                     'sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22171302b7caa67e-0dedc0121b2532-255e0c45'
                     '-2073600-171302b7cabb9c%22%2C%22%24device_id%22%3A%22171302b7caa67e-0dedc0121b2532-255e0c45'
                     '-2073600-171302b7cabb9c%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B'
                     '%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22'
                     '%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5'
                     '%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; '
                     'JSESSIONID=ABAAABAABFIAAAC7D7CECCAFCFFA1FCBF3CB10D8EA6A189; '
                     'WEBTJ-ID=20200403095906-1713dc35e58a75-0b564b9cba1732-23580c45-2073600-1713dc35e598e; PRE_UTM=; '
                     'PRE_HOST=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; '
                     'LGSID=20200403095905-8201da05-4bb8-4e93-97bf-724ea6f758af; '
                     'PRE_SITE=https%3A%2F%2Fwww.lagou.com; _gat=1; '
                     'Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585651082,1585879146; TG-TRACK-CODE=index_search; '
                     'X_HTTP_TOKEN=0b356dc3463713117419785851e40fa7a09468f3f0; '
                     'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1585879149; '
                     'LGRID=20200403095908-4f1711b9-3e7e-4d54-a400-20c76b57f327; '
                     'SEARCH_ID=b875e8b91a764d63a2dc98d822ca1f85'}
response = requests.post('https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false',
                         headers=headers,
                         data=data)
print(response.json())

使用代理ip

这里在基础中已经讲到过,使用requests只需要两行代码,非常方便

import requests

proxy = {'http': '59.44.78.30:54069'}
response = requests.get('http://httpbin.org/ip', proxies=proxy)
print(response.text)

cookie

使用session在多次请求中共享cookie,可以发现相比使用urllib代码变得特别简洁

import requests

headers = {'User-Agent': ''}
data = {'email': '',
        'password': ''}
login_url = 'http://www.renren.com/PLogin.do'
profile_url = 'http://www.renren.com/880151247/profile'
session = requests.Session()
session.post(login_url, data=data, headers=headers)
response = session.get(profile_url)
with open('renren.html', 'w', encoding='utf-8') as f:
    f.write(response.text)

处理不信任的SSL证书

对于那些没有被信任的SSL证书的网站,可以在requests.getrequests.post中设置参数verify=False来进行访问

XPath语法和lxml模块

XPath

xpath(XML Path Language)是一门在XMLHTML文档中查找信息的语言,可用来在XMLHTML文档中对元素和属性进行访问。

XPath开发工具

  • Chrome插件XPath Helper
  • Firefox插件Xpath Checker

XPath语法

XPath使用路径表达式来选取XML文档中的节点或者节点集,这些路径表达式和我们在常规的电脑文件系统中的表示式非常类似。

表达式

描述

示例

结果

nodename

选取此节点的所有子节点

bookstore

选取bookstore下所有的子节点

/

如果在最前面,代表从根节点选取,否则选择某节点下的某个节点

/bookstore

选取根元素下所有的bookstore节点

//

从全局节点中选择节点,随便在哪个位置

//book

从全局节点中找到所有的book节点

@

选取某个节点的属性

//book[@price]

选择所有拥有price属性的book节点

谓语

谓语用来查找某个特定的节点或者包含某个指定节点的值的节点,被嵌在方括号中。

路径表达式

描述

/bookstore/book[1]

选取bookstore下的第一个book元素

/booksotre/book[last()]

选取bookstore下的最后一个book元素

/bookstore/book[position()??]

选取bookstore下前面两个book元素

//book[@price]

选择所有拥有price属性的book节点

//book[@price=10]

选取所有属性price=10的book元素

通配符

通配符

描述

示例

结果

*

匹配任意节点

/bookstore/*

选取bookstore下的所有子元素

@*

匹配节点中的任何属性

//book[@*]

选取所有带有属性的book元素

选取多个路径

通过在路径表达式中使用|运算符,可以选取若干个路径

//bookstore/book | //book/title
# 选取多个book元素以及book元素下的title元素

运算符

运算符

描述

实例

返回值

|

计算两个节点集

//book | //cd

返回所有拥有book和cd元素的节点集

+,-,*,div

加,减,乘,除

6+1, 6-1, 6 * 1, 6 div 1

7, 5, 6, 6

=, !=, <, <=, >, >=

-

-

返回false或true

or, and

或,与

-

返回false或true

mod

计算除法的余数

5 mod 2

1

注意事项

  1. ///的区别,/代表只获取直接子节点,//代表获取子孙节点。
  2. contains:有时候某个属性中包含了多个值,那么可以使用contains函数
//div[contains(@class, 'job_detail')]

3.谓词中的下标从1开始。

lxml库

lxml是一个HTML/XML的解析器,主要功能是如何解析和提取HTML/XML数据。

基本使用

1,解析html字符串:使用lxml.etree.HTML进行解析

from lxml import etree
htmlElement = etree.HTML(text)
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

2,解析html文件:使用lxml.etree.parse进行解析

htmlElement = etree.parse('tencent.xml')
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

这个函数默认使用XML解析器,所以如果碰到不规范的HTML代码的时候就会解析错误,这时候要创建HTML解析器

parser = etree.HTMLParser(encoding='utf-8')
htmlElement = etree.parse('tencent.xml', parser=parser)
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

XPath和lxml结合使用

  1. 使用xpath语法,应该使用Element.xpath方法,xpath返回列表。
  2. 获取标签属性
  3. 获取文本使用xpath中的text()函数
  4. 如果想在某个标签下,再执行xpath,获取这个标签下的子孙元素,那么应该在斜杠之前加点,代表在当前元素下获取。
from lxml import etree

parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse('tencent.html', parser=parser)

获取所有tr标签

trs = html.xpath('//tr')
for tr in trs:
    print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

获取第2个tr标签

tr = html.xpath('//tr[2]')[0]
print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

获取所有class等于even的tr标签

trs = html.xpath("//tr[@class='even']")
for tr in trs:
    print(etree.tostring(tr, encoding='utf-8').decode('utf-8'))

获取所有a标签的href属性

aList = html.xpath('//a/@href')
for a in aList:
    print('http://hr.tencent.com/' + a)

获取所有职位信息

trs = html.xpath('//tr[position()>1]')
positions = []
for tr in trs:
    href = tr.xpath('.//a/@href')[0]
    fullurl = 'http://hr.tencent.com/' + href
    title = tr.xpath('./td[1]//text()')[0]
    category = tr.xpath('./td[2]//text()')[0]
    nums = tr.xpath('./td[3]/text()')[0]
    address = tr.xpath('./td[4]/text()')[0]
    pubtime = tr.xpath('./td[5]/text()')[0]

    position = {
        'url': fullurl,
        'title': title,
        'category': category,
        'nums': nums,
        'address': address,
        'pubtime': pubtime
    }
    positions.append(position)

相关推荐

面试官:来,讲一下枚举类型在开发时中实际应用场景!

一.基本介绍枚举是JDK1.5新增的数据类型,使用枚举我们可以很好的描述一些特定的业务场景,比如一年中的春、夏、秋、冬,还有每周的周一到周天,还有各种颜色,以及可以用它来描述一些状态信息,比如错...

一日一技:11个基本Python技巧和窍门

1.两个数字的交换.x,y=10,20print(x,y)x,y=y,xprint(x,y)输出:102020102.Python字符串取反a="Ge...

Python Enum 技巧,让代码更简洁、更安全、更易维护

如果你是一名Python开发人员,你很可能使用过enum.Enum来创建可读性和可维护性代码。今天发现一个强大的技巧,可以让Enum的境界更进一层,这个技巧不仅能提高可读性,还能以最小的代价增...

Python元组编程指导教程(python元组的概念)

1.元组基础概念1.1什么是元组元组(Tuple)是Python中一种不可变的序列类型,用于存储多个有序的元素。元组与列表(list)类似,但元组一旦创建就不能修改(不可变),这使得元组在某些场景...

你可能不知道的实用 Python 功能(python有哪些用)

1.超越文件处理的内容管理器大多数开发人员都熟悉使用with语句进行文件操作:withopen('file.txt','r')asfile:co...

Python 2至3.13新特性总结(python 3.10新特性)

以下是Python2到Python3.13的主要新特性总结,按版本分类整理:Python2到Python3的重大变化Python3是一个不向后兼容的版本,主要改进包括:pri...

Python中for循环访问索引值的方法

技术背景在Python编程中,我们经常需要在循环中访问元素的索引值。例如,在处理列表、元组等可迭代对象时,除了要获取元素本身,还需要知道元素的位置。Python提供了多种方式来实现这一需求,下面将详细...

Python enumerate核心应用解析:索引遍历的高效实践方案

喜欢的条友记得关注、点赞、转发、收藏,你们的支持就是我最大的动力源泉。根据GitHub代码分析统计,使用enumerate替代range(len())写法可减少38%的索引错误概率。本文通过12个生产...

Python入门到脱坑经典案例—列表去重

列表去重是Python编程中常见的操作,下面我将介绍多种实现列表去重的方法,从基础到进阶,帮助初学者全面掌握这一技能。方法一:使用集合(set)去重(最简单)pythondefremove_dupl...

Python枚举类工程实践:常量管理的标准化解决方案

本文通过7个生产案例,系统解析枚举类在工程实践中的应用,覆盖状态管理、配置选项、错误代码等场景,适用于Web服务开发、自动化测试及系统集成领域。一、基础概念与语法演进1.1传统常量与枚举类对比#传...

让Python枚举更强大!教你玩转Enum扩展

为什么你需要关注Enum?在日常开发中,你是否经常遇到这样的代码?ifstatus==1:print("开始处理")elifstatus==2:pri...

Python枚举(Enum)技巧,你值得了解

枚举(Enum)提供了更清晰、结构化的方式来定义常量。通过为枚举添加行为、自动分配值和存储额外数据,可以提升代码的可读性、可维护性,并与数据库结合使用时,使用字符串代替数字能简化调试和查询。Pytho...

78行Python代码帮你复现微信撤回消息!

来源:悟空智能科技本文约700字,建议阅读5分钟。本文基于python的微信开源库itchat,教你如何收集私聊撤回的信息。[导读]Python曾经对我说:"时日不多,赶紧用Python"。于是看...

登录人人都是产品经理即可获得以下权益

文章介绍如何利用Cursor自动开发Playwright网页自动化脚本,实现从选题、写文、生图的全流程自动化,并将其打包成API供工作流调用,提高工作效率。虽然我前面文章介绍了很多AI工作流,但它们...

Python常用小知识-第二弹(python常用方法总结)

一、Python中使用JsonPath提取字典中的值JsonPath是解析Json字符串用的,如果有一个多层嵌套的复杂字典,想要根据key和下标来批量提取value,这是比较困难的,使用jsonpat...

取消回复欢迎 发表评论: