百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

爬虫必备(7)- 网络请求利器requests库

off999 2024-10-08 06:21 26 浏览 0 评论

在先前的文章中,我们深入讲解了Python标准库(Standard Library)`urllib`通讯库的实际运用。`urllib`作为Python编程语言的重要组成部分之一,其主要职责在于支持 HTTP 和 FTP 等主流网络协议,并内置多样化的函数及功能,旨在有效便捷地检索各类网页数据以及实现基础性的网络爬虫任务等。本文,则将向您介绍一个更为广泛应用且便利的通讯库——`requests`。

`requests`系一款简洁易用、功能完善的HTTP库,基于`urllib`开发,以轻量级的方式表现HTTP处理能力。在继承其丰富功能特性的基础上,还呈现出更具人性化用户友好的API接口设计,进而大幅度提升了使用者对该通讯库的接受度与满意度,使得在实践运用过程中能够得心应手。已经成为Python事实上的通讯请求库。

requests 是一个三方库,因此在使用之前需要提前安装。

pip install requests

GET 请求

GET 作为 HTTP 通讯中最为常见的请求方式,我们优先来看一下如何使用 requests 来完成一个 GET 请求。

此处案例依然使用 httpbin 的接口来测试

import requests as req

res = req.get("https://httpbin.org/get")

if res.status_code == 200:
    print(res.text)
else:
    print(f"Error: {res.status_code}")

# {
#   "args": {}, 
#   "headers": {
#     "Accept": "*/*", 
#     "Accept-Encoding": "gzip, deflate", 
#     "Host": "httpbin.org", 
#     "User-Agent": "python-requests/2.31.0", 
#     "X-Amzn-Trace-Id": "Root=1-65981de0-38498b4b13dce608142e59cb"
#   }, 
#   "origin": "110.176.23.189", 
#   "url": "https://httpbin.org/get"
# }

可以看到,使用 requests 可以非常方便的发起一个 GET 请求,而且语义更加明确,相较于 urllib 中的 urlopen 更为方便。

POST 请求

requests 发起 post 同样非常简单,方便,如下方代码:

import requests as req

res = req.post("https://httpbin.org/post", data={"name": "John", "age": 30})
print(res.status_code)

# 200

可以看到,通过 post 方法,并直接指定 data 传递参数就可以发起 post 请求。

响应处理

requests 在获取响应数据时同样非常方便,返回的结果被封装到了 response 对象中,并通过 text 和 content 属性即可获取到数据,另外还可以获取到状态码,响应头,Cookies 等数据。

import requests as req

res = req.get("https://httpbin.org/get")

if res.status_code == 200:
    print("响应码:", res.status_code)
    print("响应头:", res.headers)
    print("Cookies:", res.cookies)
    print("响应内容:", res.text)
    print("url:", res.url)
    print("请求历史:", res.history)

# 响应码: 200
# 响应头: {'Date': 'Sun, 07 Jan 2024 09:15:29 GMT', 'Content-Type': 'application/json', 'Content-Length': '308', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}
# Cookies: <RequestsCookieJar[]>
# 响应内容: {
#   "args": {}, 
#   "headers": {
#     "Accept": "*/*", 
#     "Accept-Encoding": "gzip, deflate", 
#     "Host": "httpbin.org", 
#     "User-Agent": "python-requests/2.31.0", 
#     "X-Amzn-Trace-Id": "Root=1-659a6bb1-18aed04963d8a8e02865f827"
#   }, 
#   "origin": "110.176.23.189", 
#   "url": "https://httpbin.org/get"
# }

# url: https://httpbin.org/get
# 请求历史: []

如上边的代码,通讯响应成功后,就会获取到 response 对象,通过status_code 可以获取到响应码,我们一般会通过响应码来判断此次通讯是否成功,来继续后续的操作。requests 中有 codes 类封装了所有的状态码,如下图:

因此还可以使用如下表示来判断通信的状态。

res.status_code == req.codes.ok

response 还可以通过其他属性来获取相关内容,如下:

headers: 读取响应头信息,其中包含了服务器返回的各种元数据,如:Conntent-Type 等。

url: 请求的 url

content: 响应的内容,一般是字符串或字节数组(二进制文件)

encoding: 响应编码格式

elapsed:请求和响应的时间差,单位为秒

history: 请求历史记录,如果有值则是一个列表,包含了请求的 URL,状态码和头信息等内容

response 中还提供额外的方法来获取更多的内容,如下:

json():将相应内容解析为 Python 对象,这是一个非常有用的方法,对于 Ajax 方法获取的 json 字符串就不需要手动做转换了。

text():将响应内容作为字符串返回,此方法可以直接获取文本数据。

content():获取响应内容的二进制数据,一般用来获取影音,图片等。

raise_for_status():一般用来检查通讯是否成功,因为此方法在状态码不是 200 的时候会抛出一个异常。

close():关闭响应对象,释放相关资源。

到这里你可能会问,像 text,content 两个既有属性,又有方法,那到底该用哪个?

response.text 属性会自动将响应的内容解码为字符串,所以再使用的时候就不需要手动处理编解码的问题,可以直接使用。相对的 text()方法会将响应的内容解码为字节数组,然后再转为字符串,所以在解码之前对响应内容进行一些额外的处理(比如编解码)。

response.content 属性是一个只读属性,返回响应内容的二进制数据,所以在使用的时候可以直接访问原始的二进制数据,无需手动解码。而 content()方法是一个可读写的方法,虽然也是返回的二进制内容,但是与属性不同的是,调用 content()方法时,requests 会先讲相应内容解码为字节数组,再将其转换为二进制数据,因此在解码之前可以对响应内容做一些额外的处理。

请求参数设置

requests 中设置请求参数同样非常简单,而且支持高级的功能设置,本文简单介绍一下 get 和 post 如何设置请求参数。

# get请求设置query参数和header
requests.get("https://httpbin.org/get", 
             params={"name": "John", "age": 30}, 
             headers={"User-Agent": "Mozilla/5.0"})

# post请求设置query参数和header
requests.post("https://httpbin.org/post", 
              data={"name": "John", "age": 30}, 
              headers={"User-Agent": "Mozilla/5.0"})

#挑战30天在头条写日记# #冬季生活打卡季#

相关推荐

ipv6无网络访问权限怎么解决

ipv6无网络访问权限解决方法如下1、点击电脑左下角的开始,进入到开始的菜单栏,在菜单栏中找到“运行”。或者通过快捷键Windows+R打开运行窗口。  2、打开运行的窗口页面后,在页面上输入“CMD...

office ltsc版(Office LTSC版本区别)

office2021和2021ltsc的区别如下:1.更新策略不同。前者采用每个月月度更新的方法,提供功能更新、安全更新。后者不采用每个月月度更新的方法,且不提供功能更新。2.界面不同。2021采用了...

安装win7需要激活吗(现在安装win7旗舰版还需密钥吗)

要激活  Windows7如果是预装在计算机中的,买来之后便不用激活,这里预装指的是在厂商那里。正版的Windows7安装到计算机中,有三十天的试用期,若要永久使用,就要使...

originos 3升级计划公布(originos升级包)

2023年2月。1.OriginOS3.0系统第一批升级时间为11月25日。2、包含iQOONeo7,X80系列,S15系列,iQOO9、iQOO10系列,以及折叠屏XFold系列和大屏XNo...

鸿蒙系统适配第三方机型(鸿蒙 第三方适配)

最新华为官方公布了鸿蒙系统3.0支持的机型名单,具体如下。鸿蒙系统3.0升级名单:1.Mate系列:MateXs2、MateX2、MateXs、Mate40、Mate40Pro、Mate...

imei怎么下载(imei changer apk)

如果您的steam序列号激活了,可以尝试以下方法下载:1.使用steam自带的下载工具,如“下载工具”,在软件的“下载”选项卡中选择“序列号下载”。2.在下载页面中,选择要下载的游戏,然后点击“下...

电脑系统优化软件哪个好(系统优化软件排行榜)

有必要用,非常好用,WINDOWS优化大师是一个网络上下载率极高的系统维护软件。多年未曾清理过系统和硬盘的电脑,系统内部将产生大量的垃圾文件、临时文件、废旧程序等等win10系统不需要经常更新,关闭...

重装系统后硬盘不见了(重装系统后磁盘不见了)

硬盘不见可能是因为重装系统时未正确安装驱动程序或未对硬件进行正确设置。你可以按以下步骤排查问题:进入BIOS检查硬盘是否被识别,尝试重新连接数据线和电源线,更新或安装适当的硬件驱动程序,或者使用硬件故...

冰封u盘装win7系统教程图解(冰封u盘启动装机教程)

1.查找激活工具:通常来说,Win7冰封系统已经包含了必要的驱动,所以如果你的电脑上并没有出现设备错误,那你就可以正常使用。如果你需要添加任何驱动,请尝试从厂商下载相应的驱动并执行自动安装程序。如果...

ppt软件电脑版推荐(电脑ppt软件下载哪个版好)
  • ppt软件电脑版推荐(电脑ppt软件下载哪个版好)
  • ppt软件电脑版推荐(电脑ppt软件下载哪个版好)
  • ppt软件电脑版推荐(电脑ppt软件下载哪个版好)
  • ppt软件电脑版推荐(电脑ppt软件下载哪个版好)
兄弟打印机怎么连接wifi(兄弟打印机怎么连接wifi手机打印)
  • 兄弟打印机怎么连接wifi(兄弟打印机怎么连接wifi手机打印)
  • 兄弟打印机怎么连接wifi(兄弟打印机怎么连接wifi手机打印)
  • 兄弟打印机怎么连接wifi(兄弟打印机怎么连接wifi手机打印)
  • 兄弟打印机怎么连接wifi(兄弟打印机怎么连接wifi手机打印)
uefi模式下找不到硬盘(uefi引导找不到硬盘)

首先你的安装盘必须是从UEFI启动的,然后它才能安装为UEFI启动。(条件:Fat32文件系统,efi文件夹)其次你MBR+BIOS的系统想换成GPT+EFI的,分区得做一点改动,腾出来100M的空...

win7怎么安装蓝牙驱动程序(win7电脑安装蓝牙驱动教程)

方法如下:  1、再开始里点击控制版面,点击【硬件和声音】找到【添加设备】  2、之后再选择你要添加的蓝牙耳机。  3、系统就会提示正在与蓝牙适配器连接,然后提示添加成功。  4、点击“开始”-“...

怎么装系统win7旗舰版(电脑怎么装win7旗舰版)

1、目前支持64位的Wincc版本有:WinccV7Sp3、WinccV11Sp2、WinccV12。2、Wincc的V11与V12两个版本不能共存,即不能同时安装在同一台电脑上。上述这两...

u盘恢复工具免费版(u盘文件恢复工具免费版)
  • u盘恢复工具免费版(u盘文件恢复工具免费版)
  • u盘恢复工具免费版(u盘文件恢复工具免费版)
  • u盘恢复工具免费版(u盘文件恢复工具免费版)
  • u盘恢复工具免费版(u盘文件恢复工具免费版)

取消回复欢迎 发表评论: