Python爬虫基础知识:异常的处理
off999 2024-11-19 08:34 42 浏览 0 评论
先来说一说HTTP的异常处理问题。
当urlopen不能够处理一个response时,产生urlError。
不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。
HTTPError是urlError的子类,通常在特定HTTP URLs中产生。
1.URLError
通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。
这种情况下,异常同样会带有"reason"属性,它是一个tuple(可以理解为不可变的数组),
包含了一个错误号和一个错误信息。
我们建一个urllib2_test06.py来感受一下异常的处理:
按下F5,可以看到打印出来的内容是:
[Errno 11001] getaddrinfo failed
也就是说,错误号是11001,内容是getaddrinfo failed
2.HTTPError
服务器上每一个HTTP 应答对象response包含一个数字"状态码"。
有时状态码指出服务器无法完成请求。默认的处理器会为你处理一部分这种应答。
例如:假如response是一个"重定向",需要客户端从别的地址获取文档,urllib2将为你处理。
其他不能处理的,urlopen会产生一个HTTPError。
典型的错误包含"404"(页面无法找到),"403"(请求禁止),和"401"(带验证请求)。
HTTP状态码表示HTTP协议所返回的响应的状态。
比如客户端向服务器发送请求,如果成功地获得请求的资源,则返回的状态码为200,表示响应成功。
如果请求的资源不存在, 则通常返回404错误。
HTTP状态码通常分为5种类型,分别以1~5五个数字开头,由3位整数组成:
200:请求成功 处理方式:获得响应的内容,进行处理
201:请求完成,结果是创建了新资源。新创建资源的URI可在响应的实体中得到 处理方式:爬虫中不会遇到
202:请求被接受,但处理尚未完成 处理方式:阻塞等待
204:服务器端已经实现了请求,但是没有返回新的信 息。如果客户是用户代理,则无须为此更新自身的文档视图。 处理方式:丢弃
300:该状态码不被HTTP/1.0的应用程序直接使用, 只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。 处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃
301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源 处理方式:重定向到分配的URL
302:请求到的资源在一个不同的URL处临时保存 处理方式:重定向到临时的URL
304 请求的资源未更新 处理方式:丢弃
400 非法请求 处理方式:丢弃
401 未授权 处理方式:丢弃
403 禁止 处理方式:丢弃
404 没有找到 处理方式:丢弃
5XX 回应代码以“5”开头的状态码表示服务器端发现自己出现错误,不能继续执行请求 处理方式:丢弃
HTTPError实例产生后会有一个整型'code'属性,是服务器发送的相关错误号。
Error Codes错误码
因为默认的处理器处理了重定向(300以外号码),并且100-299范围的号码指示成功,所以你只能看到400-599的错误号码。
BaseHTTPServer.BaseHTTPRequestHandler.response是一个很有用的应答号码字典,显示了HTTP协议使用的所有的应答号。
当一个错误号产生后,服务器返回一个HTTP错误号,和一个错误页面。
你可以使用HTTPError实例作为页面返回的应答对象response。
这表示和错误属性一样,它同样包含了read,geturl,和info方法。
我们建一个urllib2_test07.py来感受一下:
按下F5可以看见输出了404的错误码,也就说没有找到这个页面。
3.Wrapping
所以如果你想为HTTPError或URLError做准备,将有两个基本的办法。推荐使用第二种。
第一种处理方案:
我们建一个urllib2_test08.py来示范一下第一种异常处理的方案:
和其他语言相似,try之后捕获异常并且将其内容打印出来。
这里要注意的一点,except HTTPError 必须在第一个,否则except URLError将同样接受到HTTPError 。
因为HTTPError是URLError的子类,如果URLError在前面它会捕捉到所有的URLError(包括HTTPError )。
第二种处理方案:
我们建一个urllib2_test09.py来示范一下第二种异常处理的方案:
.
- 上一篇:python入门050:认识异常
- 下一篇:简单介绍Python中异常处理用法
相关推荐
- win7系统激活状态不可用(win7windows激活状态不可用)
-
未激活的系统很多应用程序都没办法使用的,所以用激活工具激活系统。接下来小编分享win7用激活工具激活不了系统原因和解决方法。解决方法:1、已经激活了,但是有的网友是出现了黑色壁才进行的激活。激活后桌...
- win7怎么设置不休眠(win7系统设置不休眠)
-
您可以按照以下步骤取消Windows7系统的休眠功能:1.点击“开始”菜单,选择“控制面板”。2.在控制面板中,选择“硬件和声音”。3.在“硬件和声音”中,选择“电源选项”。4.在“电源选项...
- win7重装系统后键盘鼠标没反应
-
方法一:使用安全模式来解决1.首先我们尝试重启电脑,按关机键几款重启,如果重启电脑没有效果的话,将电脑鼠标的接头重新换一个USB接头即可。2.接着再开机按F8键(这时键盘肯定能用),再到高级启动选项下...
- 4g网速最快的apn接入点(4g哪个接入点快)
-
中国联通网速最快最稳的APN是3gnet。联通4G卡APN接入点应该选择“3gnet”,具体设置步骤如下:1、以MIUI系统为例,点击桌面上的“设置”应用图标;2、在打开的设置应用界面中,选择“双卡和...
- linux软件大全(linux相关软件)
-
Airtime-Airtime是一款用于调度和远程站点管理的开放广播软件Ardour-在Linux上录音,编辑,和混音Audacious-开源音频播放器,按你想要的方式播放你的音乐,...
- 什么是网络交换机(什么是网络交换机的作用)
-
交换机(又名交换式集线器)作用与集线器大体相同,可以简单的理解为将一些机器连接起来组成一个局域网,而每台机器还能独享带宽。原理:MAC地址通常由网卡(NIC)决定,并且每个网卡、交换机和路由器的每个端...
- wifi热点精灵下载(下载wifi精灵怎么样)
-
启动你好,解决方法一这是网卡IP的设置问题,看下上网的那个网卡有没有“共享”或者看下网络连接列表里有没有“已共享”字样,取消共享:电脑右下角右击“打开网络和共享中心”-----点击“更改适配器”-...
- win7游戏版系统(win7游戏专用版)
-
具体方法:1、进入win7桌面,右键单击桌面上的计算机图标,选择要打开的属性,然后进入下一步。2、点击系统属性界面左侧的“高级系统设置”进入下一步。3、切换到弹出系统属性界面的“高级”选项,点击性能选...
-
- win7如何查看隐藏文件(win7打开隐藏的文件夹)
-
方法/步骤分步阅读1进入win7系统桌面,鼠标双击打开我的电脑。2在我的电脑上方的导航条中点击工具选项。3在出现的下拉框中选择‘文件夹选项’进入。4在出现的文件夹选项界面中切换到‘查看’选项。5拉动下方的滚动条,找到‘隐藏受保护的操作系统文...
-
2025-11-29 05:51 off999
- 电脑怎样设置自动关机(笔记本电脑怎样设置自动关机)
-
电脑如何设置定时关机,方法1.点击电脑屏幕左下角的开始按钮,在所有程序里依次选择选择附件---系统工具,然后单击打开任务计划程序。2.点击打开任务计划程序后,在最右边的操作框里选择创建基本任务,然后在...
- 最近最新电影网(最新的电影资讯)
-
目前有许多观看最新电影的网站可供选择。其中一些知名的网站包括Netflix、AmazonPrimeVideo、Hulu、Disney+、AppleTV+和HBOMax。这些网站提供了广泛的电影...
- h3c网络管理软件(h3c 网管)
-
1.可能无法登录2.H3C无法登录的原因可能是网络连接问题、账号密码错误、软件版本不兼容等。网络连接问题可能是由于网络故障、设备配置错误等导致无法正常登录。账号密码错误可能是输入错误或者账号被锁定...
-
- qq轻聊版官网首页(qq轻聊版2019最新下载正版)
-
qq是一款功能十分强大的软件,身边很多的朋友都在使用,但是还是有一些新手朋友对于这个软件不是非常的了解,今天就聊一聊关于qq轻聊版和qq有什么区别的问题,希望可以帮助到有需要的朋友。第一,轻聊版不带捆绑软件,轻聊版QQ主界面功能部分消失,看...
-
2025-11-29 03:51 off999
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
