百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python爬虫中requests下载插件常用方法汇总(一)

off999 2024-11-22 19:01 15 浏览 0 评论

最近在对先前写的爬虫框架进行升级,今天把下载部分使用的插件更新了一下,把原来的urllib.request换成了requests插件。 花了几个小时仔细的研究了一下requests的参数,目前初步整理一个工具类,代码如下:

import requests
from PIL import Image
from io import BytesIO
from com.fy.utils.http.UserAgentUtils import UserAgentUtils
from requests.exceptions import ReadTimeout, ConnectionError, RequestException
'''
    requests插件工具类;
'''
class RequestsPlugs:
    def __init__(self):
        self.uau = UserAgentUtils()
        #被正确编码后的请求网址的地址;
        self.requestUrl = None
        #服务器响应的内容
        self.requestText = None
        #获取二进制数据;以字节的方式访问请求响应体,对于非文本请求:
        self.requestContent = None
        #Requests 会自动解码来自服务器的内容。大多数 unicode 字符集都能被无缝地解码。
        self.htmlEncoding = None
        #响应状态码
        self.reponseStatusCode = None
        #请求的历史记录(以列表的形式显示)或者响应对象的 history 方法来追踪重定向
        self.reponseHistory = None
        #请求网址的headers所有信息
        self.reponseHeaders = None
        #请求网址的cookies信息
        self.reponseCookies = None
        ##如果response返回的状态码是非正常,则为False,否则为True
        self.isOk = False

    '''GET请求;;params格式:"{'key1': 'value1', 'key2': 'value2'}"
        timeout:单位秒;可以是小数。如0.5,表示500毫秒;
    '''
    def get(self, url, params  , headers , timeout  , deCode , proxies):
        headers = self.setUserAgent(headers)
        with requests.Session() as s:
            '''
              第一种:设置普通代理
                  如果需要使用【代理】,你可以通过为任意请求方法提供 proxies 参数来配置单个请求:
                proxies = {#设置普通代理
                  "http": "http://10.10.1.10:3128",
                  "https": "http://10.10.1.10:1080",
                }
              第二种:设置有用户名和密码的代理
                  若你的代理需要使用HTTP Basic Auth,可以使用 http://user:password@host/ 语法:
                proxies = {#设置用户名和密码代理
                    "http": "http://user:pass@10.10.1.10:3128/",
                }
              第三种:设置设置socks代理
                1:首先安装requests[socks]插件;
                    pip install requests[socks]
                proxies = {
                    'http': 'socks5://127.0.0.1:9742',
                    'https': 'socks5://127.0.0.1:9742'
                }
            '''
            try:
                r = s.get(url, params=params, proxies=proxies, headers=headers , timeout=timeout)
                self.handleResult(deCode, r)
            except ReadTimeout:
                print('Timeout')
            except ConnectionError:
                print('Connection error')
            except RequestException:
                print('Error')

    #POST请求;params格式:"{'key1': 'value1', 'key2': 'value2'}"
    def post(self, url, params , headers , timeout, deCode, proxies):
        headers = self.setUserAgent(headers)
        with requests.Session() as s:
            r = s.post(url, params=params, proxies=proxies, headers=headers , timeout=timeout)
            self.handleResult(deCode, r)

    def handleResult(self, deCode, r):
        #设置编码
        if deCode != None and len(deCode) > 1:r.encoding = deCode
        #被正确编码后的请求网址的地址;
        self.requestUrl = r.url
        #服务器响应的内容
        self.requestText = r.text
        #你也能以字节的方式访问请求响应体,对于非文本请求:
        self.requestContent = r.content
        #Requests 会自动解码来自服务器的内容。大多数 unicode 字符集都能被无缝地解码。
        self.htmlEncoding = r.encoding
        #响应状态码
        self.reponseStatusCode = r.status_code
        #请求网址的headers所有信息
        self.reponseHeaders = r.headers
        #请求网址的cookies信息
        self.reponseCookies = r.cookies
        '''
               可以使用响应对象的 history 方法来追踪重定向。
            Response.history 是一个 Response 对象的列表,为了完成请求而创建了这些对象。这个对象列表按照从最老到最近的请求进行排序。
        '''
        #请求的历史记录(以列表的形式显示)或者响应对象的 history 方法来追踪重定向
        self.reponseHistory = r.history

        self.isOk = (r.status_code == requests.codes.ok)

    #以请求返回的二进制数据创建一张图片;
    def toImage(self, url, params , headers , timeout, proxies, imageFilePath):
        headers = self.setUserAgent(headers)
        with requests.Session() as s:
            r = s.get(url, params=params, headers=headers, timeout=timeout, proxies=proxies)
            i = Image.open(BytesIO(r.content))
            #quality参数: 保存图像的质量,值的范围从1(最差)到95(最佳)。 默认值为75,使用中应尽量避免高于95的值; 100会禁用部分JPEG压缩算法,并导致大文件图像质量几乎没有任何增益。
            i.save(imageFilePath, quality=95)

    #Requests 中也有一个内置的 JSON 解码器,助你处理 JSON 数据:
    def toJson(self, url, params , headers , timeout, deCode, proxies):
        headers = self.setUserAgent(headers)
        with requests.Session() as s:
            r = s.get(url, params=params, headers=headers, timeout=timeout, proxies=proxies)
            #设置编码
            if deCode != None and len(deCode) > 1:r.encoding = deCode
            '''如果 JSON 解码失败, r.json() 就会抛出一个异常。例如,响应内容是 401 (Unauthorized),尝试访问 r.json() 将会抛出 ValueError: No JSON object could be decoded 异常。
                  需要注意的是,成功调用 r.json() 并**不**意味着响应的成功。有的服务器会在失败的响应中包含一个 JSON 对象(比如 HTTP 500 的错误细节)。这种 JSON 会被解码返回。要检查请求是否成功,请使用 r.raise_for_status() 或者检查 r.status_code 是否和你的期望相同。
            '''
            self.requestText = r.json()

    #设置user-agent参数;
    def setUserAgent(self, headers):
        if headers == None:headers = {}
        headers['User-Agent'] = self.uau.getheaders()
        return headers

    #获取cookie集合;
    def getCookie(self):
        cookie = {}
        for key, value in self.reponseCookies.items():
            cookie[key] = value

    #文件上传
    def upload(self, url, params , headers , timeout, proxies, filePath):
        headers = self.setUserAgent(headers)
        with requests.Session() as s:
            files = {"files":open(filePath, "rb")}
            s.post(url, params=params, headers=headers, timeout=timeout, proxies=proxies, files=files)
            self.requestText = s.text

这是今天初步整理的,后续会继续对其进行更详细整理,希望对大家有帮助。

相关阅读:

爬虫工程师,如何高效的支持数据分析人员的工作?

一套价值十万的微信公众号采集解决方案(免费送)

数据采集中,如何建立一套行之有效的监控体系?

基于大数据平台的互联网数据采集平台基本架构

相关推荐

Python开发管理神器--UV 使用教程:从安装到项目管理

UV是一个用Rust编写的高效Python包和项目管理工具,提供了比传统工具更快的速度和更强的功能。本文将指导你如何使用UV从安装到运行一个Python项目。重点:它可以独立安装,可...

python入门-Day 26: 优化与调试(python优化方法)

优化与调试,内容包括处理模型运行中的常见问题(内存、依赖)、调整参数(如最大生成长度),以及练习改进Day25的文本生成结果。我会设计一个结构化的任务,帮助你掌握优化和调试技巧,同时提升模型性能...

Python安装(python安装发生严重错误)

Windows系统1.安装python1.1下载Python安装包打开官方网站:https://www.python.org/downloads/点击"DownloadPython3.1...

UV 上手指南:Python 项目环境/包管理新选择

如果你是一位Python开发者,曾因pipinstall的安装速度而感到沮丧,或者希望Python的依赖管理能够像Node.js那样高效顺滑,那么UV可能正是你所需要的工具。UV...

uv——Python开发栈中的高效全能小工具

每天写Python代码的同学,肯定都离不开pip、virtualenv、Poetry等基础工具,但是对这些工具可能是又恨又离不开。那么有什么好的替代呢,虫虫今天就给大家介绍一个替代他们的小工具uv,一...

使用Refurb让你的Python代码更加优秀

还在担心你写的Python代码是否专业,是否符合规范吗?这里介绍一个Python代码优化库Refurb,使用它可以给你的代码提出更加专业的建议,让你的代码更加的可读,规范和专业。下面简单介绍这个库的使...

【ai】dify+python开发AI八字排盘插件

Dify插件是什么?你可以将Dify插件想象成赋予AI应用增强感知和执行能力的模块化组件。它们使得将外部服务、自定义功能以及专用工具以”即插即用”的简洁方式集成到基于Dify构建的AI...

零基础AI开发系列教程:Dify升级指南

Dify近期发布很是频繁,基本两三天一个版本。值得肯定的是优化和改进了很多问题,但是官方的升级文档有点分散,也有点乱。我这里整理了一个升级文档供大家参考,如果还没有升级到新版本的小伙伴,可以按照我的文...

升级到PyTorch 2.0的技巧总结(如何更新pytorch版本)

来源:DeepHubIMBA本文约6400字,建议阅读12分钟在本文将演示PyTorch2.0新功能的使用,以及介绍在使用它时可能遇到的一些问题。PyTorch2.0发布也有一段时间了,大家...

dify 1.6.0版本发布解读:引入MCP支持与多项核心优化升级指南详解

2025年7月10日,dify发布了1.6.0版本。这是一次功能深度升级与性能优化的综合性更新,标志着dify在技术规范支持、操作体验以及系统稳定性方面迈出了重要的一步。本文将从核心新特性、功能增强、...

Python教程(十四):列表(List)(python列表方法总结)

昨天,我们学习了变量作用域,理解了局部和全局变量的概念。今天,我们将开始探索Python的数据结构,从最常用的**列表(List)**开始。列表是Python中最灵活、最常用的数据结构,它可以存储不同...

Python列表操作(python列表有哪些基本操作)

Python添加列表4分钟阅读在Python操作列表有各种方法。例如–简单地将一个列表的元素附加到for循环中另一个列表的尾部,或使用+/*运算符、列表推导、extend()和i...

Python字符串变形术:replace替换+join连接,10分钟掌握核心操作

字符串替换魔法:replace()实战手册核心价值:一键更新文本内容,精准控制替换范围#基础替换:Python变Javas="hellopython"print(s.re...

python集合set() 数据增册改查统计序循常用方法和数学计算

概念特点定义和创建常用操作集合间的关系集合数学操作集合生成式遍历概念:可变、无序、不重复的序列数据容器特点:无序,不支持下标唯一性,可以删除重复数据可修改定义和创建赋值法:语法:s={x,....

Python列表方法append和extend的区别

在Python编程中,列表是一种非常常用的数据结构。而列表有两个方法append()和extend(),它们看起来有点相似,但实际上有着明显的区别。今天咱们就来好好唠唠这俩方法到底有啥不同。基本区别a...

取消回复欢迎 发表评论: