使用Python下载文件的简单示例(如何用python下载文件)
off999 2024-09-16 00:43 43 浏览 0 评论
在本教程中,您将学习如何使用不同的Python模块从Web下载文件。此外,您还将下载常规文件、网页、AmazonS 3和其他来源。
最后,您将学习如何克服可能遇到的各种挑战,例如下载重定向文件、下载大型文件、完成多线程下载以及其他策略。
使用请求
您可以使用请求模块从URL下载文件。
考虑以下守则:
import requestsurl = 'https://www.python.org/static/img/python-logo@2x.png'myfile = requests.get(url)open('c:/users/LikeGeeks/downloads/PythonImage.png', 'wb').write(myfile.content)只需使用get 方法,并将结果存储到名为“myfile”的变量中。然后,将变量的内容写入文件中。
使用wget
还可以使用惠特Python模块。这个wget 可以使用PIP安装模块,如下所示:
pip install wget考虑下面的代码,我们将下载Python的徽标图像:
import wgeturl = "https://www.python.org/static/img/python-logo@2x.png"wget.download(url, 'c:/users/LikeGeeks/downloads/pythonLogo.png')在这段代码中,URL以及路径(图像将在其中存储)被传递给wget模块的下载方法。
重定向的下载文件
在本节中,您将学习如何从URL下载,该URL使用请求重定向到另一个带有.pdf文件的URL。URL内容如下:
https://readthedocs.org/projects/python-guide/downloads/pdf/latest/
要下载此pdf文件,请使用以下代码:
import requestsurl = 'https://readthedocs.org/projects/python-guide/downloads/pdf/latest/'myfile = requests.get(url, allow_redirects=True)open('c:/users/LikeGeeks/documents/hello.pdf', 'wb').write(myfile.content)在这段代码中,我们指定的第一步是URL。然后,我们使用请求模块的get方法来获取URL。在get方法中,我们设置allow_redirects到True,这将允许在URL中重定向,而重定向后的内容将分配给变量myfile.
最后,我们打开一个文件来编写获取的内容。
块下载大文件
考虑以下守则:
import requestsurl = 'https://www.python.org/static/img/python-logo@2x.png'myfile = requests.get(url)open('c:/users/LikeGeeks/downloads/PythonImage.png', 'wb').write(myfile.content)首先,我们像以前一样使用请求模块的get方法,但这一次,我们将流属性设置为True。
然后,我们在当前工作目录中创建一个名为PythonBook.pdf的文件,并打开它进行写入。
然后,我们指定要一次下载的块大小。我们已经设置为1024字节,遍历每个块,并在文件中写入块直到块完成。
不漂亮?别担心,我们稍后会显示下载过程的进度条。
下载多个文件(并行/批量下载)
若要一次下载多个文件,请导入以下模块:
import osimport requestsfrom time import timefrom multiprocessing.pool import ThreadPool我们导入了操作系统和时间模块,以检查下载文件所需的时间。模块ThreadPool 允许您使用池运行多个线程或进程。
让我们创建一个简单的函数,将响应以块的形式发送到文件:
def url_response(url): path, url = url r = requests.get(url, stream = True) with open(path, 'wb') as f: for ch in r: f.write(ch)
URL是一个二维数组,它指定要下载的页面的路径和URL。
urls = [("Event1", "https://www.python.org/events/python-events/805/"),("Event2", "https://www.python.org/events/python-events/801/"),("Event3", "https://www.python.org/events/python-events/790/"),("Event4", "https://www.python.org/events/python-events/798/"),("Event5", "https://www.python.org/events/python-events/807/"),("Event6", "https://www.python.org/events/python-events/807/"),("Event7", "https://www.python.org/events/python-events/757/"),("Event8", "https://www.python.org/events/python-user-group/816/")]将URL传递给requests.get,就像我们在上一节中所做的那样。最后,打开文件(URL中指定的路径)并写入页面的内容。
现在,我们可以对每个URL分别调用这个函数,也可以同时调用所有URL的这个函数。让我们在for循环中分别对每个URL执行此操作,并注意计时器:
start = time()for x in urls:url_response (x)print(f"Time to download: {time() - start}")现在,用以下代码行替换for循环:
ThreadPool(9).imap_unordered(url_response, urls)运行脚本。
用进度栏下载
进度条是客户端模块的UI小部件。若要安装客户端模块,请键入以下命令:
pip install clint
考虑以下代码:
import requestsfrom clint.textui import progressurl = 'http://do1.dr-chuck.com/pythonlearn/EN_us/pythonlearn.pdf'r = requests.get(url, stream=True)with open("LearnPython.pdf", "wb") as Pypdf: total_length = int(r.headers.get('content-length')) for ch in progress.bar(r.iter_content(chunk_size = 2391975), expected_size=(total_length/1024) + 1):if ch:Pypdf.write(ch)
在这段代码中,我们导入了请求模块,然后从clint.textui导入了进度小部件。唯一的区别是for循环。我们在将内容写入文件时使用了进度模块的BAR方法。
使用urllib下载网页
在本节中,我们将使用urllib下载一个网页。
urllib库是Python的标准库,因此不需要安装它。
以下代码行可以轻松下载网页:urllib.request.urlretrieve('url', 'path')
在这里指定要保存的URL以及要存储它的位置:
urllib.request.urlretrieve('https://www.python.org/', 'c:/users/LikeGeeks/documents/PythonOrganization.html')
在这段代码中,我们使用了urlretrieve 方法并传递文件的URL,以及保存文件的路径。文件扩展名为.html。
通过代理下载
如果需要使用代理下载文件,可以使用ProxyHandler 在urllib模块中。检查以下代码:
import urllib.request>>> myProxy = urllib.request.ProxyHandler({'http': '127.0.0.2'})>>> openProxy = urllib.request.build_opener(myProxy)>>> urllib.request.urlretrieve('https://www.python.org/')
在此代码中,我们创建了代理对象,并通过调用build_opener方法并传递代理对象。然后,我们请求检索页面。
此外,您还可以使用正式文档中记录的请求模块:import requestsmyProxy = { 'http': 'http://127.0.0.2:3001' }requests.get("https://www.python.org/", proxies=myProxy)
使用urllib 3
urllib 3是urllib模块的改进版本。您可以使用pip下载并安装它:pip install urllib3我们将获取一个网页,并使用urllib 3将其存储在文本文件中。导入以下模块:
import urllib3, shutil
shutil模块在处理文件时使用。现在,初始化URL字符串变量,如下所示:url = 'https://www.python.org/'然后,我们使用PoolManager 用于跟踪必要的连接池的urllib 3。
c = urllib3.PoolManager()创建一个文件:
filename = "test.txt"
最后,我们发送一个GET请求来获取URL并打开一个文件并将响应写到该文件中:with c.request('GET', url, preload_content=False) as res, open(filename, 'wb') as out_file:shutil.copyfileobj(res, out_file)
使用Boto 3从S3下载文件
要从AmazonS 3下载文件,可以使用PythonBoto 3模块。在开始之前,您需要使用pip安装awscli模块:pip install awscli对于AWS配置,运行以下命令:
aws configure现在,输入您的详细信息如下:
AWS Access Key ID [None]: (The access key)AWS Secret Access Key [None]: (Secret access key)Default region name [None]: (Region)Default output format [None]: (Json)要从AmazonS 3下载文件,请导入boto 3和botocore。Boto 3是用于Python访问AmazonWeb服务(如S3)的AmazonSDK。Botocore提供命令行服务来与AmazonWeb服务交互。Botocore配备了awscli。要安装boto 3,运行以下命令:pip install boto3现在,导入这两个模块:
import boto3, botocore当从Amazon下载文件时,我们需要三个参数:桶的名字需要下载的文件的名称。文件下载后的名称。初始化变量:bucket = "bucketName"file_name = "filename"downloaded_file = "downloadedfilename"
现在,初始化一个变量以使用会话的资源。为此,我们将调用resource()方法并传递服务,即S3:
service = boto3.resource(‘s3’)
最后,使用download_file 方法并传入变量:
service.Bucket(bucket).download_file(file_name, downloaded_file)
使用异步
异步模块的重点是处理系统事件。它围绕一个事件循环工作,该循环等待事件发生,然后对该事件作出反应。反应可以是调用另一个函数。这个过程叫做偶数处理。异步模块使用协同处理事件。为了使用异步事件处理和协同服务功能,我们将导入异步模块:import asyncio现在,定义异步协同器方法,如下所示:
async def coroutine(): await my_func()关键字异步告诉我们,这是一个本机异步协同器。在协同线的主体中,我们有一个等待关键字,它返回一个特定的值。返回关键字也可以使用。现在,让我们使用Cooutine创建一个代码,从Web下载一个文件:>>> import os
>>> import urllib.request
>>> async def coroutine(url):
r = urllib.request.urlopen(url)
filename = "couroutine_downloads.txt"
with open(filename, 'wb') as f:
for ch in r:
f.write(ch)
print_msg = 'Successfully Downloaded'
return print_msg
>>> async def main_func(urls_to_download):
co = [coroutine(url) for url in urls_to_download]
downloaded, downloading = await asyncio.wait(co)
for i in downloaded:
print(i.result())
urls_to_download = ["https://www.python.org/events/python-events/801/",
"https://www.python.org/events/python-events/790/",
"https://www.python.org/events/python-user-group/816/",
"https://www.python.org/events/python-events/757/"]
>>> eventLoop = asyncio.get_event_loop()
>>> eventLoop.run_until_complete(main_func(urls_to_download))在这段代码中,我们创建了一个异步协同函数,用于下载我们的文件并返回一条消息。然后,我们有另一个异步协同器调用main_func 它等待URL并生成所有URL的队列。异步的等待函数等待协同器的完成。现在,要启动coroutine,我们必须将coroutine放入事件循环中,方法是使用get_event_loop()方法,最后,使用run_until_complete()异步方法
使用Python下载文件很有趣。希望这个教程对你有用!
相关推荐
- coreldraw教程自学(coreldraw零基础教学视频)
-
1、CDR是矢量软件,国内印刷业和部分设计用的较多;2、基础入门操作:A、看你用在具体的哪个细分行业,如印刷排版方面、户外室内喷绘方面、图形设计方面、字体设计等等……输出的要求不一样,其他基本一样...
- cad2010序列号和密钥激活码免费
-
回答如下:不可以,CAD2010序列号和密钥是两个不同的概念。序列号是一个唯一的标识符,用于识别软件产品的副本。而密钥是一个加密字符串,用于验证软件副本的合法性。在安装CAD2010时,需要输入正确的...
- 笔记本电脑联想好还是惠普好
-
惠普和联想为全球名列前茅的电脑品牌,其中惠普为美国品牌,联想为中国品牌。联想作为一个后起之秀,当年通过收购thankpad品牌,走向全球。电脑中又分出多种风格的子品牌,有的注重游戏性能,有的注重轻薄商...
- 如何安装路由器步骤(安装路由器操作步骤)
-
路由器安装设置共分两个步骤,依次是”路由器与光猫“串联,“宽带账号写入路由器”即可,方法如下:?步骤一首先将路由器与光猫串联,用网线一端连接至“光猫”的LAN端口,另一端连接至“路由器”的WAN端口“...
- 86位系统是不是32位(86位和32位)
-
众所周知,同众多主打影音娱乐的系统不同,Windows从工业生产到金融消费、从个人应用到企业环境,应用领域极其广泛。以工业生产为例,嵌入式设备只需满足生产中特定的任务,并不追求过剩性能,故而现有绝大多...
- msdn官网下载系统u盘(msdn下载后要怎么做u盘启动盘)
-
1.打开MSDN网站并搜索您需要下载的系统。2.找到并单击“下载”按钮。3.如果系统有多个版本,请选择您需要的版本。4.选择“保存到磁盘”并单击“确定”按钮。5.将U盘插入计算机,并打开文件...
- 如何快速重装电脑系统(怎样快捷重装系统)
-
十年前的老电脑win7和XP还是可以一战的,那么接下来一起看看十年前的老电脑重装系统方法吧!如何选择win7还是XP系统:1、WindowsXP要求的最低配置为64MB内存,而硬盘剩余空间只需...
- 快用苹果助手官方下载iphone用
-
原因:1、可能是因为网络不稳定等情况导致下载的文件损坏缺失的情况,您可以尝试删除后重新下载安装;2、因设备可用空间不足而导致的安装失败:请检查您的手机空间是否充足,手机空间不足,也会导致软件下载安装失...
- 电脑恢复出厂设置了怎么恢复数据
-
C盘数据会丢失,其他盘数据可以选择不删除而保留。恢复系统步骤如下。一、首先,打开电脑金瑞Windows10系统,在电脑桌面左下角点击“开始”,点击打开。二、然后,弹出的开始中选择“设置”,...
- 办公电脑(办公电脑租赁平台)
-
1、惠普战99推荐理由:这是一款具有144Hz高刷新率特点的轻松办公的强芯轻薄笔记本,采用15.6英寸广阔大屏,支持144Hz高刷新率,减少画面拖影和卡顿,带来更流畅的使用体验,惠普战99还是可以的!...
- win7安装版iso(Win7安装版提示没有驱动)
-
网上下载的,你确定是GHOST版本的吗,如果是。那它就在其中文件夹里面。你再打开几个文件夹就可以看到,当然,官方网站下载的好像没有。最简单的方法也是最有效的方法在左边不是有个系统安装器.exe...
- win7和win10哪个好看(win7和win10选哪个)
-
Win7系统最大的特点就是继承了XP系统的稳定优点,对硬件的兼容性强,Win10系统的内部有最新的DirectX12技术,在游戏体验方面,Win10系统要比Win7系统强很多。Win7和Win10可谓...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
使用 python-fire 快速构建 CLI_如何搭建python项目架构
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
