百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

使用Python下载文件的简单示例(如何用python下载文件)

off999 2024-09-16 00:43 48 浏览 0 评论

在本教程中,您将学习如何使用不同的Python模块从Web下载文件。此外,您还将下载常规文件、网页、AmazonS 3和其他来源。

最后,您将学习如何克服可能遇到的各种挑战,例如下载重定向文件、下载大型文件、完成多线程下载以及其他策略。



使用请求

您可以使用请求模块从URL下载文件。

考虑以下守则:

import requests
url = 'https://www.python.org/static/img/python-logo@2x.png'
myfile = requests.get(url)
open('c:/users/LikeGeeks/downloads/PythonImage.png', 'wb').write(myfile.content)

只需使用get 方法,并将结果存储到名为“myfile”的变量中。然后,将变量的内容写入文件中。

使用wget

还可以使用惠特Python模块。这个wget 可以使用PIP安装模块,如下所示:

pip install wget

考虑下面的代码,我们将下载Python的徽标图像:

import wget
url = "https://www.python.org/static/img/python-logo@2x.png"
wget.download(url, 'c:/users/LikeGeeks/downloads/pythonLogo.png')

在这段代码中,URL以及路径(图像将在其中存储)被传递给wget模块的下载方法。

重定向的下载文件

在本节中,您将学习如何从URL下载,该URL使用请求重定向到另一个带有.pdf文件的URL。URL内容如下:

https://readthedocs.org/projects/python-guide/downloads/pdf/latest/

要下载此pdf文件,请使用以下代码:

import requests
url = 'https://readthedocs.org/projects/python-guide/downloads/pdf/latest/'
myfile = requests.get(url, allow_redirects=True)
open('c:/users/LikeGeeks/documents/hello.pdf', 'wb').write(myfile.content)

在这段代码中,我们指定的第一步是URL。然后,我们使用请求模块的get方法来获取URL。在get方法中,我们设置allow_redirects到True,这将允许在URL中重定向,而重定向后的内容将分配给变量myfile.

最后,我们打开一个文件来编写获取的内容。

块下载大文件

考虑以下守则:

import requests
url = 'https://www.python.org/static/img/python-logo@2x.png'
myfile = requests.get(url)
open('c:/users/LikeGeeks/downloads/PythonImage.png', 'wb').write(myfile.content)

首先,我们像以前一样使用请求模块的get方法,但这一次,我们将流属性设置为True。

然后,我们在当前工作目录中创建一个名为PythonBook.pdf的文件,并打开它进行写入。

然后,我们指定要一次下载的块大小。我们已经设置为1024字节,遍历每个块,并在文件中写入块直到块完成。

不漂亮?别担心,我们稍后会显示下载过程的进度条。

下载多个文件(并行/批量下载)

若要一次下载多个文件,请导入以下模块:

import os
import requests
from time import time
from multiprocessing.pool import ThreadPool

我们导入了操作系统和时间模块,以检查下载文件所需的时间。模块ThreadPool 允许您使用池运行多个线程或进程。

让我们创建一个简单的函数,将响应以块的形式发送到文件:

def url_response(url):
    path, url = url
    r = requests.get(url, stream = True)
    with open(path, 'wb') as f:
        for ch in r:
            f.write(ch)

URL是一个二维数组,它指定要下载的页面的路径和URL。

urls = [("Event1", "https://www.python.org/events/python-events/805/"),
("Event2", "https://www.python.org/events/python-events/801/"),
("Event3", "https://www.python.org/events/python-events/790/"),
("Event4", "https://www.python.org/events/python-events/798/"),
("Event5", "https://www.python.org/events/python-events/807/"),
("Event6", "https://www.python.org/events/python-events/807/"),
("Event7", "https://www.python.org/events/python-events/757/"),
("Event8", "https://www.python.org/events/python-user-group/816/")]

将URL传递给requests.get,就像我们在上一节中所做的那样。最后,打开文件(URL中指定的路径)并写入页面的内容。

现在,我们可以对每个URL分别调用这个函数,也可以同时调用所有URL的这个函数。让我们在for循环中分别对每个URL执行此操作,并注意计时器:

start = time()
for x in urls:
url_response (x)
print(f"Time to download: {time() - start}")


现在,用以下代码行替换for循环:

 ThreadPool(9).imap_unordered(url_response, urls)

运行脚本。

用进度栏下载

进度条是客户端模块的UI小部件。若要安装客户端模块,请键入以下命令:

pip install clint

考虑以下代码:

import requests
from clint.textui import progress
url = 'http://do1.dr-chuck.com/pythonlearn/EN_us/pythonlearn.pdf'
r = requests.get(url, stream=True)
with open("LearnPython.pdf", "wb") as Pypdf:
    total_length = int(r.headers.get('content-length'))
    for ch in progress.bar(r.iter_content(chunk_size = 2391975), expected_size=(total_length/1024) + 1):
if ch:
Pypdf.write(ch)

在这段代码中,我们导入了请求模块,然后从clint.textui导入了进度小部件。唯一的区别是for循环。我们在将内容写入文件时使用了进度模块的BAR方法。

使用urllib下载网页

在本节中,我们将使用urllib下载一个网页。

urllib库是Python的标准库,因此不需要安装它。

以下代码行可以轻松下载网页:urllib.request.urlretrieve('url', 'path')

在这里指定要保存的URL以及要存储它的位置:

urllib.request.urlretrieve('https://www.python.org/', 'c:/users/LikeGeeks/documents/PythonOrganization.html')

在这段代码中,我们使用了urlretrieve 方法并传递文件的URL,以及保存文件的路径。文件扩展名为.html。

通过代理下载

如果需要使用代理下载文件,可以使用ProxyHandler 在urllib模块中。检查以下代码:

import urllib.request>>> myProxy = urllib.request.ProxyHandler({'http': '127.0.0.2'})>>> openProxy = urllib.request.build_opener(myProxy)>>> urllib.request.urlretrieve('https://www.python.org/')

在此代码中,我们创建了代理对象,并通过调用build_opener方法并传递代理对象。然后,我们请求检索页面。

此外,您还可以使用正式文档中记录的请求模块:import requestsmyProxy = { 'http': 'http://127.0.0.2:3001' }requests.get("https://www.python.org/", proxies=myProxy)

使用urllib 3

urllib 3是urllib模块的改进版本。您可以使用pip下载并安装它:pip install urllib3我们将获取一个网页,并使用urllib 3将其存储在文本文件中。导入以下模块:

import urllib3, shutil

shutil模块在处理文件时使用。现在,初始化URL字符串变量,如下所示:url = 'https://www.python.org/'然后,我们使用PoolManager 用于跟踪必要的连接池的urllib 3。

c = urllib3.PoolManager()创建一个文件:

filename = "test.txt"

最后,我们发送一个GET请求来获取URL并打开一个文件并将响应写到该文件中:with c.request('GET', url, preload_content=False) as res, open(filename, 'wb') as out_file:shutil.copyfileobj(res, out_file)

使用Boto 3从S3下载文件

要从AmazonS 3下载文件,可以使用PythonBoto 3模块。在开始之前,您需要使用pip安装awscli模块:pip install awscli对于AWS配置,运行以下命令:

aws configure现在,输入您的详细信息如下:

AWS Access Key ID [None]: (The access key)AWS Secret Access Key [None]: (Secret access key)Default region name [None]: (Region)Default output format [None]: (Json)要从AmazonS 3下载文件,请导入boto 3和botocore。Boto 3是用于Python访问AmazonWeb服务(如S3)的AmazonSDK。Botocore提供命令行服务来与AmazonWeb服务交互。Botocore配备了awscli。要安装boto 3,运行以下命令:pip install boto3现在,导入这两个模块:

import boto3, botocore当从Amazon下载文件时,我们需要三个参数:桶的名字需要下载的文件的名称。文件下载后的名称。初始化变量:bucket = "bucketName"file_name = "filename"downloaded_file = "downloadedfilename"

现在,初始化一个变量以使用会话的资源。为此,我们将调用resource()方法并传递服务,即S3:

service = boto3.resource(‘s3’)

最后,使用download_file 方法并传入变量:

service.Bucket(bucket).download_file(file_name, downloaded_file)

使用异步

异步模块的重点是处理系统事件。它围绕一个事件循环工作,该循环等待事件发生,然后对该事件作出反应。反应可以是调用另一个函数。这个过程叫做偶数处理。异步模块使用协同处理事件。为了使用异步事件处理和协同服务功能,我们将导入异步模块:import asyncio现在,定义异步协同器方法,如下所示:

async def coroutine(): await my_func()关键字异步告诉我们,这是一个本机异步协同器。在协同线的主体中,我们有一个等待关键字,它返回一个特定的值。返回关键字也可以使用。现在,让我们使用Cooutine创建一个代码,从Web下载一个文件:>>> import os

>>> import urllib.request

>>> async def coroutine(url):

r = urllib.request.urlopen(url)

filename = "couroutine_downloads.txt"

with open(filename, 'wb') as f:

for ch in r:

f.write(ch)

print_msg = 'Successfully Downloaded'

return print_msg

>>> async def main_func(urls_to_download):

co = [coroutine(url) for url in urls_to_download]

downloaded, downloading = await asyncio.wait(co)

for i in downloaded:

print(i.result())

urls_to_download = ["https://www.python.org/events/python-events/801/",

"https://www.python.org/events/python-events/790/",

"https://www.python.org/events/python-user-group/816/",

"https://www.python.org/events/python-events/757/"]

>>> eventLoop = asyncio.get_event_loop()

>>> eventLoop.run_until_complete(main_func(urls_to_download))在这段代码中,我们创建了一个异步协同函数,用于下载我们的文件并返回一条消息。然后,我们有另一个异步协同器调用main_func 它等待URL并生成所有URL的队列。异步的等待函数等待协同器的完成。现在,要启动coroutine,我们必须将coroutine放入事件循环中,方法是使用get_event_loop()方法,最后,使用run_until_complete()异步方法

使用Python下载文件很有趣。希望这个教程对你有用!

相关推荐

下载淘宝购物网(淘宝购物下载和安装最新版)

  捷易淘宝小号购买平台助手是一款专业的淘宝小号出售平台助手,软件全自动智能搜索你需要的淘宝小号,最安全的淘宝在线交易平台。  专业多线程快速查询你需要的淘宝小号  支持多种小号,如。淘宝邮箱小号,手...

免费在线影视观看网站(在线观看影视剧网址)

有蛮多的,茶杯狐影视,555影视,首播影院都是可以看电影的免费网址,里面有很多最新更新的电影,综艺,电视剧,动漫,可以收藏起来目前有许多观看最新电影的网站可供选择。其中一些知名的网站包括Netflix...

4399造梦西游3(4399造梦西游3账号)

在4399造梦西游三中,要进入下界需要完成一定的任务。首先,需要完成主线任务“寻找下界之门”,该任务需要完成一系列的支线任务,包括“寻找下界之钥”、“寻找下界之路”等。完成这些任务后,就可以进入下界了...

原来的琪琪电影在线看(原来琪琪电影在线看免费)

186x2=372原来多372张

python编程软件(python编程软件怎么读)

学点编程是一款手机编程应用,这款软件界面漂亮,功能强大,支持多种语言,内容丰富,编程的程序员们可千万不要错过啦!应用包含一张涵盖了所有HTML5元素释义的列表,并能查看元素在内置浏览器中实现的样式...

google play apk(Google play apk English)

googleplay是一款谷歌开发的、用于帮助用户加快游戏软件运转速度的软件。该软件可以快速与谷歌游戏中心连接,从而加快游戏同步数据的传输。  如果用户不需要使用该软件了,则可以尝试直接使用卸载功能卸...

单人枪战单机游戏(单人枪战闯关游戏)

有胡闹厨房,NBA2K,Knack纳克,光环战斗进化,杀手5赦免。钓鱼星球。神鬼寓言,战争机器,精灵与森林,盗贼之海,丧尸围城枪火重生,这是融合了第一人称射击、Roguelite随机元素和RPG策略...

三国战纪街机版下载(三国战纪街机版下载教程)

三国战纪单机手机版非常容易上手,可以通过以下步骤进行玩耍:容易上手。游戏的操作非常简单,只需要用手指点击屏幕即可完成。游戏同时提供了简单、普通、困难等多个难度设置,能够满足不同玩家的需求。在游戏中,玩...

永久免费的网盘哪个好用(百度网盘登录入口)

现在的网盘很多都是免费的哦,而且也很安全,我自己就在用天翼云网盘。天翼云虽然刚登陆是15G,但是现在登陆客户端就有10T的容量了,可以存很多东西了。天翼云网盘还有个挺好的功能叫做私密空间,每次登陆都要...

热血传奇官方正版下载(热血传奇官网下载安装)

1.可以通过官方网站或者应用商店下载热血传奇。2.热血传奇作为一款热门的网络游戏,开发商通常会提供官方网站或者在应用商店上架,方便玩家下载和安装。3.此外,还可以通过一些第三方游戏平台或者论坛等...

经典老歌500首铃声(免费设为铃声的歌曲)

许慧欣七月七日晴黄格选春水流任贤齐沧海一声笑杨培安我相信邓丽君路边的野花不要采乌兰托娅套马杆索朗扎西姑娘我爱你刀郎情人西域刀郎寻找玛依拉林依轮透过开满鲜花的月亮...

网页黄冈大推广(黄冈宣传)

意思是职称通过了最终审核,已被批准,也就意味着职称稳了,可以享受其相应的待遇了。职称,指教授,讲师,中级,高级等专业技术等级。终审,指最终审核。通过,指批准了。职称终审通过多指工作在技术,学术行业领城...

可以插二次元角色的游戏ios(二次元插图软件)

决战平安京,和光影对决,就是二次元moba游戏其中决战平安京的画质什么的,个人感觉更好~推荐“影视大全-人人美剧视频影视大全苹果版App”。这是一款资源最全的影视苹果端追剧应用,汇聚全网电影、电视剧、...

手机字体上面带拼音(手机字体上面带拼音怎么取消)
手机字体上面带拼音(手机字体上面带拼音怎么取消)

通过修改手机中的字体来设置的,方法如下(以华为mate8手机为例):1、首先,在华为手机上找到系统自带的主题的应用软件,并点击打开它。2、然后,在打开的主题界面点击底部的字体的标签栏目。3、接着,在字体的界面上方的搜索框中输入“拼音”,并进...

2026-02-03 22:51 off999

国内国外精品影视网站(国外影视网站排行)

影视大全强烈推荐的视频app影视大全。是一款作品非常多,大多数都是免费,无广告,无弹窗。它上面也实时更新一些影视作品。有一些在其他影视app中搜索不到,或者收费的作品,在他上面,都是免费的。同时呢,这...

取消回复欢迎 发表评论: