百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python 中常见下载文件方法九个方面知识

off999 2024-09-16 00:43 30 浏览 0 评论

在 Python 中,我们常常需要下载文件,例如爬虫下载页面中的图片、下载页面的链接pdf文件或者word文档、音频和视频;下载远程服务器上的资源,如压缩文件、视频、grib2等等。那么我们可以通过哪些方法来实现文件的下载呢?

需要说明的是:本例子使用下载网址为:http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3,是一首MP3的歌曲,4M的大小。粉丝可以在评论区讨论。

第一、使用requests

Requests 是 Python 中非常常用的第三方库,是一个非常强大、简单易用的 HTTP 请求库。

我们直接采用requests.get 获得文件的内容,然后二进制的方法保存文件内容。url:下载的文件名;localfile:保存的本地文件名。timeout:单位秒,如果文件比较大,可以适当的延长时间。如果文件比较大,需要下载比较长的时间,这个方法就不太适合了。示例代码如下:

import requests
url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'
#url:下载的文件名;localfile:保存的本地文件名。timeout:单位秒
r = requests.get(url,timeout=300)
with open(localfile, "wb") as fp:
    fp.write(r.content)

第二、使用urllib

urllib库是Python的标准库,因此不需要安装它。 urllib 库是一个非常方便的下载工具,提供了简单易用的下载接口。调用 urllib 库的 urlretrieve() 方法下载文件。示例代码如下:

import urllib.request
url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'
urllib.request.urlretrieve(url, localfile)  

第三、使用urllib2

urllib2库是urllib库的增强版,提供了更多的功能和更好的错误处理。需要说明的是:urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用),在 python3 中,urllib2 被改为urllib.request。为了教程的完整性,还是在这里介绍一下。示例代码如下:

import urllib2 
url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'
data = urllib2.urlopen(url).read()
with open(localfile, 'wb') as video:
    video.write(data)

第四、使用urllib3

urllib3是urllib模块的改进版本,是一个轻量级的python库,提供了线程安全,HTTP连接池和重用,文件发送等。我们将通过使用urllib3来获取一个链接并将它存储在一个文件中。示例代码如下:

import urllib3 
url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'
#创建一个HTTP连接池
http = urllib3.PoolManager()
r = http.request('GET',url)
print(r.data)
with open(localfile, 'wb') as mp3:
    mp3.write(r.data)
    
r.release_conn() #最后释放这个HTTP连接

第五、使用wget

wget是一个从网络上自动下载文件的自由工具,跨平台软件。它支持HTTP,HTTPS和FTP协议,可以使用HTTP代理。这里使用Python的wget模块从一个URL下载文件。wget.download直接从地址url下载到本地localfile。需要使用pip命令安装后才能使用。

pip install wget

示例代码如下:

import wget
url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'
wget.download(url,localfile)

除了使用 Python 编程语言,我们还可以使用命令行工具 wget 来下载文件。

下面是一个示例代码:

import os
url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'
os.system(f'wget -O {localfile} {url}')

第六、下载重定向的文件

有时我们下载一个链接文件,但是远端的服务器将URL会被重定向到另一个的源URL。遇到这种情况,使用requests.get可以轻松解决。get方法中,我们将allow_redirects设置为True,这将允许URL中的重定向,获得重定向后的内容后,然后二进制的方法保存文件内容。示例代码如下:

url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'
r = requests.get(url,timeout=300, allow_redirects=True)
with open(localfile, "wb") as fp:
    fp.write(r.content)

下面介绍大文件的下载方法。

大文件的下载,需要使用文件流进行下载,它是一种更高效、更安全的方式。使用文件流进行下载的原理,就是将文件一块一块地按顺序从网络上读取,每读取一块就立即写入本地文件。这样的方法既可以保证安全可靠地下载大文件,又可以避免因内存不足而导致的程序崩溃。

第七、使用requests库中的get方法,下载大文件

使用requests库中的get方法,并将stream参数设置为True即可。

示例代码如下:

url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'
r = requests.get(url,  stream=True)
fp = open(localfile,  "wb")    
for chunk in r.iter_content(chunk_size=1024):
    if chunk:
        fp.write(chunk)
        fp.flush()

第八、使用urllib2,下载大文件

需要说明的是,urllib2是Python2.7 自带的模块,示例代码只能在Python2.7运行。作为知识了解一下。示例代码如下:

url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'
r = urllib2.Request(url)
u = urllib2.urlopen(r)
with open('localfile, 'wb') as f:
    while True:
          tmp = u.read(1024)
          if not tmp:
                break
          f.write(tmp)

第九、使用urllib3,下载大文件

既然使用urllib2库可以下载文件,当然使用urllib3库也能办到。利用http连接池的request方法,并将preload_content参数设置为False即可。示例代码如下:

import urllib3 
url =  'http://cv.sycdn.kuwo.cn/99d1a17cc43457c58cd0049db033c348/650e4bbc/resource/n1/17/37/233599851.mp3'
localfile = './233599851.mp3'

#创建一个HTTP连接池
http = urllib3.PoolManager()

r = http.request('GET', url, preload_content=False)
chunk_size = 1024
with open(localfile, 'wb') as out:
    while True:
        data = r.read(chunk_size)
        if not data:
            break
        out.write(data)
r.release_conn() #最后释放这个HTTP连接

总结

通过介绍常见下载文件方法九个方面知识,我们可以轻松地实现 Python 下载文件的功能,同时也阐述了大文件下载的处理方法。当然,下载文件应该还有其他的方法,这里就不一一介绍。其中,使用 Requests 库是最为常用的方法,因为它提供了很多强大而灵活的功能,非常方便编写复杂的下载程序,这个也是我在项目中常用的方法。wget库下载功能强大,也是一个非常好的方法。

相关推荐

工程师必备!DeepSeek自动化运维全攻略

每天省出3小时,故障自修复+智能监控实战指南导语“总在深夜被报警短信吵醒?教你搭建智能运维体系,让DeepSeek自己管自己!”正文技能1:自动化故障诊断配置智能诊断规则:yaml复制alert_ru...

Spug - 轻量级自动化运维平台(自动化运维平台 devops)

对于中小型企业而言,进行主机和应用的管理是比较麻烦的,应用部署往往需要直接连接服务器,再进行手动的环境配置、代码拉取、应用构建和部署发布等工作,容易出错,且耗时费力。一个好的自动化运维平台,往往能大大...

轻量级无 Agent 的一个好用的“小麻雀”自动化运维平台工具!-Spug

对于中小型企业而言,进行主机和应用的管理是比较麻烦的,应用部署往往需要直接连接服务器,再进行手动的环境配置、代码拉取、应用构建和部署发布等工作,容易出错,且耗时费力。一个好的自动化运维平台,往往能大大...

运维自动化之实用python代码汇总(python自动化运维常用模块)

本文总结了运维工作中经常用到的一些实用代码块,方便在需要的时候直接搬过来使用即可1.执行系统命令,获取返回结果fromsubprocessimportPopen,PIPE,STDOUTcp...

从代码小白到自动化大师:Python 编程实战

昨天我聊了一下关于线性代数、概率统计、微积分核心概念的学习,也花了一些时间恢复一下大学时候学这些的记忆,确实来说数学很有趣也很考验人,兴趣是最好的老师对吧,既然对AI感兴趣,总要认真的学一学,接下来我...

锐捷:基于Python TextFSM模块的网络设备自动化运维方法

网络设备自动化运维,首先要实现网络设备与自动化运维平台对接,即通过代码实现登录网络设备并获取信息。邮政业科技创新战略联盟单位锐捷自主研发的数据中心交换机产品已全面支持NETCONF协议,可适用于和SD...

基于Python+vue的自动化运维、完全开源的云管理平台

真正的大师,永远都怀着一颗学徒的心!一、项目简介今天说的这个软件是一款基于Python+vue的自动化运维、完全开源的云管理平台。二、实现功能基于RBAC权限系统录像回放DNS管理配置中心强大的作业调...

编程与数学:在Python里怎么用turtle库函数填色?

这里只给出一个示例,一个最简单的示例。看懂这个示例,你就能在自己的代码里需要填色的地方填色。首先,与前面发的Python绘画程序一样,先要装入turtle库。然后在代码中,下面需要填色时,先写一个填色...

Python UV 环境下的 PyKDL 运动学库安装

视频讲解:PythonUV环境下的PyKDL运动学库安装_哔哩哔哩_bilibilimujoco-learning这个仓库,改成uv管理环境依赖后,原来的一些包有些缺失,比如之前安装的PyKD...

python最新版3.11正式发布,有哪些新特色?(3/5)

异步任务的语法更完美python编程语言对异步编程的支持一直在改进,比如python2.0版开始就增加了生成器(generator),在3.4版开始增加了asyncio库,随后在3.5版中...

清华北大都在用!Python王者归来(全彩版)

纸上得来终觉浅,绝知此事要躬行。今天给大家带来一份由清华大学出版的《python王者归来》。在当下全民互联网,大数据的时代,Python已然成为了学习大数据、人工智能时代的首选编程语言,Python...

第六章:Python模块与包(python模块与包与类的关系区别)

6.1模块基础6.1.1理论知识模块是一个包含Python定义和语句的文件,其扩展名为.py。模块可以将代码组织成逻辑单元,提高代码的可维护性和复用性。通过将相关的函数、类和变量放在同一个模块中...

语言教育项目实战之一:Ubuntu下安装Python环境

如下项目,运行在#ubuntu#上,使用#pytho#,从最初环境开始,逐渐深入。此项目以语言学习为主要目的,实现听写、跟读、对话的服务,面向中小学生、大学生、涉外交流人员等。计划通过pyenv管...

openai-python v1.79.0重磅发布!全新Evals API升级,音频转录终极

2025年5月17日,OpenAI官方在GitHub上发布了openai-python库的最新版本——v1.79.0。本次版本重点围绕Evals评估API进行了多项功能完善,同时修复了音频转录接口的重...

你真的用对了吗?7个常被误用的Python内置函数及最佳实践

你是否曾经在使用多年的工具中突然发现一个新功能,然后感叹:“我怎么一直没发现这个?”没错,今天我们就来体验一把“Python函数版”的这种乐趣。这些函数很可能已经是你日常代码的一部分,但我敢打赌,你并...

取消回复欢迎 发表评论: