Python爬虫之爬取某音乐平台(付费)歌曲
off999 2024-12-15 16:04 24 浏览 0 评论
无意间在某站上看到一个视频,便很有兴趣地实践了起来。本篇文章仅仅是作为个人学习笔记所著,如若有所不足之处,欢迎指正。
废话不多说,先上源代码及效果图(如若对你有帮助,请阅读完本文):
网页链接:https://music.163.com/#/playlist?id=5087806619
效果图:
源代码:
# -*- codeing=utf-8 -*-
# @Time:2021/7/22 20:47
# @Atuhor:@lwtyh
# @File:批量下载.py
# @Software:PyCharm
#导入框架(库,模块)  pip install xxxx
import requests
from lxml import etree
# http://music.163.com/song/media/outer/url?id=
# 1、确定网址   真实地址在Network----Doc
url = 'https://music.163.com/playlist?id=5087806619'
base_url = 'http://music.163.com/song/media/outer/url?id='
# 2、请求(requests) 图片,视频,音频  content     字符串 text
html_str = requests.get(url).text
# print(type(html_str))       # 字符串类型
# 3、筛选数据xpath(标签语言)
# //a[contains(@href,'/song?')]/@href
result = etree.HTML(html_str)       # 转换类型
# print(type(result))
song_ids = result.xpath('//a[contains(@href,"/song?")]/@href')   # 歌曲id
song_names = result.xpath('//a[contains(@href,"/song?")]/text()')       # 歌名
# print(song_ids)
# print(song_names)     #列表
# 对列表进行解压
i = 0       # 按顺序来
for song_id,song_name in zip(song_ids,song_names):
    # print(song_id)
    # print(song_name)
    count_id = song_id.strip('/song?id=')   # 去掉/song?id=
    # print(count_id)
    # 过滤含有“$”符号
    if ('#39; in count_id) == False:
        # print(count_id)
        song_url = base_url + count_id      # 拼接url
        # print(song_url)
        i += 1
        mp3 = requests.get(song_url).content
        # 4、保存数据
        with open('./yinyue/{}.{}.mp3'.format(i,song_name),'wb') as file:
            file.write(mp3)
目的:
一张截图,请自行分析:
这是一张再熟悉不过的图片了,想要获取本页面这些音乐,方法很多,如APP内自行下载啥的,但是,本次我想利用所学到的一点皮毛进行下载。
我们都知道,对于网页上的音乐在进行下载时,经常会弹出如下页面:
好好的下载一首歌曲,非要弄得这么麻烦。甚至,有些音乐在下载了软件后,需要付费或者VIP,让人很是苦恼。更严重者,好不容易下载好了,却发现格式不对等种种情况,让人崩溃。
为此我们可以很好地通过简单的爬虫解决以上问题。
对网页进行分析:
1. 在一开始,本人给出了本网页的链接:https://music.163.com/#/playlist?id=5087806619但是细心的小伙伴会发现,在代码中所使用的的网址并非是这个:
url = 'https://music.163.com/playlist?id=5087806619'
这是因为我们所请求的网址并非是浏览器地址栏上的网址,通过这张截图,很清晰地发现我们所请求的网址是哪个了。(这是一个很重要的点,必须学会分析。)
2. 通过对每首歌曲打开,进行网页源代码分析不难发现,本网页的10首歌曲都有一个共同的特点:即https://music.163.com/#/song?id=1475436266
前面的网址为 https://music.163.com/#/song?id= 加每首歌曲的 id 好,这很简单。
3. 然而,我们永远想得过于简单了,到目前为止,我们仅仅是找到了些许规律,但是要真正下载到每一首歌曲,还遥不可及。
因为我们进行了这么久的分析,并没有找到歌曲的真正链接。
通过对这些内容的查找,我们是可以说,根本就无法找到音乐文件(MPEG、MP3、MPEG-4、MIDI、WMA、M4A等)。
那是我们到现在为止还没有请求音乐,而当我们在进行点击播放时会发现如下图所示(与上图进行比较)发现:
- 该网页的请求数量由原来的167一下增加至192,这就证明,当我们在进行播放音乐时,该网页又重新进行了对网页的请求。
- 其次,通过重新查找发现(只需查看后面新的内容)这次有了一些 .m4a 文件。
- 当点击这些文件打开时会发现,有一个新的 Request URL:,当你将该网址复制在新的网页下进行打开,会出现如下图所示(打开时浏览器会自动进行下载该音乐):
 或者: 像下图所示,会出现该音频,当你浏览器跟迅雷下载器所绑定,会立马弹出迅雷界面,进行该音乐的下载。
 结合上面的情况来说,我们是不是已经成功了呢?但很难过地告诉你,这个网址在短时间内打开,的确会有用,但是,它是有时间限制的,不信的话,你可以过五分钟(或许还不需要这么久)再重新打开该网址,试一下。
那么,照我这么一说,没办法了吗?当然不是,办法还是有的,不然,怎么敢在此“放肆”呢?
问题解决:
通过之前对网页进行分析,我们正一步一步地进行了解、熟悉,且到最后,我们甚至找到了歌曲的最终URL,但是可惜的是,该URL并非是一个永久的,只是一个短暂、临时的动态URL,这简直给我们泼了一盆冷水。
然而,我们无需灰心,俗话说 “ 魔高一尺,道高一丈 ”,办法还是有的。
需将这个问题解决,不得不介绍一个新的URL:
http://music.163.com/song/media/outer/url?id=
在这里,就不卖关子了,这是一个该平台(至于是什么平台,你懂得)的外部链接。在之前的分析中,我们发现了一个很重要的一点,便是这10首歌曲都是一个网址加每首歌曲的id所在的新页面。
在代码中你也会发现所使用的 base_url 便是这个链接。
base_url = 'http://music.163.com/song/media/outer/url?id='
也就是说,我们有了上面的这个网址,便可以为所欲为了。爱动手的你现在便可以立马复制上面的链接,在网页上找到一首歌曲的id号添加至网址后面进行打开(如:http://music.163.com/song/media/outer/url?id=1822734959),是不是得到了如下的界面:
是不是很熟悉呢?没错,这就是之前我们利用网页分析得到的网址所打开的网页,很可惜的是之前那网址是一个临时、动态的网址,对于我们来说进行批量下载没多大用处。所以,当我们现在有了这个新网址,就方便了很多。
好,想一想,既然我们有了这么一个神奇的网址,接下来,该干嘛了呢?好好想一下。
正片开始:
在经过了前面两大点的分析,现在我们可以游刃有余地对这十首音乐进行爬取了。
相信,很多人都知道接下来一步该干什么了吧?
每首音乐可以通过 http://music.163.com/song/media/outer/url?id= 这个网址加每首音乐的 id 进行下载,所以,我们第一步便是想办法获取每首音乐的 id 。
通过之前的这张图不难发现,每首音乐的 id 都在一个a标签内。
#导入框架(库,模块)  pip install xxxx
import requests
# 1、确定网址   真实地址在Network----Doc
url = 'https://music.163.com/playlist?id=5087806619'
# 2、请求(requests) 图片,视频,音频  content     字符串 text
html_str = requests.get(url).text
print(html_str)
print(type(html_str))       # 字符串类型
便可以通过上述代码,先将该网页的源代码进行爬取下来,再进行分析。
在这里使用多加了一横打印该页代码的数据类型,不难发现所打印出来的类型为 字符串 。这便有了后续需要将该内容转换为 _Element对象 。
>>>result = etree.HTML(html_str)       # 转换类型
>>>print(type(result))
class 'lxml.etree._Element'>		#输出类型
作为_Element对象,可以方便地使用getparent()、remove()、xpath()等方法。
而此次爬虫,恰恰所使用的的便是 xpath() 方法。
所以,还需要导入一个新的模块,即:
from lxml import etree
通过浏览器的 XPath Helper 插件可以快速地匹配到每首音乐的 id 。
song_ids = result.xpath('//a[contains(@href,"/song?")]/@href')   # 歌曲id
song_names = result.xpath('//a[contains(@href,"/song?")]/text()')       # 歌名
print(song_ids)
print(song_names)     #列表
而当我们打印出来时,却发现这是一个列表类型。不着急,可以借用 for 进行快速遍历:
for song_id,song_name in zip(song_ids,song_names):
    print(song_id)
    print(song_name)
通过打印发现,前面多了一些 /song?id= ,这时,便使用下面这行代码,进行删减:
count_id = song_id.strip('/song?id=')   # 去掉/song?id=
歌名没有进行打印了,因为我们主要是获取每首音乐的 id ,然而,仔细看上图发现后面多了三个无用的,这三个必须删掉才行,不然在进行后面的 URL 拼接,肯定会报错,因为压根就找不到这样的一个网址。便有了后面的判断语句。
# 过滤含有“$”符号
    if ('#39; in count_id) == False:
        print(count_id)
清一色id号:
接下来便是拼接新的URL:
song_url = base_url + count_id      # 拼接url
       print(song_url)
在浏览器里打开上面的任意链接,即可获取该音乐的链接,并进行下载。
但是,我们最终的目的肯定不在于此,而是让爬虫自动帮我们全部下载并进行保存至文件夹。
mp3 = requests.get(song_url).content
所以,我们便进行请求网址,获取每首音乐。最后,在进行保存即可。
# 4、保存数据
with open('./yinyue/{}.{}.mp3'.format(i,song_name),'wb') as file:
	file.write(mp3)
需要注意的是,源代码中本人在 for 进行遍历时,增加了一个变量 i ,这是为了我们所爬取下来的音乐保存在文件夹的顺序还是如网页中的顺序所一样,当然如若不需要可将其删除。
到现在看来,我们爬取到了这歌单中的10首音乐,那试想一下,获取其它歌单中的音乐是不是也可以用相同的方法进行获取呢?爱动手的你,快去试一试吧!实践出真知!
说在最后的话:
- 学无止境。利用写博客的方式将所学内容进行一遍温习,加深自己的印象,强化学习。
- 同时,写出来的每一篇笔记为大家作参考,也欢迎各位大佬进行指点,相互交流学习。
- 如若侵权,联系即删!
相关推荐
- 阿里云国际站ECS:阿里云ECS如何提高网站的访问速度?
- 
        TG:@yunlaoda360引言:速度即体验,速度即业务在当今数字化的世界中,网站的访问速度已成为决定用户体验、用户留存乃至业务转化率的关键因素。页面加载每延迟一秒,都可能导致用户流失和收入损失。对... 
- 高流量大并发Linux TCP性能调优_linux 高并发网络编程
- 
        其实主要是手里面的跑openvpn服务器。因为并没有明文禁p2p(哎……想想那么多流量好像不跑点p2p也跑不完),所以造成有的时候如果有比较多人跑BT的话,会造成VPN速度急剧下降。本文所面对的情况为... 
- 性能测试100集(12)性能指标资源使用率
- 
        在性能测试中,资源使用率是评估系统硬件效率的关键指标,主要包括以下四类:#性能测试##性能压测策略##软件测试#1.CPU使用率定义:CPU处理任务的时间占比,计算公式为1-空闲时间/总... 
- Linux 服务器常见的性能调优_linux高性能服务端编程
- 
        一、Linux服务器性能调优第一步——先搞懂“看什么”很多人刚接触Linux性能调优时,总想着直接改配置,其实第一步该是“看清楚问题”。就像医生看病要先听诊,调优前得先知道服务器“哪里... 
- Nginx性能优化实战:手把手教你提升10倍性能!
- 
        关注△mikechen△,十余年BAT架构经验倾囊相授!Nginx是大型架构而核心,下面我重点详解Nginx性能@mikechen文章来源:mikechen.cc1.worker_processe... 
- 高并发场景下,Spring Cloud Gateway如何抗住百万QPS?
- 
        关注△mikechen△,十余年BAT架构经验倾囊相授!大家好,我是mikechen。高并发场景下网关作为流量的入口非常重要,下面我重点详解SpringCloudGateway如何抗住百万性能@m... 
- Kubernetes 高并发处理实战(可落地案例 + 源码)
- 
        目标场景:对外提供HTTPAPI的微服务在短时间内收到大量请求(例如每秒数千至数万RPS),要求系统可弹性扩容、限流降级、缓存减压、稳定运行并能自动恢复。总体思路(多层防护):边缘层:云LB... 
- 高并发场景下,Nginx如何扛住千万级请求?
- 
        Nginx是大型架构的必备中间件,下面我重点详解Nginx如何实现高并发@mikechen文章来源:mikechen.cc事件驱动模型Nginx采用事件驱动模型,这是Nginx高并发性能的基石。传统... 
- Spring Boot+Vue全栈开发实战,中文版高清PDF资源
- 
        SpringBoot+Vue全栈开发实战,中文高清PDF资源,需要的可以私我:)SpringBoot致力于简化开发配置并为企业级开发提供一系列非业务性功能,而Vue则采用数据驱动视图的方式将程序... 
- Docker-基础操作_docker基础实战教程二
- 
        一、镜像1、从仓库获取镜像搜索镜像:dockersearchimage_name搜索结果过滤:是否官方:dockersearch--filter="is-offical=true... 
- 你有空吗?跟我一起搭个服务器好不好?
- 
        来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。昨天闲的没事的时候,随手翻了翻写过的文章,发现一个很严重的问题。就是大多数时间我都在滔滔不绝的讲理论,却很少有涉及动手... 
- 部署你自己的 SaaS_saas如何部署
- 
        部署你自己的VPNOpenVPN——功能齐全的开源VPN解决方案。(DigitalOcean教程)dockovpn.io—无状态OpenVPNdockerized服务器,不需要持久存储。... 
- Docker Compose_dockercompose安装
- 
        DockerCompose概述DockerCompose是一个用来定义和管理多容器应用的工具,通过一个docker-compose.yml文件,用YAML格式描述服务、网络、卷等内容,... 
- 京东T7架构师推出的电子版SpringBoot,从构建小系统到架构大系统
- 
        前言:Java的各种开发框架发展了很多年,影响了一代又一代的程序员,现在无论是程序员,还是架构师,使用这些开发框架都面临着两方面的挑战。一方面是要快速开发出系统,这就要求使用的开发框架尽量简单,无论... 
- Kubernetes (k8s) 入门学习指南_k8s kubeproxy
- 
        Kubernetes(k8s)入门学习指南一、什么是Kubernetes?为什么需要它?Kubernetes(k8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序。它... 
欢迎 你 发表评论:
- 一周热门
- 
                    - 
                            
                                                                抖音上好看的小姐姐,Python给你都下载了
- 
                            
                                                                全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
- 
                            
                                                                Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
- 
                            
                                                                python入门到脱坑 输入与输出—str()函数
- 
                            
                                                                宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
- 
                            
                                                                Python三目运算基础与进阶_python三目运算符判断三个变量
- 
                            
                                                                (新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
- 
                            
                                                                慕ke 前端工程师2024「完整」
- 
                            
                                                                失业程序员复习python笔记——条件与循环
- 
                            
                                                                8÷2(2+2) 等于1还是16?国外网友为这道小学数学题吵疯了……
 
- 
                            
                                                                
- 最近发表
- 标签列表
- 
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
 
