百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python爬虫教程,爬取网易云的音乐

off999 2024-12-15 16:04 54 浏览 0 评论

在开始之前,做一点小小的说明哈:

  • 我只是一个python爬虫爱好者,如果本文有侵权,请联系我删除!
  • 本文需要有简单的python爬虫基础,主要用到两个爬虫模块(都是常规的)requests模块selenium模块
  • 建议使用谷歌浏览器,方便进行抓包和数据获取。
    私信小编01即可获取大量Python学习资料

Part1 进行网页分析

首先打开网易云的网页版网易云
然后搜索歌曲,这里我就搜索一首锦零的“空山新雨后”


这时我们来观察网页的url,可以发现s=后面就是我们搜索的关键字


当我们换一首歌,会发现也是这样的,正好验证了我们的想法


所以下一步让我们点进去一首歌,然后进行播放,看看能否直接获取音乐文件的url,如果能,那么直接对url进行requests.get访问,我们就能拿到.mp3文件了
点进第一首“空山新雨后”,我们可以看到有一个“生成外链播放器”


看到这个,我心中一阵激动,仿佛就要大功告成;于是我满怀开心的点了一下,结果。。。


好吧,不过我们不能放弃,来我们分析一下网页
但当我们定位到两个最有可能出现外链的地方时,发现什么都没有


不过作为“规格严格,功夫到家”的传承者,我不能放弃啊,于是我又打开了抓包工具
按照常规套路,我们定位到XHR


点击播放后,出现了一大堆东西,我们要做的就是找到其中的content-type为audio一类的包
功夫不负有心人,在寻找了一(亿)会儿后,我找到了



于是我又满怀开心的复制了这个包对应的Request-URL
粘贴后访问这个url,结果非常满意,这就是我一直在找的url


现在我把那个url贴出来

https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3

Part2 编写爬虫程序

接下来就超级简单了
下面的代码是最常规的操作,应该有爬虫基础的都能看懂;如果有不懂的,注释都在上面

#导入requests包
import requests  

#进行UA伪装
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36'
}

#指定url
url = 'https://m10.music.126.net/20200715163315/a075d787d191f6729a517527d6064f59/ymusic/0552/0f0e/530f/28d03e94478dcc3e0479de4b61d224e9.mp3'

#调用requests.get方法对url进行访问,和持久化存储数据
audio_content = requests.get(url=url,headers=headers).content

#存入本地
with open('空山新雨后.mp3','wb') as f :
    f.write(audio_content)

print("空山新雨后爬取成功!!!")

Part3 更高级的

看到这里,你可能会想,为啥根本没用selenium模块呢?能不能直接爬取任何一首我想要的歌,而不用每首都去费心费力的找一个url呢?当然可以哒!
其实网易云在线播放每首歌曲时,都有一个外链地址,这是不会变的,跟每首歌的唯一一个id绑定在一起,每首歌audio文件的url如下:

url = 'http://music.163.com/song/media/outer/url?id=' + 歌曲的id值 + '.mp3'

id值的获取也很简单,当我们点进每首歌时,上方会出现对应的网址,那里有id值,如下图:


所以只需把上面程序中的url改成新的url即可
如果还想要更好的体验效果,实现在程序里直接搜索歌曲,拿到id值,就需要用到selenium模块
为什么用selenium而不用xpath或bs4?
因为搜索页面的数据是动态加载出来的,如果直接对搜索页面的网页进行数据解析,就拿不到任何数据;以我目前的技术,就只能想到使用万能的selenium模块,下面大概说明一下步骤:

  1. 进行selenium无可视化界面设置
from selenium.webdriver.chrome.options import Options

chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
  1. 导包
import requests
import re
from selenium import webdriver
from time import sleep
  1. 指定歌曲,得到对应搜索页面的url
name = input('请输入歌名:')

url_1 = 'https://music.163.com/#/search/m/?s=' + name + '&type=1'
  1. 获取搜索页面的html文件
#初始化browser对象
browser = webdriver.Chrome(executable_path='chromedriver.exe',chrome_options=chrome_options)

#访问该url
browser.get(url=url_1)

#由于网页中有iframe框架,进行切换
browser.switch_to.frame('g_iframe')

#等待0.5秒
sleep(0.5)

#抓取到页面信息
page_text = browser.execute_script("return document.documentElement.outerHTML")

#退出浏览器
browser.quit()
  1. 用正则模块re匹配html文件中的id值、歌名和歌手
ex1 = '<a.*?id="([0-9]*?)"'
ex2 = '<b.*?title="(.*?)"><span class="s-fc7">'
ex3 = 'class="td w1"><div.*?class="text"><a.*?href=".*?">(.*?)</a></div></div>'

id_list = re.findall(ex1,page_text,re.M)[::2]

song_list = re.findall(ex2,page_text,re.M)

singer_list = re.findall(ex3,page_text,re.M)
  1. 将id值、歌名和歌手封装成一个个元组,写入一个列表中,再进行打印
li = list(zip(song_list,singer_list,id_list))

for i in range(len(li)):
    print(str(i+1) + '.' + str(li[i]),end='\n')
  1. 对满意的id值可得到一个url,再用上面的程序对该url进行requests.get方法访问即可

Part4 小结

终究是我才疏学浅,这个找外链进行爬取的方法也存在很多不足,比如不能在线播放的歌曲是无法下载的。
不过写这样一个小程序练练手,对自己能力的提高确是有极大帮助的。

相关推荐

无线网桥监控安装方法(无线网桥怎么连接监控)

网桥连接无线路由器安装的设置方法如下1.主路由器上网正常,副路由器LAN口插一根网线,另一头连接电脑。主副路由器不需要用网线连接。2.电脑开机输入副路由器背面的设置地址,进入登录界面输入背面的账号密码...

怎么对电脑文件夹加密(怎么对电脑文件夹加密码)

1.右键点要加密的文件或文件夹,然后单击“属性”;2.在“常规”选项卡,点击“高级”。选中“加密内容以便保护数据”复选框;3.在加密文件夹时,系统将询问是否要同时加密它的子文件夹。要如果选择是,那它的...

windows系统下载手机(win10下载手机)

OPPO手机重新下载安装系统:先备份好重要数据!然后手机连接电脑把下载的固件存入手机。然后再长按电源键十秒钟进入关机状态(可拆卸电板的需取下电板然后重新安装)。再同时按住电源键跟音量减键,进入reco...

电脑系统分区怎么分(电脑系统分区怎么分区)

分区是将硬盘分割成不同的逻辑部分,每个分区可以被视为一个独立的存储设备。通过分区,可以更好地管理数据和操作系统。要进行电脑分区,可以按照以下步骤进行:1.确定分区方案:首先需要确定分区的目的和需求。...

电脑显卡怎么选择(电脑显卡怎样选择)

以下是一些通用的方法:1.在硬件层面进行配置:首先需要确认您的主板和操作系统是否支持多GPU并行,以及您的电源是否提供足够的功率支持。在BIOS中启用多GPU选项,并安装正确的驱动程序。然后,通...

设置软件下载(设置软件下载入口)

iphone13app的下载设置1、首先,打开手机桌面的【设置】。2、在设置界面,点击【面容ID与密码】。3、这时设置了键盘锁的会要求你输入键盘锁密码进入。4、进入之后,找到【iTunesStore...

电脑麦克风插孔是哪个(电脑麦克风插那)

1.蓝色的为音频输入口。一般的电脑后面都有三个音频接口:蓝色是音频输入,绿色是音频输出,粉红色麦克风。  2.音频输入(蓝色),为外接光驱.随身听及其它音频输入设备,即可以把外部的设备声音传送至电脑...

ie浏览器打不开网页怎么修复

第一步:打开“运行”输入—〉cmd—〉回车然后把下面这行字符复制到黑色cmd框里面去回车等待dll文件全部注册完成就关闭可以了(下面是要运行的代码):for%1in(%windir%\syste...

mail163邮箱登录入口网页版(mail163手机邮箱登录)

1.首先你要开启网易的POP3/SMTP/IMAP。2.设置完之后你需要网易的客户端授权密码。3.密码会发送至你的绑定手机。4.用发给你的客户端授权密码登录第三方客户端(ios客户端)5.直接登陆,储...

微信一键恢复(微信一键恢复已删好友怎么操作)
  • 微信一键恢复(微信一键恢复已删好友怎么操作)
  • 微信一键恢复(微信一键恢复已删好友怎么操作)
  • 微信一键恢复(微信一键恢复已删好友怎么操作)
  • 微信一键恢复(微信一键恢复已删好友怎么操作)
win7系统序列号怎么查(win7电脑的序列号怎么查)

你可以在cmd命令行窗口中输入以下相关命令,可以得到你要的信息查找主板厂商输入:wmicBaseBoardgetManufacturer查找主板型号输入:wmicBaseBoardgetP...

台式电脑怎么看配置好坏(台式机怎么看配置参数哪里看好坏)

如何分辨电脑配置好坏第一看CPU,CPU从上到下可分为i7,i5,i3等,数字越高越好。第二看显卡和内存,显卡内存现在至少4G或者8G起步,越高越好,第三看硬盘是否是固态,固态要比机械的运行速度快...

下载软件安装不了(为什么下载软件安装不了)

    一:检查手机内存是否充足,如果内存太小,需要更换大容量的SD卡。  二:检查手机是否设置允许安装除手机自带应用商店以外的应用。  方法一:需要从手机自带应用商店下载。  ①点击手机桌面上的应用...

现在建议更新win11吗(应该升级win11吗)

鲁大师更新11靠谱的,他只是给你提供一个方便的升级渠道而已。升级以后能否正常使用,还要看你原来的系统是否是正版。如果原来的系统是正版,升级完成后,可以正常使用。如果原来的系统是盗版,也是可以升级的,只...

windows7旗舰版好用吗(win7旗舰版好用么)

win7旗舰版挺好使的不过现在可以选择更win10。Windows7旗舰版属于微软公司开发的Windows7操作系统系统系列中的功能最高级的版本,也被叫做终结版本,是为了取代WindowsXP...

取消回复欢迎 发表评论: