百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

使用 python 抓取豆瓣电影 selenium 版本

off999 2024-09-27 13:49 38 浏览 0 评论

使用 python 抓取豆瓣电影 selenium 版本

关键词:python 、 selenium 、 requests模块 、 BeautifulSoup模块 、 pandas模块

开发环境:PyCharm

版本:python 3.9.5

有言在先

!!!仅供学习,请勿高频率抓取网站内容,以免造成目标站点瘫痪,如不遵守与作者无关

前言

国庆前夕,老板扔了一份5000部的电影名称表格过来,要求在8号上班前整理完电影对应的图片、评分、上应国家、导演、演员、宣传短视频等。我细想了一下,按1部电影2分钟进行收集,5000部不吃不喝也得7天,重点是处理完,手也就残废了,单身20多年的我,怎么可以让手残废呢,经过3分钟的思考后,我决定用只要是人都会的 python 进行编写代码,让机器自动进行收集。经过1分钟的编码与调试,1小时后,5000部电影数据分毫不差摆在我眼前,可以开开心心出去玩耍了...

效果图

电影数据

关键代码

headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" }

options = webdriver.ChromeOptions()
# 防止被识别为自动化程序
options.add_argument('--disable-blink-features=AutomationControlled')
# 使用 chromedriver 插件进行初始化页面
request_url = db_url.format(**{"movieName":videoName})
driver.get(request_url)
# 使用 BeautifulSoup 进行节点分析
soup_detail = BeautifulSoup(driver_details.page_source, "lxml")
# 获取演员信息
for item in soup_detail.select('span.actor > span.attrs a'):
  if str(item.text).find('更多') == -1:
      stars += item.text + '/'
      
# 影片类型
for item in driver_details.find_elements_by_xpath('//div[@id="info"]/span[@property="v:genre"]'):
    type += item.text + '/'

# 上映国家
upCountry = soup_detail.find('span',text='制片国家/地区:').next_sibling.strip()

# 电影评分
ratingNum = soup_detail.select_one('strong.rating_num').text

# 下载图片
try:
    downloadImg = requests.get(fileUrl, headers=headers)
    with open(rootImg + '\\' + fileName,'wb') as f:
        f.write(downloadImg.content)
except Exception as e:
    print(e)    

关联阅读

完整代码

链接: https://pan.baidu.com/s/1qqajwOGw151XoESGTs8GsQ 提取码: xma8 复制这段内容后打开百度网盘手机App,操作更方便哦

相关推荐

戴尔官网官方网站(戴尔产品官网)

查询步骤如下:1.在戴尔电脑的后盖上找到服务编号,并记录下来。2.之后搜索戴尔官网,在打开的官网界面中点击上方的支持选项,并点击产品支持。3.在打开的产品支持界面中,输入电脑后盖上的服务编号。4.如果...

黑鲨u盘重装系统教程(黑鲨u盘重装系统步骤8)

U盘重装WIn10系统:1、用【u深度u盘启动盘制作工具】制作u盘启动盘,插入电脑usb接口,设置好开机启动项进入u深度主菜单界面,选择“【02】u深度win8pe标准版(新机器)”并回车,2、在u深...

电子邮件免费注册入口(电子邮件在线注册)

1.在网页上搜索maiI163邮箱登录,如果有邮箱账号密码的话就直接输入并点击“登录”,没有的话就点击“立即注册”。2.点击“立即注册”后进入页面,输入信息点击“注册”。3.注册成功后就直接搜索登录。...

win7如何快速启动(windows7如何快速启动)
win7如何快速启动(windows7如何快速启动)

打开操作系统运行:输入"cmd"并点击回车:系统命令提示符自动打开:使用方法直接运行start打开一个新的命令提示符窗口:运行start+文件的绝对存储路径打开对应的文件:运行start+文件夹路径打开对应...

2025-12-29 13:03 off999

怎么升级到win11(怎么升级到win11专业版)

Windows11可以在「开始菜单-设置-Windows更新」中进行手动更新。如果您想主动更新,需先确保您的电脑符合Windows11的最低系统要求。接着,打开「Windows更...

微信好友误删了怎么加回来(微信好友误删了怎么加回来免费)

看到他的评论的话,你可以去你发过的内容里去看看。<br/><br/>好友验证的消息、语音)或者朋友圈内容:<br/>如果你这个朋友喜欢和你在朋友圈聊天的话,你他的手机号也有的话方法添加里输入就可...

access安装包(access安装包怎么安装)
access安装包(access安装包怎么安装)

要下载并安装MicrosoftAccess,可以按照以下步骤进行操作:1.打开您的电脑的浏览器(如谷歌浏览器、火狐浏览器等)。2.在浏览器的搜索栏中输入"下载MicrosoftAccess"。3.从搜索结果中选择适...

2025-12-29 11:51 off999

云骑士装机大师官方网站(云骑士装机大师软件下载)

就是感觉正规吧,还有就是小白那种的比较多,专业店一忽悠就掏钱做系统了。懂装机的哪有花钱去装系统的不靠谱,因为会造成个人信息的泄露。云骑士装机大师是网络装机系统,在网络上能够实现一键装机,非常的简洁方便...

万能钥匙下载免费(安心上网万能钥匙下载免费)

行1.使用手机功能表中自带的浏览器上网,直接搜索需要的软件进行下载安装(下载安卓版本格式为apk)。2.使用电脑下载APK格式的安装包,连接数据线传输至手机,操作手机在应用程序-我的文件中找到安装包,...

500兆宽带用什么路由器(家用路由器什么牌子好 信号强)

1、飞鱼星千兆无线路由器家用2600M双频企业级高速穿墙500M光纤游戏加速VW1900/千兆双频/1900M/大型企业路由器无线500m推荐理由:可以提供企业级别的性能,空旷环境覆盖更广大,...

xp系统怎么卸载软件(xp怎么卸载程序)

1、选中此电脑,点击鼠标右键。2、选择属性点击一下。3、在打开的界面选择控制面板。4、点击程序选项下方的卸载。5、选择要卸载的程序软件,点击鼠标右键。6、点击弹出的选项卸载/更改。7、也可以使用电脑管...

笔记本电脑系统修复软件(笔记本电脑程序修复)

1、超级兔子2013系统修复软件超级兔子是一款完整的系统维护工具。拥有电脑系统评测、垃圾清理和注册表清理、可疑文件和插件检测、网页防护等功能,同时自带一些实用的系统工具,可清理你大多数的文件、注册表里...

联想保修服务包括哪些(联想保修都保修什么)

1、保修36个月的硬件包括:CPU、内存。2、保修24个月的硬件包括:主板、显卡、LCD屏、硬盘、电源适配器、键盘、鼠标模块。3、保修12个月的硬件包括:LCD之附件、光驱、DVD、CDR/W、软驱...

系统科学大会(中国系统科学学会)

2021年各种科学大会的召开时间取决于疫情的发展和国家政策的调整。一些大型的国际科学会议可能会推迟或者采用线上形式进行,以保障参会人员的安全和健康。同时,一些国内的学术会议也会受到疫情的影响,需要推迟...

win10系统下载的内容在哪(win10下载的软件在哪个文件夹)

进入C:\Windows\SoftwareDistribution\Download目录下,通过win10应用商店中下载的安装包都放在此目录下。进入C:\Windows\SoftwareDistrib...

取消回复欢迎 发表评论: