百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python爬虫练习,爬取豆瓣最受欢迎的250部电影,并保存至excel

off999 2024-12-01 02:18 34 浏览 0 评论

简介

目标:使用 BeautifulSoup + Reuqests,爬取豆瓣上评分最高的250部电影,并保存到excel表格中。

requests库,参考前面文章:python爬虫之reuqests库

BeautifulSoup库,参考前面文章:python爬虫之Beautiful Soup库

一、创建xls表格

需要用到xlwt库,没安装的话,安装即可

pip install xlwt

创建空表格

#创建一个excel表格,定义编码为utf-8,默认为ASCII编码
excl=xlwt.Workbook(encoding='utf-8')
movie=excl.add_sheet('movie top 250')
movie.write(0,0,'排名')
movie.write(0,1,'名称')
movie.write(0,2,'导演演员')
movie.write(0,3,'评分')
movie.write(0,4,'链接')

二、创建请求函数

这里创建douban_re的函数,包括链接和headers,用于访问页面。

def douban_re(url):
    headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/65.0.3325.162 Safari/537.36'}
    re=requests.get(url=url,headers=headers)
    return re.text

三、提取数据并存入excel表格

同样创建一个函数,BeatifulSoup 解析数据,然后用循环的方式依次追加内容到表中。

需要先分析页面信息

获取页面内容,具体可以参考文章:python爬虫之Beautiful Soup库

def write_excel(soup):
    list=soup.find(class_='grid_view').find_all('li')
    for item in list:
        item_num=item.find('em').string
        item_name=item.find(class_='title').string
        item_act=item.find('p').text.replace(' ','')
        item_sc=item.find(class_='rating_num').string
        item_link=item.find('a')['href']
        #print("排名:"+item_num,"\n电影名称:"+item_name,item_act,item_sc,item_link)
        #获取内容循环追加到表中。
        global n
        movie.write(n,0,item_num)
        movie.write(n,1,item_name)
        movie.write(n,2,item_act)
        movie.write(n,3,item_sc)
        movie.write(n,4,item_link)
        n = n+1


四、循环多个页面的内容

分析网址信息:

#首页
https://movie.douban.com/top250?start=0&filter=
#第二页
https://movie.douban.com/top250?start=25&filter=
#第三页
https://movie.douban.com/top250?start=50&filter=

可以发现就start=25的数字不同,同样用循环的方式依次访问页面即可。

创建访问页面函数main,在后面调取循环的页面数即可。

def main(page):
    url='https://movie.douban.com/top250?start='+str(page*25)+'&filter='
    #url='https://movie.douban.com/top250'
    html=douban_re(url)
    soup=BeautifulSoup(html,'lxml')
    write_excel(soup)

if __name__=='__main__':
    for i in range(0,10):
        main(i)


五、完整代码

import requests
from bs4 import BeautifulSoup
import xlwt

excl=xlwt.Workbook(encoding='utf-8')
movie=excl.add_sheet('movie top 250')
movie.write(0,0,'排名')
movie.write(0,1,'名称')
movie.write(0,2,'导演演员')
movie.write(0,3,'评分')
movie.write(0,4,'链接')

n=1

def douban_re(url):
    headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/65.0.3325.162 Safari/537.36'}
    re=requests.get(url=url,headers=headers)
    return re.text

def write_excel(soup):
    list=soup.find(class_='grid_view').find_all('li')
    for item in list:
        item_num=item.find('em').string
        item_name=item.find(class_='title').string
        item_act=item.find('p').text.replace(' ','')
        item_sc=item.find(class_='rating_num').string
        item_link=item.find('a')['href']
        #print("排名:"+item_num,"\n电影名称:"+item_name,item_act,item_sc,item_link)
        global n
        movie.write(n,0,item_num)
        movie.write(n,1,item_name)
        movie.write(n,2,item_act)
        movie.write(n,3,item_sc)
        movie.write(n,4,item_link)
        n = n+1

def main(page):
    url='https://movie.douban.com/top250?start='+str(page*25)+'&filter='
    #url='https://movie.douban.com/top250'
    html=douban_re(url)
    soup=BeautifulSoup(html,'lxml')
    write_excel(soup)

if __name__=='__main__':
    for i in range(0,10):
        main(i)

excl.save('movie_top_250.xls')


最后excl.save保存并命令即可,注:xlwt只能创建保存为xls格式的表,不能保存xlsx格式的表格

执行结果,得到一个名称为movie_top_250.xls的表格,打开表格。

相关推荐

u盘被写保护怎么消除(u盘被写保护了咋办)
  • u盘被写保护怎么消除(u盘被写保护了咋办)
  • u盘被写保护怎么消除(u盘被写保护了咋办)
  • u盘被写保护怎么消除(u盘被写保护了咋办)
  • u盘被写保护怎么消除(u盘被写保护了咋办)
小米平板1(小米平板1刷安卓10稳定版)

小米平板1有开发版。具体来说,小米平板1最初发布时,已经提供了一套完整的ROM(即”MIUI“系统)供用户使用,这套系统包含了越来越多的功能,以满足用户的需求。同时,小米也会发布一些针对开发人员的版本...

华为万能钥匙wifi免费下载(华为万能钥匙wifi免费下载官方)
  • 华为万能钥匙wifi免费下载(华为万能钥匙wifi免费下载官方)
  • 华为万能钥匙wifi免费下载(华为万能钥匙wifi免费下载官方)
  • 华为万能钥匙wifi免费下载(华为万能钥匙wifi免费下载官方)
  • 华为万能钥匙wifi免费下载(华为万能钥匙wifi免费下载官方)
配置windows update已完成100%

楼主我的情况跟你类似我是删除了windows更新清理文件15g左右然后昨天删除之后正常关机,今天早上一来电脑开机然后就一直在“配置Windowsupdate已完成100%请勿关闭计算...

自己制作pe系统(自己制作pe系统最简单三个步骤)

1,在搜索框输入pe系统,下载pe的制作软件2,点击下载按钮3,安装完了以后一般会有个启动图标4,打开PE制作软件,插上U盘,软件会自动识别,点击开始制作按钮5,也可以点击高级设置按钮6,在高级界面可...

阿里云盘ios版(阿里云盘 安卓版)

阿里云盘目前是可以使用ipad的。iPad可以下载阿里云盘。阿里云盘是一款速度快、不打扰、够安全、易于分享的网盘,由阿里巴巴集团出品。阿里云盘最大的亮点就是全员不限速,曾公布“无论免费付费,未来都不...

惠普打印机怎么用(惠普打印机怎么用微信打印文件)

1、首先要确保打印机在电脑里的程序安装完成,以及数据线连接正常。2、将需要扫描的文件放置在打印机面板上,并盖好盖子。3、打开“我的电脑”,找到控制面板进入,锁定“硬件和声音”功能。点击“查看设备的打印...

老电脑装xp打不开网站(老电脑装xp打不开网站怎么回事)

原因分析及解决方法:1.宽带未连接。重新连接宽带。2.路由器故障。拆除路由器后,进行宽带连接试用。3.偶发性故障,如ADSL断流,电脑内存数据溢出等。重启电脑、modem试用。4.浏览器故障,应用不恰...

win7系统破解激活工具(windows7破解激活)

方法如下:1、开机到欢迎界面时,按Ctrl+Alt+Delete,跳出帐号窗口,输入用户名:administrator,回车。2、如果这个帐号也有密码采用开机启动时按F8选“带命令行的安全模式”。...

怎么制作winpeu盘启动盘(制作winpe启动盘有什么作用)

我们应先理解U盘启动盘:简单理解就是用U盘启动盘代替电脑以前的光驱,所以它只有3个最基本的功能:1、帮助电脑正常启动。比如电脑无限在启动界面循环;2、格式化硬盘。格式化硬盘所有分区,再重新分区;3、重...

磁力搜索引擎入口(磁力搜索器引擎)

01.磁力熊磁力熊,是一个内容丰富、功能最为强大的一个磁力搜索网站,通过它不仅仅可以搜索到大量纯净的1080P高分电影,像一些比较小众的影视剧这里也都能找到。02.夕阳小站夕阳小站,虽然网站整体界面设...

手机变成安全模式怎么解除(手机变成安全模式是怎么回事)

解除比较安全模式的方法主要有三种:1、按电源键长按机器会弹出重启菜单,将手机重启即可解除比较安全模式。2、查询手机操作手册,进入设置里找到“比较安全模式”,可以改变比较安全模式的状态,即可解除比较安全...

win7官方最小精简版(最小win7精简版系统239m)
win7官方最小精简版(最小win7精简版系统239m)

推荐win7系统精简版一、雨林木风系统v1906雨林雨林木风GhostWin7SP1旗舰版一如既往注重稳定与安全,本次6月版本更新优化注册表增强系统运行效率,不对系统关键文件进行修改保证稳定性,关闭系统可能会感染病毒的端口,更新最新...

2026-01-11 14:51 off999

华硕牌子电脑怎么样(华硕牌子电脑怎么样值得买吗)

1、华硕笔记本电脑在市场上有很高的认知度和认可度。除了在零售市场有出色口碑外,在特殊领域华硕笔记本一样有惊人的表现;2、华硕笔记本电脑的优点在于它的主板性能好还有就是它的散热效果也不错,性能比较稳定;...

两个文件夹内容自动同步(两个文件夹内容自动同步,删除不了)

D:盘中点右键,新建公文包B,将文件夹A拖到公文包B中。如果以后文件夹A中的文件修改了,打开公文包B,点菜单上的“公文包、全部更新”。则公文包B就会自动更新文件,与文件夹A中的保持一致。这种方法可以有...

取消回复欢迎 发表评论: