Python爬虫技术:爬取你爱看的那些电影,将数据保存到excel表格
off999 2024-12-01 02:18 24 浏览 0 评论
爬虫从本质上来说,就是利用程序在网上拿到对我们有价值的数据。实际上爬虫就是使用编程语言所编写的程序,作用是从网络上获取有价值的数据,重要的就是速度比手动获取数据快。
浏览器的工作原理
爬虫的工作原理其实就是把人工的操作变成了程序操作。
爬虫的工作步骤
(1)输入网址,发起请求,得到数据
(2)用程序把得到的数据进行解析
(3)从数据中提取想要的数据
(4)进行数据存储,便于日后的使用和分析
了解了爬虫的原理,我们一起去如何进行数据的抓取吧?
import requests
from bs4 import BeautifulSoup
import openpyxl
header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}#请求头,模拟浏览器行为进行操作。越过服务器的反爬
response=requests.get('https://movie.douban.com/',headers=header)#根据请求方法用get方法进行发送请求,并获得响应值。headers=header用关键字传参
#
# print('响应状态码',response.status_code)
# print(response.request.headers)#查看请求头
# print(response.text)#查看响应文本
bs=BeautifulSoup(response.text,'html.parser')#html.parser 解析html。
# print(type(bs))
# title=bs.find('td',class_='title')#查找单个电影
# print(title.text)#输出结果
# title=bs.find_all('td',class_='title')
list=[['编号','电影名称','地址']]#声明列表中的头
title=bs.find('div',class_='billboard-bd')#查找标签
all_titel=title.find_all('tr')#查找div'标签 属性为 class='billboard-bd' 下的所有的tr
for i in all_titel:#遍历查找符合条件的电影
myid=i.find('td',class_='order')#查找电影id
mytitle=i.find('td',class_='title')#查找电影名称
url=i.find('a')['href']#查找地址连接
# print( myid.text,mytitle.text,url)
# title1=i.find('td',class_='title')
list.append([myid.text,mytitle.text,url])#将数据添加到列表中
# print(list)
#*****************存储到excel表格中
wb=openpyxl.Workbook()#创建一个工作薄
sheet=wb.active#创建一个工作表
sheet.title='电影'#为sheet页起名
for i in list:
sheet.append(i)#将列表中的内容存储到文件
wb.save('films.xlsx')#保存电影相关推荐
- 小米平板1(小米平板1刷安卓10稳定版)
-
小米平板1有开发版。具体来说,小米平板1最初发布时,已经提供了一套完整的ROM(即”MIUI“系统)供用户使用,这套系统包含了越来越多的功能,以满足用户的需求。同时,小米也会发布一些针对开发人员的版本...
- 配置windows update已完成100%
-
楼主我的情况跟你类似我是删除了windows更新清理文件15g左右然后昨天删除之后正常关机,今天早上一来电脑开机然后就一直在“配置Windowsupdate已完成100%请勿关闭计算...
- 自己制作pe系统(自己制作pe系统最简单三个步骤)
-
1,在搜索框输入pe系统,下载pe的制作软件2,点击下载按钮3,安装完了以后一般会有个启动图标4,打开PE制作软件,插上U盘,软件会自动识别,点击开始制作按钮5,也可以点击高级设置按钮6,在高级界面可...
- 阿里云盘ios版(阿里云盘 安卓版)
-
阿里云盘目前是可以使用ipad的。iPad可以下载阿里云盘。阿里云盘是一款速度快、不打扰、够安全、易于分享的网盘,由阿里巴巴集团出品。阿里云盘最大的亮点就是全员不限速,曾公布“无论免费付费,未来都不...
- 惠普打印机怎么用(惠普打印机怎么用微信打印文件)
-
1、首先要确保打印机在电脑里的程序安装完成,以及数据线连接正常。2、将需要扫描的文件放置在打印机面板上,并盖好盖子。3、打开“我的电脑”,找到控制面板进入,锁定“硬件和声音”功能。点击“查看设备的打印...
- 老电脑装xp打不开网站(老电脑装xp打不开网站怎么回事)
-
原因分析及解决方法:1.宽带未连接。重新连接宽带。2.路由器故障。拆除路由器后,进行宽带连接试用。3.偶发性故障,如ADSL断流,电脑内存数据溢出等。重启电脑、modem试用。4.浏览器故障,应用不恰...
- win7系统破解激活工具(windows7破解激活)
-
方法如下:1、开机到欢迎界面时,按Ctrl+Alt+Delete,跳出帐号窗口,输入用户名:administrator,回车。2、如果这个帐号也有密码采用开机启动时按F8选“带命令行的安全模式”。...
- 怎么制作winpeu盘启动盘(制作winpe启动盘有什么作用)
-
我们应先理解U盘启动盘:简单理解就是用U盘启动盘代替电脑以前的光驱,所以它只有3个最基本的功能:1、帮助电脑正常启动。比如电脑无限在启动界面循环;2、格式化硬盘。格式化硬盘所有分区,再重新分区;3、重...
- 磁力搜索引擎入口(磁力搜索器引擎)
-
01.磁力熊磁力熊,是一个内容丰富、功能最为强大的一个磁力搜索网站,通过它不仅仅可以搜索到大量纯净的1080P高分电影,像一些比较小众的影视剧这里也都能找到。02.夕阳小站夕阳小站,虽然网站整体界面设...
- 手机变成安全模式怎么解除(手机变成安全模式是怎么回事)
-
解除比较安全模式的方法主要有三种:1、按电源键长按机器会弹出重启菜单,将手机重启即可解除比较安全模式。2、查询手机操作手册,进入设置里找到“比较安全模式”,可以改变比较安全模式的状态,即可解除比较安全...
-
- win7官方最小精简版(最小win7精简版系统239m)
-
推荐win7系统精简版一、雨林木风系统v1906雨林雨林木风GhostWin7SP1旗舰版一如既往注重稳定与安全,本次6月版本更新优化注册表增强系统运行效率,不对系统关键文件进行修改保证稳定性,关闭系统可能会感染病毒的端口,更新最新...
-
2026-01-11 14:51 off999
- 华硕牌子电脑怎么样(华硕牌子电脑怎么样值得买吗)
-
1、华硕笔记本电脑在市场上有很高的认知度和认可度。除了在零售市场有出色口碑外,在特殊领域华硕笔记本一样有惊人的表现;2、华硕笔记本电脑的优点在于它的主板性能好还有就是它的散热效果也不错,性能比较稳定;...
- 两个文件夹内容自动同步(两个文件夹内容自动同步,删除不了)
-
D:盘中点右键,新建公文包B,将文件夹A拖到公文包B中。如果以后文件夹A中的文件修改了,打开公文包B,点菜单上的“公文包、全部更新”。则公文包B就会自动更新文件,与文件夹A中的保持一致。这种方法可以有...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
