如何编写python脚本?教你做简单的爬虫,适合初学者
off999 2024-10-21 06:52 25 浏览 0 评论
如何编写python脚本?很多朋友学习python都希望能从爬虫开始,而网络爬虫是近年来的热门话题,学习网络爬虫的人越来越多!
其实,一般的爬虫技术具有2个功能:取数据和存数据!好像我们说了句废话。。。
但从这两个功能进行拓展,需要的知识很多:请求数据,防爬处理,页面解析,内容匹配,绕过验证码,维护登录和数据库等相关知识,今天我们就来谈谈做一个简单的爬虫,需要的一般步骤!!(可以看文章底部哦!)
存数据
先说存储的数据,因为在最初的研究的时候,较少接触,并不需要过于关注,随着后面的学习,我们需要存储大量数据,就需要你学习数据库相关的知识了!这个我们后面再说。
初期,我们能够抓到需要的内容后,只需要保存到本地,无非保存到文档、表格(excel)等等几个方法,这里大家只需要掌握with语句就基本可以保证需求了。基本是这样的:
with open(路径以及文件名,保存模式) as f:f.write(数据)#如果是文本可直接写入,如果是其他文件,数据为二进制模式更好
当然,要保存Excel电子表格或文档就需要使用xlwt(EXCEL),python-docx库(word),这个在网上很多,大家可以自行去学习。(可以看文章底部哦!)
取数据
啰嗦的人那么多,终于到正题,怎么来抓取我们需要的数据呢?别急,一步步来!
通常所说的抓取网站上的内容,是指通过Python脚本实现访问URL地址(请求数据),然后获取它返回的内容(HTML源代码,Json格式的字符串等)。然后通过解析规则(页面解析),分析我们需要的数据并且取(内容匹配)出来。
用python实现爬取数据的功能其实还是很方便的,而且还有很多库来满足我们的需求,例如先用requests库取一个url(网页)的源码
import requests#导入库url = ‘你的目标公司网址‘response = requests.get(url) #请求进行数据print(response.text) #打印出这些数据的文本内容。
通过这些代码就可以得到网页的源代码,但有时会有乱码的情况出现,为什么?
因为抓取的网站大部分是中文网站,也就是包含了中文,但终端并不支持GBK编码,所以在我们打印时就要自己把中文从gbk格式转为终端支持的编码,通常为utf-8编码。
所以需要我们在打印response之前,需要对它进行编码的指定(可以直接使用指定某些代码显示的编码格式为网站网页本身的编码标准格式,比如utf-8,网页编码格式一般都在源代码中的<meta>标签下的charset属性中指定)。加上一行即可
response.encode = ‘utf-8‘ #指定编码格式
到目前为止,我们已经抓取到了网站网页上的源代码,那么下一步就是要在源码中找到我们所需要的那些内容,而这里就要用到各种各样的匹配方式了,几种常用的方法有:正则表达式(RE库),BS4(Beautifulsoup4库),XPath的(LXML库)!
建议我们大家可以从正则开始进行学习,最后一定要通过看看xpath,这个在爬虫技术框架scrapy中用的非常多!
在通过各种匹配方式找到我们的内容后(注意:一般情况下匹配出来的都是列表哦),就到了上面所说的存数据的阶段了,这就完成了一个简单的爬虫!!
当然,也许当我们自己去编写代码的时候,会发现很多我上面并没有说到的内容,例如:
在你去获取别人网站或网页源码时会遇到反爬,很难获取到数据,而且很多网站需要登录后才能拿到内容,等等之类的!
所以,学习本身是一个漫长的过程,我们需要不断的实践来增加我们的学习兴趣,以及学习更扎实的知识! 加油,各位!
如果你需要Python的学习资料,可以看上图,按图中的方式找我就可以拿到了,什么都不要,直接拿就行!
相关推荐
- win10怎么开机进入安全模式(win10开机怎么进安全模式怎么进)
-
进入Windows10安全模式有以下几种方法:方法一:使用开机高级选项1.在按下电源开机键后,持续按住F8键,直到你进入启动选项页面;2.从菜单中选择“安全模式”。方法二:使用系统配置1...
- 华硕电脑怎么重新安装系统(华硕电脑怎么重新安装系统教程)
-
第一步:备份重要数据重装系统前,务必先备份重要的个人数据。你可以将数据保存在外部存储设备上,或者使用云存储服务,确保数据安全可靠。第二步:下载系统镜像为了重装系统,你需要下载华硕笔记本电脑适用的操作系...
- 电脑显示此windows副本不是正版
-
1、第一步在电脑搜索框搜索命令提示符,鼠标右键以管理员的身份运行,2、第二步以管理员身份进去命令提示符之后输入"SLMGR-REARM",3、第三步按回车键可以看到命令已经成功重启一下...
- 电脑怎么复制粘贴按键(电脑复制粘贴按键是哪个)
-
电脑键盘上的粘贴键是:Ctrl+V按键。具体操作:1、以在excel表格中进行复制粘贴操作为例,首先选中需要复制粘贴操作的单元格。2、然后按下键盘上的“Ctrl+C”按键执行复制操作。3、然后将鼠标单...
- 笔记本黑屏但还在运行(笔记本电脑黑屏但运行)
-
具体修复方法:1、直接按下电脑机箱上的启动键让电脑重启,等待重新正常进入系统中。然后打开电脑系统盘,右键点击c盘进入属性设置面板中;2、在硬盘的属性设置中切换到工具标签;3、在查错选项中点击检查错误按...
- 从u盘启动怎么弄bios(u盘怎么在bios启动)
-
1、开启电脑,在电脑出现开机画面的时候连续按下“Esc”键进入BIOS设置;(部分电脑可能会是Delete、F2或F6)2、进入BIOSFEATURESSETUP中,将Boot(启动顺序)设定为U...
- 两台电脑怎么共享文件夹(如何把电脑c盘的存储移到d盘)
-
一、QQ共享简单易行既然使用QQ直接传递文件行不通,那么不妨试试使用QQ的文件共享功能。1.共享文件点击QQ面板的“菜单”→“工具”→“共享文件”命令。在打开的共享文件窗口中,单击“新建共享”按钮,...
- 怎么查看电脑产品密钥(怎么查看自己电脑产品密钥)
-
准备工具:电脑1.打开电脑,在电脑中找到我的电脑选项,双击该选项打开我的电脑进入我的电脑主页面。2.在我的电脑主页面中找到磁盘下方的空白位置,鼠标右键单击该位置调出功能选项框。3.在功能选项框中找到下...
- 不知道密码怎么连接wifi网络
-
不知道WiFi密码怎么连接,如果你不知道WiFi密码的话,那我没有办法连接网络,你必须去找WiFi密码是主人,然后询问密码,只有你得到了最准确的密码以后,你才可以开启你的WiFi网络设置,然后输入正确...
- u盘写了保护怎么把保护删掉了
-
U盘写保护可以通过以下几种方法去除:1.取消U盘的写保护开关。有些U盘上面自带写保护的开关,如果被拨到写保护状态时,就会对U盘进行写保护,这种情况解决的办法最简单,直接将开关拨回原位即可。2.修复...
- 深度ghost精简xp(深度ghost文件)
-
windowsxp下运行ghost方法如下:1、首先把GHOST.EXE程序复制到你的硬盘某区上(不要是C区,假如是E区)。2、然后重新启动电脑,重启过程中按DEL键进入BIOS设置,设置为从光驱启...
- 固态硬盘如何安装(固态硬盘如何安装系统)
-
1、首先要在在机箱内找到固态硬盘安装的电源连接线,是从电脑的电源引出的一根线。形状是扁嘴形上面一般印着一个白色的“P4”2、然后要在主板上找固态硬盘的数据接口,用于数据输入输出,俗称SATA接口,再找...
- windows怎么打开注册表(windows怎么打开注册表管理器)
-
方法一、直接打开注册表1、点击屏幕左下角的“开始”按钮,再点击“运行”;2、或者直接按Win键+R键,打开“运行”对话框;3、在“运行”输入框中输入“regedit”命令;4、这样就能够打开注册表编辑...
- windows7安装windows10(windows7安装光盘下载)
-
在安装Win7时,出现提示“Windows无法安装到这个磁盘。这台计算机的硬件可能不支持启动到此磁盘。请确保在计算机的bios菜单中启用了磁盘的控制器。” 解决方法: 1.如果之前你做过BIOS设置,...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
