如何编写python脚本?教你做简单的爬虫,适合初学者
off999 2024-10-21 06:52 32 浏览 0 评论
如何编写python脚本?很多朋友学习python都希望能从爬虫开始,而网络爬虫是近年来的热门话题,学习网络爬虫的人越来越多!
其实,一般的爬虫技术具有2个功能:取数据和存数据!好像我们说了句废话。。。
但从这两个功能进行拓展,需要的知识很多:请求数据,防爬处理,页面解析,内容匹配,绕过验证码,维护登录和数据库等相关知识,今天我们就来谈谈做一个简单的爬虫,需要的一般步骤!!(可以看文章底部哦!)
存数据
先说存储的数据,因为在最初的研究的时候,较少接触,并不需要过于关注,随着后面的学习,我们需要存储大量数据,就需要你学习数据库相关的知识了!这个我们后面再说。
初期,我们能够抓到需要的内容后,只需要保存到本地,无非保存到文档、表格(excel)等等几个方法,这里大家只需要掌握with语句就基本可以保证需求了。基本是这样的:
with open(路径以及文件名,保存模式) as f:f.write(数据)#如果是文本可直接写入,如果是其他文件,数据为二进制模式更好
当然,要保存Excel电子表格或文档就需要使用xlwt(EXCEL),python-docx库(word),这个在网上很多,大家可以自行去学习。(可以看文章底部哦!)
取数据
啰嗦的人那么多,终于到正题,怎么来抓取我们需要的数据呢?别急,一步步来!
通常所说的抓取网站上的内容,是指通过Python脚本实现访问URL地址(请求数据),然后获取它返回的内容(HTML源代码,Json格式的字符串等)。然后通过解析规则(页面解析),分析我们需要的数据并且取(内容匹配)出来。
用python实现爬取数据的功能其实还是很方便的,而且还有很多库来满足我们的需求,例如先用requests库取一个url(网页)的源码
import requests#导入库url = ‘你的目标公司网址‘response = requests.get(url) #请求进行数据print(response.text) #打印出这些数据的文本内容。
通过这些代码就可以得到网页的源代码,但有时会有乱码的情况出现,为什么?
因为抓取的网站大部分是中文网站,也就是包含了中文,但终端并不支持GBK编码,所以在我们打印时就要自己把中文从gbk格式转为终端支持的编码,通常为utf-8编码。
所以需要我们在打印response之前,需要对它进行编码的指定(可以直接使用指定某些代码显示的编码格式为网站网页本身的编码标准格式,比如utf-8,网页编码格式一般都在源代码中的<meta>标签下的charset属性中指定)。加上一行即可
response.encode = ‘utf-8‘ #指定编码格式
到目前为止,我们已经抓取到了网站网页上的源代码,那么下一步就是要在源码中找到我们所需要的那些内容,而这里就要用到各种各样的匹配方式了,几种常用的方法有:正则表达式(RE库),BS4(Beautifulsoup4库),XPath的(LXML库)!
建议我们大家可以从正则开始进行学习,最后一定要通过看看xpath,这个在爬虫技术框架scrapy中用的非常多!
在通过各种匹配方式找到我们的内容后(注意:一般情况下匹配出来的都是列表哦),就到了上面所说的存数据的阶段了,这就完成了一个简单的爬虫!!
当然,也许当我们自己去编写代码的时候,会发现很多我上面并没有说到的内容,例如:
在你去获取别人网站或网页源码时会遇到反爬,很难获取到数据,而且很多网站需要登录后才能拿到内容,等等之类的!
所以,学习本身是一个漫长的过程,我们需要不断的实践来增加我们的学习兴趣,以及学习更扎实的知识! 加油,各位!
如果你需要Python的学习资料,可以看上图,按图中的方式找我就可以拿到了,什么都不要,直接拿就行!
相关推荐
- 无线路由器当交换机使用(路由器当交换机用无线wifi还可以上网吗)
-
若您想将无线路由器用作交换机,您可以按照以下步骤操作:1.确保您的无线路由器具有交换器功能。不是所有的无线路由器都具备此功能,请先确保您的设备支持。2.将您的无线路由器与网络中的其他设备连接。通常...
- computer(computer lab)
-
"电脑"这个名称实际上是人们对具有计算功能电子设备的俗称。而计算机(Computer)则是这个设备的正式名称,因为"计算"是其核心功能。在英文中,Computer是指可...
- 电脑重置20多个小时了(重置电脑一直12%)
-
重置电脑时间太长了解决办法如下1、将电脑关机然后开机或者直接点击重启,然后按住DELETE键,电脑会自动进入到BIOS;2、电脑屏幕上会显示两个选项,两个选项一般都在电脑屏幕的右方;3、其中一个选项是...
- 电脑虚拟机是什么(电脑虚拟机有啥用)
-
电脑虚拟机(VirtualMachine,VM),也称为虚拟计算机,是一种软件模拟的计算机,它在现有的计算机硬件上创建一个虚拟的计算机环境。这个虚拟环境可以用来运行操作系统、应用程序等软件,就像是在...
- 键盘图片大图(键盘图片大图清晰)
-
这个是仿苹果机上的无线键盘(妙控一代)的,属于山寨产品。1、在手机的微信或者短信或者其他可以打开键盘的应用中打开键盘,点击键盘左上角的输入法设置图标,页面显示输入法的各种设置功能;2、在输入法的设置...
- win11系统可以更新吗(w11系统可以用了吗)
-
可以1.点击“开始”,打开“设置”。2.找到“更新和安全”,选择“预览体验计划”。3.点击“开始”,需要登录微软账户。4.登录完成后弹出一个升级的渠道,选择dev进行下载win11即可。方法二:首...
- winxp安装系统镜像iso下载(xp的镜像系统怎么安装)
-
要安装一个ISO镜像文件,首先需要将ISO文件挂载到计算机上。在Windows系统中,可以右键点击ISO文件,并选择“挂载”选项,然后打开文件资源管理器就能看到ISO文件被挂载的虚拟驱动器。在Linu...
-
- 海尔电脑系统一键还原(海尔电脑怎么重置系统)
-
第一步:安装驱动程序保障计算机内至少有一个呵呵作系统且保证系统完好,如果有多个呵呵作系统,在呵呵作系统完好的情况下需要在各呵呵作系统内安装驱动程序,如果呵呵作系统为Windows98/ME,则需要安装haier98.exe;如果呵呵作系统为...
-
2025-12-27 01:51 off999
- 拼多多下载安装(拼多多下载安装免费2025版本)
-
一般有人问你有没有拼多多,都是想请你帮忙拼多多平台活动助力。 ...
- 联想电脑安装系统步骤(联想电脑安装系统教程)
-
联想电脑系统重装的方法如下1、制作好U盘启动盘,然后把下载的联想win7系统iso文件直接复制到U盘的GHO目录下:2、在联想电脑上插入U盘,重启后不停按F12或Fn+F12快捷键打开启动菜单,选择U...
- ppt自动生成网站(ppt 自动生成)
-
可以使用以下方法一键生成PPT:1.使用PPT模板:选用一个PPT模板,将图片插入到模板中相应的位置即可。2.使用图像转换器:将多张图片转换成PPT格式,然后将它们放在PPT中的相应位置。3.使用第...
- 最好用的搜索引擎磁力吧(2020年推荐一波好用的磁力搜索引擎)
-
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎的分类有:全文搜索引擎、目录索引类...
- 电脑装不了系统是什么原因(为什么我电脑装不了系统)
-
电脑不能安装新系统的原因可能有多种。可能是由于硬件不兼容,例如新系统需要更高的处理器或内存要求,而电脑的配置不足。另外,可能是由于硬盘空间不足或损坏,导致无法安装新系统。还有可能是由于操作系统安装文件...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
