百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

如何编写python脚本?教你做简单的爬虫,适合初学者

off999 2024-10-21 06:52 31 浏览 0 评论

如何编写python脚本?很多朋友学习python都希望能从爬虫开始,而网络爬虫是近年来的热门话题,学习网络爬虫的人越来越多!

其实,一般的爬虫技术具有2个功能:取数据和存数据!好像我们说了句废话。。。

但从这两个功能进行拓展,需要的知识很多:请求数据,防爬处理,页面解析,内容匹配,绕过验证码,维护登录和数据库等相关知识,今天我们就来谈谈做一个简单的爬虫,需要的一般步骤!!(可以看文章底部哦!)

存数据

先说存储的数据,因为在最初的研究的时候,较少接触,并不需要过于关注,随着后面的学习,我们需要存储大量数据,就需要你学习数据库相关的知识了!这个我们后面再说。

初期,我们能够抓到需要的内容后,只需要保存到本地,无非保存到文档、表格(excel)等等几个方法,这里大家只需要掌握with语句就基本可以保证需求了。基本是这样的:

with open(路径以及文件名,保存模式) as f:f.write(数据)#如果是文本可直接写入,如果是其他文件,数据为二进制模式更好

当然,要保存Excel电子表格或文档就需要使用xlwt(EXCEL),python-docx库(word),这个在网上很多,大家可以自行去学习。(可以看文章底部哦!)

取数据

啰嗦的人那么多,终于到正题,怎么来抓取我们需要的数据呢?别急,一步步来!

通常所说的抓取网站上的内容,是指通过Python脚本实现访问URL地址(请求数据),然后获取它返回的内容(HTML源代码,Json格式的字符串等)。然后通过解析规则(页面解析),分析我们需要的数据并且取(内容匹配)出来。

用python实现爬取数据的功能其实还是很方便的,而且还有很多库来满足我们的需求,例如先用requests库取一个url(网页)的源码

import requests#导入库url = ‘你的目标公司网址‘response = requests.get(url) #请求进行数据print(response.text) #打印出这些数据的文本内容。

通过这些代码就可以得到网页的源代码,但有时会有乱码的情况出现,为什么?

因为抓取的网站大部分是中文网站,也就是包含了中文,但终端并不支持GBK编码,所以在我们打印时就要自己把中文从gbk格式转为终端支持的编码,通常为utf-8编码。

所以需要我们在打印response之前,需要对它进行编码的指定(可以直接使用指定某些代码显示的编码格式为网站网页本身的编码标准格式,比如utf-8,网页编码格式一般都在源代码中的<meta>标签下的charset属性中指定)。加上一行即可

response.encode = ‘utf-8‘ #指定编码格式

到目前为止,我们已经抓取到了网站网页上的源代码,那么下一步就是要在源码中找到我们所需要的那些内容,而这里就要用到各种各样的匹配方式了,几种常用的方法有:正则表达式(RE库),BS4(Beautifulsoup4库),XPath的(LXML库)!

建议我们大家可以从正则开始进行学习,最后一定要通过看看xpath,这个在爬虫技术框架scrapy中用的非常多!

在通过各种匹配方式找到我们的内容后(注意:一般情况下匹配出来的都是列表哦),就到了上面所说的存数据的阶段了,这就完成了一个简单的爬虫!!

当然,也许当我们自己去编写代码的时候,会发现很多我上面并没有说到的内容,例如:

在你去获取别人网站或网页源码时会遇到反爬,很难获取到数据,而且很多网站需要登录后才能拿到内容,等等之类的!

所以,学习本身是一个漫长的过程,我们需要不断的实践来增加我们的学习兴趣,以及学习更扎实的知识! 加油,各位!

如果你需要Python的学习资料,可以看上图,按图中的方式找我就可以拿到了,什么都不要,直接拿就行!

相关推荐

电脑虚拟机是什么(电脑虚拟机有啥用)

电脑虚拟机(VirtualMachine,VM),也称为虚拟计算机,是一种软件模拟的计算机,它在现有的计算机硬件上创建一个虚拟的计算机环境。这个虚拟环境可以用来运行操作系统、应用程序等软件,就像是在...

键盘图片大图(键盘图片大图清晰)

这个是仿苹果机上的无线键盘(妙控一代)的,属于山寨产品。1、在手机的微信或者短信或者其他可以打开键盘的应用中打开键盘,点击键盘左上角的输入法设置图标,页面显示输入法的各种设置功能;2、在输入法的设置...

win11系统可以更新吗(w11系统可以用了吗)

可以1.点击“开始”,打开“设置”。2.找到“更新和安全”,选择“预览体验计划”。3.点击“开始”,需要登录微软账户。4.登录完成后弹出一个升级的渠道,选择dev进行下载win11即可。方法二:首...

winxp安装系统镜像iso下载(xp的镜像系统怎么安装)

要安装一个ISO镜像文件,首先需要将ISO文件挂载到计算机上。在Windows系统中,可以右键点击ISO文件,并选择“挂载”选项,然后打开文件资源管理器就能看到ISO文件被挂载的虚拟驱动器。在Linu...

网易邮箱帐号注册(网易邮箱帐号注册网易游戏)
  • 网易邮箱帐号注册(网易邮箱帐号注册网易游戏)
  • 网易邮箱帐号注册(网易邮箱帐号注册网易游戏)
  • 网易邮箱帐号注册(网易邮箱帐号注册网易游戏)
  • 网易邮箱帐号注册(网易邮箱帐号注册网易游戏)
海尔电脑系统一键还原(海尔电脑怎么重置系统)
海尔电脑系统一键还原(海尔电脑怎么重置系统)

第一步:安装驱动程序保障计算机内至少有一个呵呵作系统且保证系统完好,如果有多个呵呵作系统,在呵呵作系统完好的情况下需要在各呵呵作系统内安装驱动程序,如果呵呵作系统为Windows98/ME,则需要安装haier98.exe;如果呵呵作系统为...

2025-12-27 01:51 off999

拼多多下载安装(拼多多下载安装免费2025版本)

一般有人问你有没有拼多多,都是想请你帮忙拼多多平台活动助力。          ...

联想电脑安装系统步骤(联想电脑安装系统教程)

联想电脑系统重装的方法如下1、制作好U盘启动盘,然后把下载的联想win7系统iso文件直接复制到U盘的GHO目录下:2、在联想电脑上插入U盘,重启后不停按F12或Fn+F12快捷键打开启动菜单,选择U...

ppt自动生成网站(ppt 自动生成)

可以使用以下方法一键生成PPT:1.使用PPT模板:选用一个PPT模板,将图片插入到模板中相应的位置即可。2.使用图像转换器:将多张图片转换成PPT格式,然后将它们放在PPT中的相应位置。3.使用第...

最好用的搜索引擎磁力吧(2020年推荐一波好用的磁力搜索引擎)

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎的分类有:全文搜索引擎、目录索引类...

电脑装不了系统是什么原因(为什么我电脑装不了系统)

电脑不能安装新系统的原因可能有多种。可能是由于硬件不兼容,例如新系统需要更高的处理器或内存要求,而电脑的配置不足。另外,可能是由于硬盘空间不足或损坏,导致无法安装新系统。还有可能是由于操作系统安装文件...

win7忘记开机密码u盘启动(windows7忘记开机密码用u盘)

win7电脑忘记开机密码,之后可以通过PE的方式来进行启动。首先需要找一块U盘,然后再网上下载一个PE系统。把这块U盘做成PE系统启动盘,然后把电脑设置成U盘启动,这样就直接可以进入到系统,进去之后就...

开不了机的手机怎么处理(开不了机的手机怎么处理掉)

方法/步骤手机突然开不了机,先长按开机键,因为有的时候,现在的知道手机,突然关机了,系统一下子在死机状态,等你长了后,手机就会有一下振动的声音,你再放开手,再重新按开机键,就能开机了。如果长按还是开不...

cdlinux手机版(cdlinux最新版0.9.8)

Kali更好。1.首先,Kali是专门为渗透测试和网络安全而设计的操作系统,它拥有广泛的渗透测试工具和资源,使得用户在这个领域有更多的选择和更强大的功能。2.其次,Kali具有更长的发展历史和更大...

电脑cpu处理器排名天梯图(电脑cpu处理器天梯榜)

1.荣耀王者段位:A15处理器(5核GPU版)、A15处理器(4核GPU版)不论是从跑分上还是具体体验上,苹果最新的A15处理器都是佼佼者,CPU和GPU大幅领先于安卓现役旗舰SOC2.王者段位:骁龙...

取消回复欢迎 发表评论: