百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

如何编写python脚本?教你做简单的爬虫,适合初学者

off999 2024-10-21 06:52 19 浏览 0 评论

如何编写python脚本?很多朋友学习python都希望能从爬虫开始,而网络爬虫是近年来的热门话题,学习网络爬虫的人越来越多!

其实,一般的爬虫技术具有2个功能:取数据和存数据!好像我们说了句废话。。。

但从这两个功能进行拓展,需要的知识很多:请求数据,防爬处理,页面解析,内容匹配,绕过验证码,维护登录和数据库等相关知识,今天我们就来谈谈做一个简单的爬虫,需要的一般步骤!!(可以看文章底部哦!)

存数据

先说存储的数据,因为在最初的研究的时候,较少接触,并不需要过于关注,随着后面的学习,我们需要存储大量数据,就需要你学习数据库相关的知识了!这个我们后面再说。

初期,我们能够抓到需要的内容后,只需要保存到本地,无非保存到文档、表格(excel)等等几个方法,这里大家只需要掌握with语句就基本可以保证需求了。基本是这样的:

with open(路径以及文件名,保存模式) as f:f.write(数据)#如果是文本可直接写入,如果是其他文件,数据为二进制模式更好

当然,要保存Excel电子表格或文档就需要使用xlwt(EXCEL),python-docx库(word),这个在网上很多,大家可以自行去学习。(可以看文章底部哦!)

取数据

啰嗦的人那么多,终于到正题,怎么来抓取我们需要的数据呢?别急,一步步来!

通常所说的抓取网站上的内容,是指通过Python脚本实现访问URL地址(请求数据),然后获取它返回的内容(HTML源代码,Json格式的字符串等)。然后通过解析规则(页面解析),分析我们需要的数据并且取(内容匹配)出来。

用python实现爬取数据的功能其实还是很方便的,而且还有很多库来满足我们的需求,例如先用requests库取一个url(网页)的源码

import requests#导入库url = ‘你的目标公司网址‘response = requests.get(url) #请求进行数据print(response.text) #打印出这些数据的文本内容。

通过这些代码就可以得到网页的源代码,但有时会有乱码的情况出现,为什么?

因为抓取的网站大部分是中文网站,也就是包含了中文,但终端并不支持GBK编码,所以在我们打印时就要自己把中文从gbk格式转为终端支持的编码,通常为utf-8编码。

所以需要我们在打印response之前,需要对它进行编码的指定(可以直接使用指定某些代码显示的编码格式为网站网页本身的编码标准格式,比如utf-8,网页编码格式一般都在源代码中的<meta>标签下的charset属性中指定)。加上一行即可

response.encode = ‘utf-8‘ #指定编码格式

到目前为止,我们已经抓取到了网站网页上的源代码,那么下一步就是要在源码中找到我们所需要的那些内容,而这里就要用到各种各样的匹配方式了,几种常用的方法有:正则表达式(RE库),BS4(Beautifulsoup4库),XPath的(LXML库)!

建议我们大家可以从正则开始进行学习,最后一定要通过看看xpath,这个在爬虫技术框架scrapy中用的非常多!

在通过各种匹配方式找到我们的内容后(注意:一般情况下匹配出来的都是列表哦),就到了上面所说的存数据的阶段了,这就完成了一个简单的爬虫!!

当然,也许当我们自己去编写代码的时候,会发现很多我上面并没有说到的内容,例如:

在你去获取别人网站或网页源码时会遇到反爬,很难获取到数据,而且很多网站需要登录后才能拿到内容,等等之类的!

所以,学习本身是一个漫长的过程,我们需要不断的实践来增加我们的学习兴趣,以及学习更扎实的知识! 加油,各位!

如果你需要Python的学习资料,可以看上图,按图中的方式找我就可以拿到了,什么都不要,直接拿就行!

相关推荐

python基础模块三剑客:sys、os、shutil(增加示例代码)

注:上个篇由于不熟悉头条号编辑器,导致示例代码丢失。现在全部以图片的形式加回。有同学问了个问题:在python里如何复制、删除、重命名文件?有个同学知道os.system(),就回答说:os.syst...

Python常用文件操作库使用详解(python 对文件操作)

Python生态系统提供了丰富的文件操作库,可以处理各种复杂的文件操作需求。本教程将介绍Python中最常用的文件操作库及其实际应用。一、标准库核心模块1.1os模块-操作系统接口主要功能:文件...

你知道Python 如何进行高效的代码重构吗?

点赞、收藏、加关注,下次找我不迷路写出高质量的代码是每个程序员的追求。而代码重构作为提升代码质量的重要手段,却常常被新手忽视。很多新手在编写代码时,只关注功能是否实现,却不注重代码的结构和可维护性,...

Python常用内置模块介绍——文件与系统操作详解

Python提供了多个强大的内置模块用于文件和系统操作,下面我将详细介绍最常用的几个模块及其核心功能。1.os模块-操作系统交互os模块提供了与操作系统交互的接口,包括文件/目录操作、进程管理、环...

Python的tarfile模块解压缩.tar/.tar.gz等文件

python中的标准库tarfile模块可以帮助我们快速压缩或者解压后缀为.tar/.tar.gz/.tar.bz2/.tar.xz的文件。01、tarfile核心类与函数介绍使用方法因为tarfil...

批量重命名工具,Bulk Rename Utility软件体验

平常在电脑上处理电子文件,经常在得到文件本身时,没有空闲和精力去为文件重命名,像是一张图片,要作为下一个步骤的素材。而处理完事过后就不理它了,顺手直接丢回收站或者放在硬盘里。但是想把文件存档和提交给上...

照片怎样重命名?方法有四种(照片怎么可以重命名)

照片怎样重命名?照片在我们日常生活中扮演着越来越重要的角色,但是有时候,我们需要对照片进行重命名,以便更好地组织和查找它们,这样也可以大大提高我们的效率。在这篇文章中,我们将介绍四种简单的方法,让你轻...

你需要批量创建文件夹并命名吗,给你推荐几个方法

小李是一家设计公司的项目经理,最近接了一个大项目,需要整理大量的设计稿。每个设计稿都需要单独创建一个文件夹,以方便团队成员协作。手动创建文件夹效率太低,而且容易出错。小李在网上搜索了各种方法,尝试了P...

怎样批量重命名一个工作簿中的所有工作表

上篇文章,Python数据的选取和处理,阅读量93,收藏15,没有评论。目前正在复习Python+Excel实现办公自动化,有兴趣的可以一起讨论,共同提高。花了近4个小时终于把6个分部的统计工作表做好...

Windows如何批量修改文件后缀名(电脑如何批量修改文件后缀名)

在Windows系统中药批量修改文件后缀名的方式非常多,每个方法的优缺点各有不同,下面通过几个常见的方式给大家介绍下,Windows如何批量修改文件后缀名的。给有需要的朋友几个参考。方法一:使用文件资...

Python3+ 变量命名全攻略:PEP8 规范 + 官方禁忌 + 实战技巧,全搞懂!

Python3+变量命名规则与约定详解一、官方命名规则(必须遵守)1.合法字符集变量名只能包含:大小写字母(a-z,A-Z)数字(0-9)下划线(_)2.禁止数字开头合法:user_age,...

python代码实现读取文件并生成韦恩图

00、背景今天战略解码,有同学用韦恩图展示各个产品线的占比,效果不错。韦恩图(Venndiagram),是在集合论数学分支中,在不太严格的意义下用以表示集合的一种图解。它们用于展示在不同的事物群组之...

python学习第二天:用Pycharm新建的第一个程序

分享第一次使用Pycharm学到的内容第一次打开得到上面图片projects:项目customize:自定义plugins:插件learn:学习newproject新建项目聪明如我在插件那里找到了汉...

如何编写第一个Python程序(python第一个代码)

一、第一个python程序[掌握]python:python解释器,将python代码解释成计算机认识的语言pycharm:IDE(集成开发环境),写代码的一个软件,集成了写代码,...

Python文件读写操作详解:从基础到实战

Python文件的读写操作在Python中,文件操作非常常见,可以通过内建的open()函数进行文件的读取、写入、创建等操作。理解文件操作的模式和with语句对于确保代码的简洁性和效率至...

取消回复欢迎 发表评论: