百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python爬虫原理全解析,手把手教你如何获取想要的数据

off999 2024-11-27 18:50 23 浏览 0 评论

第2章 爬虫原理和网页构造

身处于互联网时代,每当打开浏览器连接https://www.baidu.com/的时候,读者可能都不会思考网络正在做什么;面对形形色色的网页,读者也不会去思考网页是如何呈现在大家面前的。俗话说得好,“知己知彼,方能百战不殆”。本章将通过介绍网络连接来解释爬虫的原理,并使用Chrome浏览器认识网页构造并查询网页信息。

本章涉及的主要知识点如下。

·网络连接:介绍网络连接的基本过程。

·爬虫原理:介绍爬虫的基本原理和过程。

·Chrome浏览器:介绍Chrome浏览器的安装,以及使用Chrome浏览器认识网页构造和查询网页信息。

2.1 爬虫原理

现实生活中使用浏览器访问网页时,网络到底做了什么?本节将简单地介绍网络连接原理,并以此介绍爬虫原理。

2.1.1 网络连接

网络连接像是在自助饮料售货机上购买饮料一样:购买者只需选择所需饮料,投入硬币(或纸币),自助饮料售货机就会弹出相应的商品。如图2.1所示,计算机(购买者)带着请求头和消息体(硬币和所需饮料)向服务器(自助饮料售货机)发起一次Request请求(购买),相应的服务器(自助饮料售货机)会返回本计算机相应的HTML文件作为Response(相应的商品)。

注意:这里是一个GET请求。

对于学习爬虫技术,读者只需知道最基本的网络连接原理即可。计算机一次Request请求和服务器端的Response回应,即实现了网络连接。计算机Request请求带着的请求头和消息体是什么以及网络更底层的东西,不是本文所介绍的范围。

图2.1 网络连接原理

2.1.2 爬虫原理

了解网络连接的基本原理后,爬虫原理就很好理解了。网络连接需要计算机一次Request请求和服务器端的Response回应。爬虫也是需要做两件事:

(1)模拟计算机对服务器发起Request请求。

(2)接收服务器端的Response内容并解析、提取所需的信息。

但互联网网页错综复杂,一次的请求和回应不能够批量获取网页的数据,这时就需要设计爬虫的流程。本书中主要用到两种爬虫所需的流程,即多页面和跨页面爬虫流程。

1.多页面爬虫流程

多页面网页结构如图2.2所示。

图2.2 多页面网页结构

有的网页存在多页的情况,每页的网页结构都相同或类似,这种类型的网页爬虫流程为:

(1)手动翻页并观察各网页的URL构成特点,构造出所有页面的URL存入列表中。

(2)根据URL列表依次循环取出URL。

(3)定义爬虫函数。

(4)循环调用爬虫函数,存储数据。

(5)循环完毕,结束爬虫程序,如图2.3所示。

图2.3 多页面网页爬虫流程

2.跨页面爬虫流程

列表页和详细页分别如图2.4和图2.5所示。

图2.4 列表页

图2.5 详细页

这种跨页面的爬虫程序流程为:

(1)定义爬取函数爬取列表页的所有专题的URL。

(2)将专题URL存入列表中(种子URL)。

(3)定义爬取详细页数据函数。

(4)进入专题详细页面爬取详细页数据。

(5)存储数据,循环完毕,结束爬虫程序,如图2.6所示。

图2.6 跨页面网页爬虫流程

2.2 网页构造

本节将介绍如何安装和使用Chrome浏览器,并通过Chrome浏览器的使用简单介绍网页的构成。

2.2.1 Chrome浏览器的安装

Chrome浏览器的安装与普通软件安装一样,不需要进行任何配置。在搜索引擎中输入Chrome,单击下载安装即可。安装完成打开后,会出现如图2.7所示的错误。

图2.7 Chrome浏览器报错

这是因为Chrome浏览器默认的搜索引擎为Google搜索引擎,国内的网络是无法打开的。解决办法如下。

图2.8 Chrome浏览器网页设置1

(1)打开Chrome浏览器,选择“设置”选项。

(2)在“启动时”栏目中,选择“打开特定网页或一组网页”单选按钮。

(3)单击“设置网页”链接,输入常用的搜索引擎或网页,单击“确定”按钮。

(4)退出Chrome浏览器,再打开之后便是设置过后的网页。操作过程如图2.8至图2.10所示。

图2.9 Chrome浏览器网页设置2

图2.10 Chrome浏览器网页设置3

注意:这里笔者设置的为百度搜索网页。

2.2.2 网页构造

现在打开任意一个网页(http://bj.xiaozhu.com/),然后右击空白处,在弹出的快捷菜单中选择“检查”命令,可以看到网页的代码,如图2.11所示。

图2.11 网页构造

现在来分析图2.11,图中上半部分为HTML文件,下半部分为CSS样式,用<script></script>标签的就是JavaScript代码。用户浏览的网页就是浏览器渲染后的结果,浏览器就像翻译官,把HTML、CSS和JavaScript代码进行翻译后得到用户使用的网页界面。如果把网页比喻成房子的话,那么HTML为房子的框架和格局(几室几厅),CSS就是房子的样式(地板、房漆),JavaScript就是房子中的电器。

注意:本文只是简单介绍网页构造,前端语法不做解释。

2.2.3 查询网页信息

打开网页(http://bj.xiaozhu.com/),右击网页空白处,从弹出的快捷菜单中选择“查看网页源代码”命令,即可查看该网页的源代码,如图2.12所示。

图2.12 查看网页源代码

通过在指定元素上右击,然后选择快捷菜单中的“检查”命令,即可查看该元素在网页源代码中的准确位置。例如,查看网页(http://bj.xiaozhu.com/)中第一个租房的房价信息,如图2.13所示。

图2.13 租房信息

把鼠标光标移至价格元素位置,右击,从弹出的快捷菜单中选择“检查”命令,即可查看该元素在网页源代码中的具体位置,如图2.14所示。

图2.14 “检查”元素

相关推荐

Python函数参数和返回值类型:让你的代码更清晰、更健壮

在Python开发中,你是否遇到过这些抓狂时刻?同事写的函数参数类型全靠猜调试两小时发现传了字符串给数值计算函数重构代码时不知道函数返回的是列表还是字典今天教你两招,彻底解决类型混乱问题!让你的...

有公司内部竟然禁用了python开发,软件开发何去何从?

今天有网友在某社交平台发文:有公司内部竟然禁止了python开发!帖子没几行,评论却炸锅了。有的说“太正常,Python本就不适合做大项目”,还有的反驳“飞书全员用Python”。暂且不说这家公司...

写 Python 七年才发现的七件事:真正提高生产力的脚本思路

如果你已经用Python写了不少脚本,却总觉得代码只是“能跑”,这篇文章或许会刷新你对这门语言的认知。以下七个思路全部来自一线实战,没有花哨的概念,只有可落地的工具与习惯。它们曾帮我省下大量无意义...

用Python写一个A*搜索算法含注释说明

大家好!我是幻化意识流。今天我们用Python写一个A*搜索算法的代码,我做了注释说明,欢迎大家一起学习:importheapq#定义搜索节点类,包括当前状态、从初始状态到该状态的代价g、从该状态...

使用python制作一个贪吃蛇游戏,并为每一句添加注释方便学习

今天来设计一个贪吃蛇的经典小游戏。先介绍下核心代码功能(源代码请往最后面拉):游戏功能:-四个难度等级:简单(8FPS)、中等(12FPS)、困难(18FPS)、专家(25FPS)-美...

Python 之父 Guido van Rossum 宣布退休

Python之父GuidovanRossum在推特公布了自己从Dropbox公司离职的消息,并表示已经退休。他还提到自己在Dropbox担任工程师期间学到了很多东西——Python的类型注解(T...

4 个早该掌握的 Python 类型注解技巧

在Python的开发过程中,类型注解常常被忽视。但当面对一段缺乏类型提示、逻辑复杂的代码时,理解和维护成本会迅速上升,极易陷入“阅读地狱”。本文整理了4个关于Python类型注解的重要技巧...

让你的Python代码更易读:7个提升函数可读性的实用技巧

如果你正在阅读这篇文章,很可能你已经用Python编程有一段时间了。今天,让我们聊聊可以提升你编程水平的一件事:编写易读的函数。请想一想:我们花在阅读代码上的时间大约是写代码的10倍。所以,每当你创建...

Python异常模块和包

异常当检测到一个错误时,Python解释器就无法继续执行了,反而出现了一些错误的提示,这就是所谓的“异常”,也就是我们常说的BUG例如:以`r`方式打开一个不存在的文件。f=open('...

别再被 return 坑了!一文吃透 Python return 语句常见错误与调试方法

Pythonreturn语句常见错误与调试方法(结构化详解)一.语法错误:遗漏return或返回值类型错误错误场景pythondefadd(a,b):print(a+b)...

Python数据校验不再难:Pydantic库的工程化实践指南

在FastAPI框架横扫Python后端开发领域的今天,其默认集成的Pydantic库正成为处理数据验证的黄金标准。这个看似简单的库究竟隐藏着哪些让开发者爱不释手的能力?本文将通过真实项目案例,带您解...

python防诈骗的脚本带注释信息

以下是一个简单但功能完整的防诈骗脚本,包含URL检测、文本分析和风险评估功能。代码结构清晰,带有详细注释,适合作为个人或家庭防诈骗工具使用。这个脚本具有以下功能:文本诈骗风险分析:检测常见诈骗关键...

Python判断语句

布尔类型和比较运算符布尔类型的定义:布尔类型只有两个值:True和False可以通过定义变量存储布尔类型数据:变量名称=布尔类型值(True/False)布尔类型不仅可以自行定义,同时也可通过...

使用python编写俄罗斯方块小游戏并为每一句添加注释,方便学习

先看下学习指导#俄罗斯方块游戏开发-Python学习指导##项目概述这个俄罗斯方块游戏是一个完整的Python项目,涵盖了以下重要的编程概念:-面向对象编程(OOP)-游戏开发基础-数据...

Python十大技巧:不掌握这些,你可能一直在做无用功!

在编程的世界里,掌握一门语言只是起点,如何写出优雅、高效的代码才是真功夫。Python作为最受欢迎的编程语言之一,拥有简洁明了的语法,但要想真正精通这门语言,还需要掌握一些实用的高级技巧。一、列表推导...

取消回复欢迎 发表评论: