百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python爬虫三大解析库之XPath解析库通俗易懂详讲

off999 2024-12-14 14:24 19 浏览 0 评论

目录

  • 使用XPath解析库

@(这里写自定义目录标题)

使用XPath解析库

1.简介

??XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言。适用于XML和HTML文档的搜索。
??优点:提供了非常简洁明了的路径选择表达式。还提供了超过100个内建函数,可以匹配大部分的节点。
??官网
??准备工作:需要安装lxml库。


2.常用规则

表达式功能nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取直接子孙节点.选取当前节点..选取当前节点的父节点@选取属性


3.etree模块解析网页简介

??etree是lxml库中的函数,可以自动修正HTML文本。下面是两种导入方法:
??直接读取网页代码进行解析:

from lxml import etree
text = '''
HTML文本
'''
# 将HTML文本转化为可以用etree解析的对象,
html = etree.HTML(text) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码

??读取文本文件进行解析(这里既会自动修正文件,又会补充DOCTYPE声明):

from lxml import etree
html = etree.parse('文本文件路径/文本文件名字.html',etree.HTMLParse()) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码

??用tostring()方法即可输出修正后的HTML代码。

4.选取所有节点,子节点和父节点

(1)选取所有节点

??一般用//开头的XPath规则,就会选择从当前节点开始的所有子孙节点,也就是所有节点。所以要匹配所有的节点代码如下:

a = html.xpath('//*') # 选取所有的节点
b = html.xpath('//a') # 选取所有的a节点,是一个例子

??这里的a和b,也就是xpath方法的返回值是一个列表,每个元素是Element类型,后面跟着节点的名称,是一个可迭代对象。要取出某一个对象,就需要用处理列表的方法进行。

(2)选取子节点

??选取子节点只需要在后面加上/节点名称(选择直接子节点,也就是与其相邻的第一个子节点),如果直接子节点没有就会报错,或者//节点名称(选择所有子孙节点),例子如下:

c = html.xpath('//li/a') # 选取li节点的直接a子节点
d = html.xpath('//li//a') # 选取li节点的所有a子节点

(3)选取父节点

??获取某个节点的父节点有两个方法,一个是用..,另一个是用parent::。
同理,如果没有父节点,就会报错,例子如下:

e = html.xpath('//li/../a') # 选取li节点的父节点下的a节点
f = html.xpath('//li/parent::/a') # 选取li节点的父节点下的直接a节点
g = html.xpath('//li/parent::*/a') # 选取li节点的父节点下的所有a节点


5.属性匹配,文本获取和属性多值匹配

(1)属性匹配

??在选取节点的时候,可以用@符号进行属性过滤,用[@属性名="属性值"]进行实现,例子如下:

s = html.xpath('//li[@class="ming"]') # 选取属性值class="ming"的所有li节点

??要注意的是里面的括号和外面的括号尽量一个用双引号,一个用单引号。

(2)文本获取

??我们用Xpath中的text()方法即可获取节点中的文本。要注意的是获取到的数据可能包括换行符'\n'。

(3)属性多值匹配

??要是属性有多个值的话,用上面的方法就无法匹配了。需要用到contains()函数,包含两个参数,即@属性名和属性值,例子如下:

# 源代码中为<li class="ming1 ming2">
s1 = html.xpath('//li[contains(@class,"ming1")]') # 选取属性值class="ming1"的所有li节点
s2 = html.xpath('//li[contains(@class,"ming2")]') # 选取属性值class="ming2"的所有li节点


6.属性获取和多属性匹配

(1)属性获取

??属性获取直接用@获取即可,例子如下:

s = html.xpath('//li/a/@href]') # 获取所有li节点下的直接a子节点的href属性

(2)多属性匹配

??有时候需要根据多个属性值确定一个节点,就需要同时匹配多个属性。要用and进行连接,可以把contains(@属性名,"属性名")和@属性名="属性值"混合使用,例子如下:

# 选取所有属性值class="a"和_target="ming"的li节点下的所有a节点的href属性
two_s = html.xpath('//li[contains(@class,"a") and @_target="ming"]//a/@href')


7.按次序选择

??有时候选择到的某些属性可能同时匹配了多个节点,但是要想得到其中的某一个节点,该如何获取呢?可以用中括号传入索引的方法获取特定次序的节点。下面是一些常用方法的总结:

方法功能[n]选取第n个节点,序号是以1开头的[last()]选取最后一个节点[position() < n]选取位置小于n的节点,这里可以用算术运算符进行选择[last() - n]选取倒数第n+1个节点,由于last()是倒数第一个,则last() - n就是倒数第n+1个


8.节点轴选择

??由于网页代码是一个DOM树,因此可以用相对的位置进行选择节点的子节点,兄弟节点,父节点或者祖先节点等。python的节点轴选择常用的如下:

节点轴选择节点ancestor:: *获取所有祖先节点ancestor::条件获取指定条件的祖先节点attribute:: *获取节点的所有属性attribute::属性名获取节点的指定属性child:: *获取所有子节点child::条件获取指定条件的子节点descendent:: *获取所有的子孙节点descendent::条件获取指定条件的子孙节点following:: *获取当前节点之后的所有节点following:: *[n]获取当前节点之后的第n个节点following-sibing:: *获取当前节点之后的所有同级节点following-sibing::条件获取当前节点之后指定条件的所有同级节点


9.开发者工具查看xpath选择器路径

??用F12打开开发者工具,按才Copy->Copy Xpath就可以把该段代码的XPath路径代码复制下来,很方便。

最后,小编想说:我是一名python开发工程师,整理了一套最新的python系统学习教程,想要这些资料的可以关注私信小编“01”即可,希望能对你有所帮助。

相关推荐

电脑主机不启动但通电(电脑主机开机不通电没反应)

第1步:首先检查电脑的外部接线是否接好,把各个连线重新插一遍,看故障是否排除。第2步:如果故障依旧,接着打开主机箱查看机箱内有无多余金属物,或主板变形造成的短路,闻一下机箱内有无烧焦的糊味,主板上有无...

苹果一体机怎么重装系统(苹果一体机重装系统win10)

苹果更换硬盘后,如果您没有创建一个启动磁盘或者使用TimeMachine备份系统,您可以按照以下步骤重新安装操作系统:1.准备一个可用于安装系统的启动磁盘。您可以使用官方提供的macOS安装介质(...

装系统的u盘怎么制作(装系统怎么制作u盘启动盘)
装系统的u盘怎么制作(装系统怎么制作u盘启动盘)

1、下载安装u当家u盘启动盘制作工具,完成之后打开该软件2、将之前准备好的U盘插入电脑,U当家会自动识别并选为默认,如果有多个U盘可以在“选择U盘”的下拉框中选择要制作成U盘启动盘的U盘。3、点击下面的“一键制作”按钮。(如果是电脑主板是U...

2025-11-15 07:03 off999

台电u盘怎么样

感觉台电U盘还是可以的,我知道台电是国内最成功的数码产品制造商之一,是一个致力于IT及消费数码类产品研发、生产、销售及服务的一体化品牌,U盘很好用,用的人很多。威刚是480Mbit/S只是USB2...

u盘重装系统蓝屏进不去(u盘装系统重启蓝屏)

尊敬的用户您好:可按下面的步骤进行系统盘装系统:1.买一张win7光盘,将系统光盘放入光驱里。2.打开电源,然后观察屏幕的提示,在启动系统之前有按“f2进行bios设置。3.设置启动方式。找到boot...

win快捷键大全(win快捷键大全表)

win快捷键:单独按Windows:显示或隐藏“开始”功能表Windows+BREAK:显示“系统属性”对话框Windows+D:显示桌面或恢复桌面Windows+M:最小化所有窗口Windows...

u盘突然要格式化怎么回事(用着的u盘突然要格式化)

U盘提示格式化的原因可能有以下几点:文件系统损坏:U盘的文件系统可能出现损坏,导致无法正常读取和写入数据。病毒感染:U盘可能被病毒感染,病毒会破坏文件系统或隐藏文件。不兼容的文件系统:U盘可能使用了一...

路由器pppoe怎么设置(路由器如何设置pppoe上网)

移动宽带PPPOE是不用设置的,你只要把帐号和密码填上其他都不选就能上网。但是要注意连接到你电脑的网线是直接经过一个路由器后连接到猫上的,因为我见过有人是这样连接的猫---路由器---路由器---电脑...

win7桌面图标设置在哪里(win7桌面图标在哪个文件夹)

要调出Win7桌面图标,首先需要进入桌面。可以通过点击任务栏上方的“显示桌面”按钮或按下Windows键+D快捷键进入桌面。在桌面上右键单击空白区域,选择“个性化”,然后选择“更改桌面图标”选项。在弹...

win7手机壁纸(windows7手机桌面主题)

1.首先我们打开手机进入到桌面,找到设置图标点击打开。华为手机如何设置自定义锁屏壁纸2.进入到设置界面之后,点击下方的显示选项。华为手机如何设置自定义锁屏壁纸3.然后我们就可以在显示界面中找到壁纸...

怎么开启路由器wifi(怎么开启路由器的dhcp功能)

把路由器改为开放网络方法如下:1、打开浏览器,在地址栏输入路由器网关IP地址(路由器背后的标签上有,一般是192.168.1.1),输入登录用户名和密码(一般均为admin);2、登录成功后就显示运行...

win10加载不出来桌面黑屏(window10加载不出来)

方法一、如果是遇到了突发性黑屏首先尝试使用Ctrl+Alt+Delete组合键来进行电脑重启一般重启可以解决大部分黑屏故障。win10电脑黑屏按什么键恢复_win10电脑黑屏一键恢复的方法方法...

怎么用火绒关闭win安全中心(win10火绒安全软件怎么关闭)

一、火绒防火墙关闭方法在电脑上运行火绒软件后,点击首页界面的“防护中心”,在病毒防护界面可以关闭文件、U盘、邮件等保护功能,。系统防护:在该界面可以关闭系统防护功能,。网络防护:可以关闭网络保护等功...

微软应用商店下载手机版(微软应用商店在哪下)

、在桌面任务栏找到微软应用商店,点击并打开。2、进入页面后点击【应用】,进入应用页面。3、在页面里往下移动,找到热门应用,找到一个软件,点击进入。4、进入页面后,点击【安装】,软件会自动安装,安装完毕...

win11系统怎么查看电脑配置(win11怎么查看系统版本)

答:win11查看电脑配置步骤如下。1.点击下方任务栏的windows图标或者按下键盘“windows键”打开开始菜单。2.在开始菜单中找到“设置”或“settings”,一般是右上角的齿轮状按钮,3...

取消回复欢迎 发表评论: