百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python爬虫三大解析库之XPath解析库通俗易懂详讲

off999 2024-12-14 14:24 29 浏览 0 评论

目录

  • 使用XPath解析库

@(这里写自定义目录标题)

使用XPath解析库

1.简介

??XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言。适用于XML和HTML文档的搜索。
??优点:提供了非常简洁明了的路径选择表达式。还提供了超过100个内建函数,可以匹配大部分的节点。
??官网
??准备工作:需要安装lxml库。


2.常用规则

表达式功能nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取直接子孙节点.选取当前节点..选取当前节点的父节点@选取属性


3.etree模块解析网页简介

??etree是lxml库中的函数,可以自动修正HTML文本。下面是两种导入方法:
??直接读取网页代码进行解析:

from lxml import etree
text = '''
HTML文本
'''
# 将HTML文本转化为可以用etree解析的对象,
html = etree.HTML(text) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码

??读取文本文件进行解析(这里既会自动修正文件,又会补充DOCTYPE声明):

from lxml import etree
html = etree.parse('文本文件路径/文本文件名字.html',etree.HTMLParse()) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码

??用tostring()方法即可输出修正后的HTML代码。

4.选取所有节点,子节点和父节点

(1)选取所有节点

??一般用//开头的XPath规则,就会选择从当前节点开始的所有子孙节点,也就是所有节点。所以要匹配所有的节点代码如下:

a = html.xpath('//*') # 选取所有的节点
b = html.xpath('//a') # 选取所有的a节点,是一个例子

??这里的a和b,也就是xpath方法的返回值是一个列表,每个元素是Element类型,后面跟着节点的名称,是一个可迭代对象。要取出某一个对象,就需要用处理列表的方法进行。

(2)选取子节点

??选取子节点只需要在后面加上/节点名称(选择直接子节点,也就是与其相邻的第一个子节点),如果直接子节点没有就会报错,或者//节点名称(选择所有子孙节点),例子如下:

c = html.xpath('//li/a') # 选取li节点的直接a子节点
d = html.xpath('//li//a') # 选取li节点的所有a子节点

(3)选取父节点

??获取某个节点的父节点有两个方法,一个是用..,另一个是用parent::。
同理,如果没有父节点,就会报错,例子如下:

e = html.xpath('//li/../a') # 选取li节点的父节点下的a节点
f = html.xpath('//li/parent::/a') # 选取li节点的父节点下的直接a节点
g = html.xpath('//li/parent::*/a') # 选取li节点的父节点下的所有a节点


5.属性匹配,文本获取和属性多值匹配

(1)属性匹配

??在选取节点的时候,可以用@符号进行属性过滤,用[@属性名="属性值"]进行实现,例子如下:

s = html.xpath('//li[@class="ming"]') # 选取属性值class="ming"的所有li节点

??要注意的是里面的括号和外面的括号尽量一个用双引号,一个用单引号。

(2)文本获取

??我们用Xpath中的text()方法即可获取节点中的文本。要注意的是获取到的数据可能包括换行符'\n'。

(3)属性多值匹配

??要是属性有多个值的话,用上面的方法就无法匹配了。需要用到contains()函数,包含两个参数,即@属性名和属性值,例子如下:

# 源代码中为<li class="ming1 ming2">
s1 = html.xpath('//li[contains(@class,"ming1")]') # 选取属性值class="ming1"的所有li节点
s2 = html.xpath('//li[contains(@class,"ming2")]') # 选取属性值class="ming2"的所有li节点


6.属性获取和多属性匹配

(1)属性获取

??属性获取直接用@获取即可,例子如下:

s = html.xpath('//li/a/@href]') # 获取所有li节点下的直接a子节点的href属性

(2)多属性匹配

??有时候需要根据多个属性值确定一个节点,就需要同时匹配多个属性。要用and进行连接,可以把contains(@属性名,"属性名")和@属性名="属性值"混合使用,例子如下:

# 选取所有属性值class="a"和_target="ming"的li节点下的所有a节点的href属性
two_s = html.xpath('//li[contains(@class,"a") and @_target="ming"]//a/@href')


7.按次序选择

??有时候选择到的某些属性可能同时匹配了多个节点,但是要想得到其中的某一个节点,该如何获取呢?可以用中括号传入索引的方法获取特定次序的节点。下面是一些常用方法的总结:

方法功能[n]选取第n个节点,序号是以1开头的[last()]选取最后一个节点[position() < n]选取位置小于n的节点,这里可以用算术运算符进行选择[last() - n]选取倒数第n+1个节点,由于last()是倒数第一个,则last() - n就是倒数第n+1个


8.节点轴选择

??由于网页代码是一个DOM树,因此可以用相对的位置进行选择节点的子节点,兄弟节点,父节点或者祖先节点等。python的节点轴选择常用的如下:

节点轴选择节点ancestor:: *获取所有祖先节点ancestor::条件获取指定条件的祖先节点attribute:: *获取节点的所有属性attribute::属性名获取节点的指定属性child:: *获取所有子节点child::条件获取指定条件的子节点descendent:: *获取所有的子孙节点descendent::条件获取指定条件的子孙节点following:: *获取当前节点之后的所有节点following:: *[n]获取当前节点之后的第n个节点following-sibing:: *获取当前节点之后的所有同级节点following-sibing::条件获取当前节点之后指定条件的所有同级节点


9.开发者工具查看xpath选择器路径

??用F12打开开发者工具,按才Copy->Copy Xpath就可以把该段代码的XPath路径代码复制下来,很方便。

最后,小编想说:我是一名python开发工程师,整理了一套最新的python系统学习教程,想要这些资料的可以关注私信小编“01”即可,希望能对你有所帮助。

相关推荐

安全教育登录入口平台(安全教育登录入口平台官网)

122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

2026-02-04 09:03 off999

电信宽带测速官网入口(电信宽带测速官网入口app)

这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

2025世界杯赛程表(2025世界杯在哪个国家)

2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

下载搜狐视频电视剧(搜狐电视剧下载安装)

搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
永久免费听歌网站(丫丫音乐网)

可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

音乐格式转换mp3软件(音乐格式转换器免费版)

有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

电子书txt下载(免费的最全的小说阅读器)

1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

最好免费观看高清电影(播放免费的最好看的电影)

在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

取消回复欢迎 发表评论: