Python爬虫神器:PyQuery，解析网页更简单，小白也能学会

off999 2024-12-14 14:24 35 浏览 0 评论

图/文：迷神

我们做python爬虫，通过requests抓取到内容就需要正则匹配，或者其他解析库解析内容。很多可能和我一样的人，都使用jquery的，那用的还是非常爽的。而pyquery库就是jQuery的Python实现，能够以jQuery的语法来操作解析 HTML 文档，易用性和解析速度都不错。

虽然，Beautiful Soup 中可以使用 CSS 选择器，但是好像他的 CSS 选择器并没有想像中的强大，PyQuery反而更优一些，因此，我们来说说，Python爬虫神器：PyQuery。

PyQuery库官方文档
官方文档：https://pyquery.readthedocs.io/en/latest/
PyPI：https://pypi.org/project/pyquery/
Github：https://github.com/gawel/pyquery

1、PyQuery初始化内容

PyQuery初始化有3种形式：

1.1、直接初始化requests返回的html内容

from pyquery import PyQuery as pq
#初始化为PyQuery对象
doc = pq(html)
print(type(doc))
print(doc)

1.2、直接读取文件的形式

#filename参数为html文件路径
doc = pq(filename = 'test.html')
print(type(doc))
print(doc)

1.3、读取网址的形式

doc = pq(url = 'https://www.toutiao.com')
print(type(doc))
print(doc)

2、常用CSS选择器：

pyquery强大的地方，就是在于使用了类似jquery一样的选择，进行网页节点解析。

html = """
        <ul id="container">
            <li class="object-1">Python</li>
            <li class="object-2">大法</li>
            <li id="object-1">好</li>
        </ul>
"""

获取id为object-1的标签

print(doc('#object-1'))
#返回：
<li id="object-1">好</li>
#还可以：
print(doc('#container #object-1'))

获取class为object-1的标签

print(doc('.object-1'))
#返回：
<li class="object-1">Python</li>

获取ul标签：

print(doc('ul'))
#返回
<ul id="container">
		<li class="object-1">Python</li>
		<li class="object-2">大法</li>
		<li id="object-1">好</li>
</ul>

如果获取多个li，可以遍历：

a = doc('li')
for item in a.items():
    print(item)

其他的我们还可以查找节点

我们接着介绍一下常用的查找函数，这些查找函数最赞的地方就是它们和 JQuery 的用法完全一致。

find() ：查找节点的所有子孙节点。

children() ：只查找子节点。

parent() ：查找父节点。

parents() ：查找祖先节点。

siblings() ：查找兄弟节点。

3、获取标签的信息

我们在定位到目标之后，就需要获取标签的内容信息，常用的有：

3.1、attr() 获取属性，返回属性值

object_2 = doc.find('.object-2')
print(object_2.attr('class'))
#返回
object-2

3.2、text() 标签的文本

object_1 = docs.find('.object-1')
print(object_1.text())
#返回
Python

当然pyquery还有很多，比如remove去掉节点内容，获取url网址的，还可以自定义cookie和header等。

Beautiful Soup 对新手比较友好，pyquery对用过jquery的来说，更简单更方便，是一个非常不错的选择。

好了，就这么多啦，我是迷神，更多精彩python内容，可以关注我哦，有问题也可以评论哦。

python爬虫库

上一篇：Python爬虫利器Pyppeteer框架简介
下一篇：python爬虫19 | 遇到需要的登录的网站怎么办?用这3招轻松搞定

Python爬虫神器:PyQuery，解析网页更简单，小白也能学会

1、PyQuery初始化内容

2、常用CSS选择器：

3、获取标签的信息

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

Python爬虫神器:PyQuery，解析网页更简单，小白也能学会

1、PyQuery初始化内容

2、常用CSS选择器：

3、获取标签的信息

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑 输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数