百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

beautifulSoup4,一个超实用的python库

off999 2025-07-07 22:18 91 浏览 0 评论

一.前言

我们在学习python爬虫的时候,数据提取是一个常见的任务。我们一般使用正则表达式,lxml 等提取我们需要的数据,今天我们介绍一个新的库beautifulSoup4,使用它您可以从HTML和XML文件中提取所需的信息。

什么是beautifulsoup4?

beautifulSoup4是一个用于解析HTML和XML文档的Python库。它使提取数据变得简单,快速且可靠。它允许您使用简单的Python语法来搜索,修改和导航网页结构

二.基本用法

1.安装

pip install beautifulsoup4

2.导入库

from bs4 import BeautifulSoup

3.创建BeautifulSoup对象



from bs4 import BeautifulSoup


import requests # 导入requests库,这个库用来发送请求
from lxml import etree # 这个用来解析html的
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'}
# 发送请求
html_doc= requests.get('https://bing.ioliu.cn/',headers=headers)
soup = BeautifulSoup(html_doc, 'html.parser') # html_doc是我们要解析的HTML文档的字符串形式

第一个参数是要解析的HTML文档的字符串形式,第二个参数是解析器的选择,常用的有'html.parser'、'lxml'和'xml'等


4.查找元素

通过BeautifulSoup对象,我们可以使用各种方法来查找网页中的特定元素。以下是一些常见的查找方法:

a.使用标签名查找元素:soup.tag_name

>>> print(soup.input)
<input name="ie" type="hidden" value="utf-8"/>

b.使用类名查找元素:soup.find('class', 'class_name')

>>> print(soup.find("span",class_="tools")) # 第一个是标签名字,第二个class name
<span class="tools"><span id="mHolder"><div id="mCon"><span>
                                    输入法</span></div><ul id="mMenu"><li><a href="javascript:;" name="ime_hw">
                                    手写</a></li><li><a href="javascript:;" name="ime_py">
                                    拼音</a></li><li class="ln"></li><li><a href="javascript:;" name="ime_cl">
                                    关闭</a></li></ul></span></span>
>>>


c.使用ID查找元素:soup.find('id', 'id_name')

>>> print(soup.find("input",id = "su"))
<input class="bg s_btn" id="su" type="submit" value="百度一下"/>
>>>

d.使用属性查找元素:soup.find('tag_name', {'attr_name': 'attr_value'})

>>> print(soup.find("input",{"value":'百度一下'}))
<input class="bg s_btn" id="su" type="submit" value="百度一下"/>
>>>


e.使用CSS选择器查找元素:soup.select('css_selector')

>>> soup.select(".tools")
[<span class="tools"><span id="mHolder"><div id="mCon"><span>
                                    输入法</span></div><ul id="mMenu"><li><a href="javascript:;" name="ime_hw">
                                    手写</a></li><li><a href="javascript:;" name="ime_py">
                                    拼音</a></li><li class="ln"></li><li><a href="javascript:;" name="ime_cl">
                                    关闭</a></li></ul></span></span>]
>>>


5.遍历元素

一旦找到了目标元素,我们可以使用遍历方法来获取元素的子节点或兄弟节点。以下是一些常见的遍历方法:

a.遍历所有子节点:for child in soup.children:

>>> d = soup.find("div",id="s-top-left")
>>> for i in d.children:
  print(i)

b.遍历所有兄弟节点:for sibling in soup.next_siblings:

>>> d = soup.find("div",id="s-top-left")
>>> for i in d.next_siblings:
  print(i)


三.常见应用场景

  1. 数据抓取BeautifulSoup4可以帮助我们从网页中提取所需的数据。例如,我们可以使用BeautifulSoup4来抓取新闻网站的标题和链接,或者从电商网站上提取商品的名称、价格和评论等信息。通过灵活的查找和遍历方法,我们可以轻松地获取到所需的数据。
  2. 网页解析除了数据抓取,BeautifulSoup4还可以用于网页解析和分析。我们可以使用BeautifulSoup4来提取网页中的文本内容、图片链接、视频链接等,并对这些内容进行进一步的处理和分析。例如,我们可以使用BeautifulSoup4来分析某个网站的文章结构和关键词分布,或者提取某个博客页面的评论内容和用户信息等。
  3. 数据清洗和预处理在进行数据分析和机器学习任务时,我们通常需要对原始数据进行清洗和预处理。BeautifulSoup4可以帮助我们完成这一步骤。例如,我们可以使用BeautifulSoup4来去除网页中的HTML标签和空格,或者对文本内容进行分词和去重等操作,从而得到干净和结构化的数据。


更多用法参考官方文档

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

相关推荐

阿里云国际站ECS:阿里云ECS如何提高网站的访问速度?

TG:@yunlaoda360引言:速度即体验,速度即业务在当今数字化的世界中,网站的访问速度已成为决定用户体验、用户留存乃至业务转化率的关键因素。页面加载每延迟一秒,都可能导致用户流失和收入损失。对...

高流量大并发Linux TCP性能调优_linux 高并发网络编程

其实主要是手里面的跑openvpn服务器。因为并没有明文禁p2p(哎……想想那么多流量好像不跑点p2p也跑不完),所以造成有的时候如果有比较多人跑BT的话,会造成VPN速度急剧下降。本文所面对的情况为...

性能测试100集(12)性能指标资源使用率

在性能测试中,资源使用率是评估系统硬件效率的关键指标,主要包括以下四类:#性能测试##性能压测策略##软件测试#1.CPU使用率定义:CPU处理任务的时间占比,计算公式为1-空闲时间/总...

Linux 服务器常见的性能调优_linux高性能服务端编程

一、Linux服务器性能调优第一步——先搞懂“看什么”很多人刚接触Linux性能调优时,总想着直接改配置,其实第一步该是“看清楚问题”。就像医生看病要先听诊,调优前得先知道服务器“哪里...

Nginx性能优化实战:手把手教你提升10倍性能!

关注△mikechen△,十余年BAT架构经验倾囊相授!Nginx是大型架构而核心,下面我重点详解Nginx性能@mikechen文章来源:mikechen.cc1.worker_processe...

高并发场景下,Spring Cloud Gateway如何抗住百万QPS?

关注△mikechen△,十余年BAT架构经验倾囊相授!大家好,我是mikechen。高并发场景下网关作为流量的入口非常重要,下面我重点详解SpringCloudGateway如何抗住百万性能@m...

Kubernetes 高并发处理实战(可落地案例 + 源码)

目标场景:对外提供HTTPAPI的微服务在短时间内收到大量请求(例如每秒数千至数万RPS),要求系统可弹性扩容、限流降级、缓存减压、稳定运行并能自动恢复。总体思路(多层防护):边缘层:云LB...

高并发场景下,Nginx如何扛住千万级请求?

Nginx是大型架构的必备中间件,下面我重点详解Nginx如何实现高并发@mikechen文章来源:mikechen.cc事件驱动模型Nginx采用事件驱动模型,这是Nginx高并发性能的基石。传统...

Spring Boot+Vue全栈开发实战,中文版高清PDF资源

SpringBoot+Vue全栈开发实战,中文高清PDF资源,需要的可以私我:)SpringBoot致力于简化开发配置并为企业级开发提供一系列非业务性功能,而Vue则采用数据驱动视图的方式将程序...

Docker-基础操作_docker基础实战教程二

一、镜像1、从仓库获取镜像搜索镜像:dockersearchimage_name搜索结果过滤:是否官方:dockersearch--filter="is-offical=true...

你有空吗?跟我一起搭个服务器好不好?

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。昨天闲的没事的时候,随手翻了翻写过的文章,发现一个很严重的问题。就是大多数时间我都在滔滔不绝的讲理论,却很少有涉及动手...

部署你自己的 SaaS_saas如何部署

部署你自己的VPNOpenVPN——功能齐全的开源VPN解决方案。(DigitalOcean教程)dockovpn.io—无状态OpenVPNdockerized服务器,不需要持久存储。...

Docker Compose_dockercompose安装

DockerCompose概述DockerCompose是一个用来定义和管理多容器应用的工具,通过一个docker-compose.yml文件,用YAML格式描述服务、网络、卷等内容,...

京东T7架构师推出的电子版SpringBoot,从构建小系统到架构大系统

前言:Java的各种开发框架发展了很多年,影响了一代又一代的程序员,现在无论是程序员,还是架构师,使用这些开发框架都面临着两方面的挑战。一方面是要快速开发出系统,这就要求使用的开发框架尽量简单,无论...

Kubernetes (k8s) 入门学习指南_k8s kubeproxy

Kubernetes(k8s)入门学习指南一、什么是Kubernetes?为什么需要它?Kubernetes(k8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序。它...

取消回复欢迎 发表评论: