当前位置：网站首页 > 技术资源 > 正文

纯粹干货，Python爬虫的数据采集和分析方法

off999 2024-12-16 15:20 35 浏览 0 评论

爬虫的基本工作步骤在之前已经很详细的描述过了，了解了简单的工作步骤，接下来就应该开始学习步骤当中的第一步：数据采集和数据解析。

爬虫的基础步骤分为五步：

下载数据 - requests 。

解析数据 - re / beautifulsoup4。

缓存和持久化 - pymysql 。

生成数字签名 - hashlib。

序列化和压缩 - json / zlib。

数据采集和解析是五个步骤当中的前两步，由于这五个步骤的内容较多，我们一篇文章是说不完的。

因此，在这篇文章里学记先来解释一下获取数据和解析数据这两项内容。

获取数据

在上面的获取数据的后面有所用到的库，即 Requests 库。

Requests 是Python当中的一个采集数据库，它可以将网络上的一些数据获取并收集到你的服务器当中。

Requests获取网络数据的第一步就是进行一个网络请求，使用 Requests 发送网络请求非常简单。

一开始要导入 Requests 模块：

import requests

然后，尝试获取某个网页。想要获取的网页可以直接填在后面的括号当中，记得括号中的内容为字符串模式。

r = requests.get('www.xxxxxx。com')

学记在之前的文章当中，曾经讲过HTTP这一协议，即超文本传输协议。

爬虫所获取的信息便是经由HTTP来进行传输的。

而Requests 简便的 API 意味着所有 HTTP 请求类型都是显而易见的。

使用 Requests 可以简单地发送一个 HTTP POST 请求：

r = requests.post('http://httpbin.org/post', data = {'key':'value'})

在之前的 HTTP 介绍当中，有不止 POST 一个请求，其他请求类型还有：PUT，DELETE，HEAD 以及 OPTIONS。

这些请求在 Requests 当中也和 post 一样简单。实例如下：

r = requests.put('http://httpbin.org/put', data = {'key':'value'})

r = requests.delete('http://httpbin.org/delete')

r = requests.head('http://httpbin.org/get')

r = requests.options('http://httpbin.org/get')

使用 Requests 读取服务器响应的内容：

import requests

r = requests.get('https://api.xxxxx.com/events')

r.text

u'[{"repository":{"open_issues":0,"url":"https://xxxxx.com/...

使用 Requests 改变其读取文本时使用的编码模式：

r.encoding

'utf-8'

r.encoding = 'ISO-8859-1'

上述的是 Requests 的一些基础操作，至于如何通过 Requests 获取网页页面，步骤如下：

1，GET请求和POST请求。

2，URL参数和请求头。

3，复杂的POST请求（文件上传）。

4，操作Cookie。

5，设置代理服务器。

数据解析

在上面数据解析的后面，有两个相关库，一个是正则表达式的 Re ，另一个是 BeautifulSoup。由于正则表达式比较困难，入手难度较大。

所以，我们先来学习 BeautifulSoup 。

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。

将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象，具体代码如下：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

将HTML文档转换成Unicode编码：

BeautifulSoup("Sacré bleu!")

<html><head></head><body>Sacré bleu!</body></html>

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象。

有关 Python对象的知识，我们在下一篇文章进行详细的解释。

如果想学习更多科技知识，可以点击关注。

如果对文章中的内容有什么困惑的地方，可以在评论区提出自己的问题，学记同大家一起交流，解决各种问题，一起进步。

青年学记陪伴着各位青年

作者：青年学记一名不断进步的程序猿

一起学习一起进步

走向自立

python数据采集

上一篇：收藏!20条非常实用的Python代码实例
下一篇：python+OPC UA，实现数据边缘采集

纯粹干货，Python爬虫的数据采集和分析方法

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

纯粹干货，Python爬虫的数据采集和分析方法

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑 输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数