当前位置：网站首页 > 技术资源 > 正文

【python爬虫】第三讲:爬取网络文本

off999 2024-12-15 16:04 55 浏览 0 评论

第三讲：爬取中山教育信息网某篇报道的文本

一. 爬虫的五个步骤：

1．导入模块 -- 导入爬虫相关模块，如re、requests、bs4等。

2．分析网页 -- 确定网页地址url和请求头headers信息。

3．爬取数据 -- 发送请求，爬取网页代码文本数据。

4．解析数据 -- 分析、清洗第二步爬取到的数据。

5．保存数据 -- 将爬取到的有用数据保存。

二. 学习requests模块的相关知识：

1．简介：requests是一个Python的第三方库，提供了方便易用的HTTP请求功能。可以在终端使用pip install requests指令安装。

2． requests库的主要函数：

（1）requests.request：发送HTTP请求，语法为：requests.request(method, url, **kwargs)。

（2）requests.get：发送GET请求，语法为：requests.get(url, params=None, **kwargs)。

（3）requests.head：发送HEAD请求，语法为：requests.head(url, **kwargs)。

（4）requests.post：发送POST请求，语法为：requests.post(url, data=None, json=None, **kwargs)。

（5）requests.put：发送PUT请求，语法为：requests.put(url, data=None, **kwargs)。

（6）requests.patch：发送PATCH请求，语法为：requests.patch(url, data=None, **kwargs)。

（7）requests.delete：发送DELETE请求，语法为：requests.delete(url, **kwargs)。

（8）requests.session：创建一个会话对象，用于在多个请求中共享参数，语法为：requests.session()。

（9）requests.cookies：表示HTTP请求中的Cookie，语法为：requests.cookies。

（10）requests.get_redirect_target：获取重定向目标，语法为：requests.get_redirect_target(response)。

（11）requests.codes：HTTP状态码的字典，语法为：requests.codes。

（12）requests.exceptions：异常类，语法为：requests.exceptions。

（13）requests.Response：表示HTTP响应的类，语法为：requests.Response。

三. 爬取中山教育信息港资讯文本数据

# 一. 导入模块：re和requests

import re,requests

# 二. 分析网页：

page_url = r'https://www.zsedu.cn/info/942554.jspx'

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'}

# 三. 爬取数据

rsp = requests.get(url=page_url,headers=headers)

txt = rsp.text

# 四. 解析数据：通过正则表达式

pattern = '<p>(.*?)</p>'

results = re.findall(pattern,txt)

# 五. 保存数据

file = open(r'C:\Users\Administrator\Desktop\爬虫tem/文章.txt','wt',encoding='utf-8')

for result in results[:len(results)-4]:

print(result)

file.write(result+'\n')

file.close()

四. 课程视频地址：

python爬取视频

上一篇：Python实战之如何爬取豆瓣电影 python爬取豆瓣250
下一篇：爬虫界的启蒙老师，python超爽爬取入门案例分享

【python爬虫】第三讲:爬取网络文本

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

【python爬虫】第三讲:爬取网络文本

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑 输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数