当前位置：网站首页 > 技术资源 > 正文

闲着会生病的，玩玩python吧，python爬虫(1)

off999 2024-09-16 00:40 71 浏览 0 评论

spring boot，spring cloud 搞的差不多了。最近公司准备用python到网上爬点数据，于是开始研究一下python获取网络信息的一些方法。之前，自己学习过一点，有点点底子，现在开个爬虫的系列，动手试试看。走！上路了。

准备

MAC OS

pycharm 作为IDE

Charles 作为装包器，当让用chrome自带的抓包也行。

第一个hello world

新建一个py文件，引用urlib.request 包中的 urlonen 组件，利用其中的urlopen方法打开baidu网站，打印返回html的内容，打印返回码和url地址。

from urllib.request import urlopen
url ="http://www.baidu.com"
response = urlopen(url)
info =response.read()
print(info)
print(response.getcode())
print(response.geturl())

hello world 是真的简单，老司机绕行。

包装请求头

一般在做爬虫的时候不断的对网站进行请求，并且返回网站的信息。容易被网站的反爬系统发现。通常来说会对请求头做一些伪装，模拟使用不同的浏览器访问网站的。这里我们也来试试。

这里设置了一个user_agents的数组，分别定义了Mozilla IE9，Opera，AppleWebKit三类浏览器请求头。在请求baidu网站的时候分别使用不同请求头。

from urllib.request import urlopen

from urllib.request import Request

from random import choice

url = "http://www.baidu.com"

user_agents = [

"Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0",

"Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",

"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36"]

headers = {"User-Agent": choice(user_agents)}

request = Request(url, headers=headers)

print(request.get_header('User-agent'))

response = urlopen(request)

info = response.read()

#print(info)

这里用了一个randmon组件中间的choice方法对数组user_agents进行随机抽取数据，每次赋值给headers的时候都是不同的浏览器信息。打印出headers看看结果。

运行程序可以看到每次运行请求头都不一样。

这样每次随机出的请求头浏览器都是随机生成的。

这个简单吧，喜欢的关注转发收藏。下期见。

python吧

上一篇：小甲鱼python课程学习笔记(8)列表的内置函数
下一篇：纠结给宝宝起名字?试试Python吧（python英文名）

闲着会生病的，玩玩python吧，python爬虫(1)

准备

第一个hello world

包装请求头

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

网盘在哪里打开（华为网盘在哪里打开）

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

中华人民共和国历届领导（中华人民共和国历届领导班子成员及照片）

苹果手机怎么下载软件并安装

python入门到脱坑输入与输出—str()函数

linux软件（linux软件图标）

闲着会生病的，玩玩python吧，python爬虫(1)

准备

第一个hello world

包装请求头

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

网盘在哪里打开（华为网盘在哪里打开）

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

中华人民共和国历届领导（中华人民共和国历届领导班子成员及照片）

苹果手机怎么下载软件并安装

python入门到脱坑 输入与输出—str()函数

linux软件（linux软件图标）

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数