百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

闲着会生病的,玩玩python吧,python爬虫(1)

off999 2024-09-16 00:40 51 浏览 0 评论

spring boot,spring cloud 搞的差不多了。最近公司准备用python到网上爬点数据,于是开始研究一下python获取网络信息的一些方法。之前,自己学习过一点,有点点底子,现在开个爬虫的系列,动手试试看。走!上路了。

准备

MAC OS

pycharm 作为IDE

Charles 作为装包器,当让用chrome自带的抓包也行。

第一个hello world

新建一个py文件,引用urlib.request 包中的 urlonen 组件,利用其中的urlopen方法打开baidu网站,打印返回html的内容,打印返回码和url地址。

from urllib.request import urlopen
url ="http://www.baidu.com"
response = urlopen(url)
info =response.read()
print(info)
print(response.getcode())
print(response.geturl())

hello world 是真的简单,老司机绕行。

包装请求头

一般在做爬虫的时候不断的对网站进行请求,并且返回网站的信息。容易被网站的反爬系统发现。通常来说会对请求头做一些伪装,模拟使用不同的浏览器访问网站的。这里我们也来试试。

这里设置了一个user_agents的数组,分别定义了Mozilla IE9,Opera,AppleWebKit三类浏览器请求头。在请求baidu网站的时候分别使用不同请求头。

from urllib.request import urlopen

from urllib.request import Request

from random import choice

url = "http://www.baidu.com"

user_agents = [

"Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0",

"Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",

"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36"]

headers = {"User-Agent": choice(user_agents)}

request = Request(url, headers=headers)

print(request.get_header('User-agent'))

response = urlopen(request)

info = response.read()

#print(info)

这里用了一个randmon组件中间的choice方法对数组user_agents进行随机抽取数据,每次赋值给headers的时候都是不同的浏览器信息。打印出headers看看结果。

运行程序可以看到每次运行请求头都不一样。

这样每次随机出的请求头浏览器都是随机生成的。

这个简单吧,喜欢的关注转发收藏。下期见。

相关推荐

u盘闪迪好还是金士顿好(金士顿和闪迪谁寿命长)

u盘金士顿好一些。金士顿的最大优点就是它的主控一般都是群联的,而此主控都有对应的量产工具,很多时候就算过了保质期,U盘不论出什么故障,只要硬件没坏就可以用量产工具来修复好继续用。而且就算某些金士顿主控...

深度ghost win10系统(deep ghost win10)

不能说绝对.要分两种情况:当win10安装时,如果采用了GPT分区硬盘格式(现在大多数新电脑都支持这个格式,并默认是这种方式),或者是由win10自动分区安装,均分产生一个额外的引导分区,容量比较少,...

win8专业版和家庭版的区别(win8专业版和家庭版的区别在哪)

win10有七种版本:家庭版、企业版、教育版、移动版、移动企业版以及针对物联网设备及嵌入式系统设计的版本。据个人理解家庭版与家庭中文版是一个意思,是家庭版的不同语言版本,你升级的时候,会自动升级到对应...

手机开不了机怎么办一直黑屏

原因可能有很多:系统崩溃。刷机失败,手机电池用尽。可以通过以下方法检测:1.首先,对手机进行自我检测。现在大多数品牌手机都有深度休眠模式,一旦进入这种模式,经常会造成手机黑屏,无法开机。解决的...

主题商店官方下载(vivi主题商店下载)

1首先上小米官网注册设计师账号您可以登录主题设计师站上传。designer.xiaomi.com/2下载小米主题制作器3打包成mtz格式4上传等待审核(如果只是自己用的话就不用上传)在软件商店里搜...

360邮箱登录(360邮箱登录入口在哪里)

可以修改登录邮箱的,不自己亲自尝试一下,还真是觉的好麻烦,尤其是在你要修改的邮箱已经被注册的时候,如果你知道了,就很简单,不知道的,希望你再修改的时候不要多走弯路,下面我给大家详细讲解。1首先,我们要...

win10自动更新后桌面文件全没了

打开控制面板,找到用户账户,看看有几个账户。如果有多个账户,则重新启动计算机,登录另一个账户,看看桌面文件是否回来了。以上方法未成功,则在整个电脑里搜索以前的那个文件夹。搜索也找不到,就下载并安装一个...

三星固态硬盘(三星固态硬盘序列号查询官网)

您可以通过访问三星官方网站的支持页面来查询三星固态硬盘的序列号。在支持页面中,您可以找到一个名为"产品注册"或"产品查询"的选项。点击该选项后,您将被要求输入您的固态硬...

手机恢复出厂设置后数据能恢复吗

1、首先来说如果点击了“恢复出厂设置”朋友们完全不用惊慌,因为手机上的数据还是能够找回来的。2、在网上找一款免费的手机恢复数据软件,例如安卓上的应用手机数据恢复精灵,根据手机恢复数据软件向导式提醒进行...

万能浏览器手机版下载安装(万能浏览器手机版下载安装最新版)

用起来还是挺靠谱的,但是可能会有捆绑的恶意软件,各种弹窗很烦人OPPO手机浏览器搜索网站的方法:在页面顶部的搜索栏输入URL或搜索关键字。搜索栏下会出现搜索建议,可直接点击符合你搜索目标的建议。点击搜...

windows彻底关闭自动更新(关闭windows 自动更新)

方法一:Windows设置  要想关闭Win10自动更新,比较简单的一种方法就是进入到Windows设置中,将Windows更新直接关闭。步骤如下:  1、按“Windows+I”键,打开Wind...

potplayer安卓版官网(potplayer apk下载)

教程如下:Potplayer是一款非常强大的媒体播放器,是由原KMPlayer的制作者自己开发的,软件体积小,功能强大,占用内存非常小,其软件内置解码器几乎能播放任何格式的媒体文件,而且软件本身没有任...

十大公认最耐用的台式电脑(哪个品牌的台式机电脑最耐用)
十大公认最耐用的台式电脑(哪个品牌的台式机电脑最耐用)

一般来说,品牌机没有单卖的,都是成套的主机显示器一起销售的,如果价格不是问题,单说耐用,个人感觉还是IBM的耐用,再其次什么戴尔,联想,华硕,宏碁什么的也都可以。惠普台式电脑和戴尔台式电脑相比较,肯定是戴尔台式电脑的质量比较好,因为戴尔台...

2025-12-13 13:03 off999

360下载的软件不在桌面上(电脑下载360为什么不在桌面)

方法如下。打开360浏览器的设置按钮,在设置中选择将下载的文件浏览到桌面,点击应用保存,这是即可将360文件下载的内容直接储存到桌面上。可以选择F3进行搜索,搜到360浏览器之后打开他的这个文件夹,找...

电脑读不了u盘怎么回事(电脑读不出u盘了)

方法1:取消勾选“隐藏的驱动器”  1、首先要排除是不是U盘损坏的问题,当U盘插入到其他电脑,如果可以读出来,那么肯定不是U盘的问题了。  2、很有可能是U盘在你的电脑上被隐藏了,将U盘插入电脑后,打...

取消回复欢迎 发表评论: