百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python爬虫入门:什么是爬虫,怎么玩爬虫?

off999 2024-10-26 12:10 14 浏览 0 评论



看到这两只爬虫没有?

两只爬虫

两只爬虫

跑得快

跑得快

一只没有..

不好意思

跑题了...

别误会,今天不是要教你怎么玩上面这两只沙雕玩意。

今天,我们正式从0到1

轻松学会 python 爬虫

接下来...

将是学习Python的正确姿势!

小帅b闪亮登场


在你的浏览器里面

输入百度网址

https://www.baidu.com

一回车看到一个网页


大家都很熟悉吧!

然而

你右键,查看网页源代码。

是这个样子的


(源代码的1/100)

“窝里割草”

简简单单一个页面。

这么多密密麻麻的代码

不说了

劝退前端程序员!

还是学习 Python 吧。哈哈哈


那么说这个,和爬虫有什么关系呢?

你有没有想过

这些许许多多的网站

背后都是一些数据

如果我们可以用一个自动化的程序

轻轻松松就能把它们给爬取下来

是不是很爽?

比如,一些小电影的网站

我们只要用 Python

写几行代码

然后一运行

这个程序就帮我们爬取所有的小电影到我们本地

完全不需要我们费一点力气

再比如,你想了解一个行业的趋势

是不是可以把它们往年的数据都爬取下来

然后,对这些数据做一些分析呢?

等等..

这些,以后我们都会讲到!

我们刚刚提到的

一个自动化的程序

就是爬虫


知道了什么是爬虫之后

问题来了

爬虫怎么玩的?

那就偷偷告诉你


在互联网上许许多多的网站

它们都是托管在服务器上的

这些服务器 24 小时运行着

时时刻刻,兢兢业业的等待着别人的请求

所以

我们的爬虫,首先会模拟请求

就好像你在浏览器输入网址,然后回车那样

爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)

大多数的服务器呢,傻不拉的以为是浏览器发送请求

就直接返回数据给爬虫了


当然了,有一些网站比较精明

所以他们会建立一些反爬虫机制

但是,对于我们来说,不在话下

这个是后话了!

反正这个时候呢,服务器把数据返回给我们了

那么我们就可以对这些数据进行猥琐操作了。


不同的情况下,服务器返回给我们的数据格式不一样

HTML

JSON

二进制的数据啦

根据不同的情况,我们可以使用不同的方式对他们进行处理。

处理完之后

我们就可以对他们进行保存啦

保存的方式也有几种

数据库

硬盘

等等..

以上就是我们的爬虫的具体爬取流程,这是我们开启爬虫体系的第一篇,接下来我们将一步一步来操作我们的爬虫。

对Python感兴趣的小伙伴,记得私信小编“007”领取全套Python资料哦。

相关推荐

软件测试|Python requests库的安装和使用指南

简介requests库是Python中一款流行的HTTP请求库,用于简化HTTP请求的发送和处理,也是我们在使用Python做接口自动化测试时,最常用的第三方库。本文将介绍如何安装和使用request...

python3.8的数据可视化pyecharts库安装和经典作图,值得收藏

1.Deepin-linux下的python3.8安装pyecharts库(V1.0版本)1.1去github官网下载:https://github.com/pyecharts/pyecharts1...

我在安装Python库的时候一直出这个错误,尝试很多方法,怎么破?

大家好,我是皮皮。一、前言前几天在Python星耀群【我喜欢站在一号公路上】问了一个Python库安装的问题,一起来看看吧。下图是他的一个报错截图:二、实现过程这里【对不起果丹皮】提示到上图报错上面说...

自动化测试学习:使用python库Paramiko实现远程服务器上传和下载

前言测试过程中经常会遇到需要将本地的文件上传到远程服务器上,或者需要将服务器上的文件拉到本地进行操作,以前安静经常会用到xftp工具。今天安静介绍一种python库Paramiko,可以帮助我们通过代...

Python 虚拟环境管理库 - poetry(python虚拟环境virtualenv)

简介Poetry是Python中的依赖管理和打包工具,它允许你声明项目所依赖的库,并为你管理它们。相比于Pipev,我觉得poetry更加清爽,显示更友好一些,虽然它的打包发布我们一般不使...

pycharm(pip)安装 python 第三方库,时下载速度太慢咋办?

由于pip默认的官方软件源服务器在国外,所以速度慢,导致下载时间长,甚至下载会频繁中断,重试次数过多时会被拒绝。解决办法1:更换国内的pip软件源即可。pip指定软件源安装命令格式:pipinsta...

【Python第三方库安装】介绍8种情况,这里最全看这里就够了!

**本图文作品主要解决CMD或pycharm终端下载安装第三方库可能出错的问题**本作品介绍了8种安装方法,这里最全的python第三方库安装教程,简单易上手,满满干货!希望大家能愉快地写代码,而不要...

python关于if语句的运用(python中如何用if语句)

感觉自己用的最笨的方式来解这道题...

Python核心技术——循环和迭代(上)

这次,我们先来看看处理查找最大的数字问题上,普通人思维和工程师思维有什么不一样。例如:lst=[3,6,10,5,7,9,12]在lst列表中寻找最大的数字,你可能一眼能看出来,最大值为...

力扣刷题技巧篇|程序员萌新如何高效刷题

很多新手初刷力扣时,可能看过很多攻略,类似于按照类型来刷数组-链表-哈希表-字符串-栈与队列-树-回溯-贪心-动态规划-图论-高级数据结构之类的。可转念一想,即...

“千万别学我!从月薪3000到3万,我靠这3个笨方法逆袭”

3年前,我还在为房租而忧心忡忡,那时月薪仅有3000元;如今,我的月收入3万!很多人都问我是如何做到的,其实关键就在于3个步骤。今天我毫无保留地分享给大家,哪怕你现在工资低、缺乏资源,照着做也能够实...

【独家攻略】Anaconda秒建PyTorch虚拟环境,告别踩坑,小白必看

目录一.Pytorch虚拟环境简介二.CUDA简介三.Conda配置Pytorch环境conda安装Pytorch环境conda下载安装pytorch包测试四.NVIDIA驱动安装五.conda指令一...

入门扫盲:9本自学Python PDF书籍,让你避免踩坑,轻松变大神!

工作后在学习Python这条路上,踩过很多坑。今天给大家推荐9本自学Python,让大家避免踩坑。入门扫盲:让你不会从一开始就从入门到放弃1《看漫画学Python:有趣、有料、好玩、好用》2《Pyth...

整蛊大法传授于你,不要说是我告诉你的

大家好,我是白云。给大家整理一些恶搞代码,谨慎使用!小心没朋友。1.电脑死机打开无数个计算器,直到死机setwsh=createobject("wscript.shell")do...

python 自学“笨办法”7-9章(笨办法学python3视频)

笨办法这本书,只强调一点,就是不断敲代码,从中增加肌肉记忆,并且理解和记住各种方法。第7章;是更多的打印,没错就是更多的打印第八章;打印,打印,这次的内容是fomat的使用与否f“{}{}”相同第九...

取消回复欢迎 发表评论: