python爬虫入门:什么是爬虫,怎么玩爬虫?
off999 2024-10-26 12:10 24 浏览 0 评论
看到这两只爬虫没有?
两只爬虫
两只爬虫
跑得快
跑得快
一只没有..
不好意思
跑题了...
别误会,今天不是要教你怎么玩上面这两只沙雕玩意。
今天,我们正式从0到1
轻松学会 python 爬虫
接下来...
将是学习Python的正确姿势!
小帅b闪亮登场
在你的浏览器里面
输入百度网址
https://www.baidu.com
一回车看到一个网页
大家都很熟悉吧!
然而
你右键,查看网页源代码。
是这个样子的
(源代码的1/100)
“窝里割草”
简简单单一个页面。
这么多密密麻麻的代码
不说了
劝退前端程序员!
还是学习 Python 吧。哈哈哈
那么说这个,和爬虫有什么关系呢?
你有没有想过
这些许许多多的网站
背后都是一些数据
如果我们可以用一个自动化的程序
轻轻松松就能把它们给爬取下来
是不是很爽?
比如,一些小电影的网站
我们只要用 Python
写几行代码
然后一运行
这个程序就帮我们爬取所有的小电影到我们本地
完全不需要我们费一点力气
再比如,你想了解一个行业的趋势
是不是可以把它们往年的数据都爬取下来
然后,对这些数据做一些分析呢?
等等..
这些,以后我们都会讲到!
我们刚刚提到的
一个自动化的程序
就是爬虫
知道了什么是爬虫之后
问题来了
爬虫怎么玩的?
那就偷偷告诉你
在互联网上许许多多的网站
它们都是托管在服务器上的
这些服务器 24 小时运行着
时时刻刻,兢兢业业的等待着别人的请求
所以
我们的爬虫,首先会模拟请求
就好像你在浏览器输入网址,然后回车那样
爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以假装自己是浏览器(添加一些header信息)
大多数的服务器呢,傻不拉的以为是浏览器发送请求
就直接返回数据给爬虫了
当然了,有一些网站比较精明
所以他们会建立一些反爬虫机制
但是,对于我们来说,不在话下
这个是后话了!
反正这个时候呢,服务器把数据返回给我们了
那么我们就可以对这些数据进行猥琐操作了。
不同的情况下,服务器返回给我们的数据格式不一样
有
HTML
JSON
二进制的数据啦
根据不同的情况,我们可以使用不同的方式对他们进行处理。
处理完之后
我们就可以对他们进行保存啦
保存的方式也有几种
数据库
硬盘
等等..
以上就是我们的爬虫的具体爬取流程,这是我们开启爬虫体系的第一篇,接下来我们将一步一步来操作我们的爬虫。
对Python感兴趣的小伙伴,记得私信小编“007”领取全套Python资料哦。
相关推荐
- Alist 玩家请进:一键部署全新分支 Openlist,看看香不香!
-
Openlist(其前身是鼎鼎大名的Alist)是一款功能强大的开源文件列表程序。它能像“万能钥匙”一样,解锁并聚合你散落在各处的云盘资源——无论是阿里云盘、百度网盘、GoogleDrive还是...
- 白嫖SSL证书还自动续签?这个开源工具让我告别手动部署
-
你还在手动部署SSL证书?你是不是也遇到过这些问题:每3个月续一次Let'sEncrypt证书,忘了就翻车;手动配置Nginx,重启服务,搞一次SSL得花一下午;付费证书太贵,...
- Docker Compose:让多容器应用一键起飞
-
CDockerCompose:让多容器应用一键起飞"曾经我也是一个手动启动容器的少年,直到我的膝盖中了一箭。"——某位忘记--link参数的运维工程师引言:容器化的烦恼与...
- 申请免费的SSL证书,到期一键续签
-
大家好,我是小悟。最近帮朋友配置网站HTTPS时发现,还有人对宝塔面板的SSL证书功能还不太熟悉。其实宝塔早就内置了免费的Let'sEncrypt证书申请和一键续签功能,操作简单到连新手都能...
- 飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
前面分享了两期TVGate:Q大的转发代理工具TVGate升级了,操作更便捷,增加了新的功能跨平台内网转发神器TVGate部署与使用初体验现在项目已经开源,并支持Docker部署,本文介绍如何通...
- Docker Compose 编排实战:一键部署多容器应用!
-
当项目变得越来越复杂,一个服务已经无法满足需求时,你可能需要同时部署数据库、后端服务、前端网页、缓存组件……这时,如果还一个一个手动dockerrun,简直是灾难这就是DockerCompo...
- 深度测评:Vue、React 一键部署的神器 PinMe
-
不知道大家有没有这种崩溃瞬间:领导突然要看项目Demo,客户临时要体验新功能,自己写的小案例想发朋友圈;找运维?排期?还要走工单;自己买服务器?域名、SSL、Nginx、防火墙;本地起服务?断电、关...
- 超简单!一键启动多容器,解锁 Docker Compose 极速编排秘籍
-
想要用最简单的方式在本地复刻一套完整的微服务环境?只需一个docker-compose.yml文件,你就能一键拉起N个容器,自动组网、挂载存储、环境隔离,全程无痛!下面这份终极指南,教你如何用...
- 日志文件转运工具Filebeat笔记_日志转发工具
-
一、概述与简介Filebeat是一个日志文件转运工具,在服务器上以轻量级代理的形式安装客户端后,Filebeat会监控日志目录或者指定的日志文件,追踪读取这些文件(追踪文件的变化,不停的读),并将来自...
- K8s 日志高效查看神器,提升运维效率10倍!
-
通常情况下,在部署了K8S服务之后,为了更好地监控服务的运行情况,都会接入对应的日志系统来进行检测和分析,比如常见的Filebeat+ElasticSearch+Kibana这一套组合...
- 如何给网站添加 https_如何给网站添加证书
-
一、简介相信大家都知道https是更加安全的,特别是一些网站,有https的网站更能够让用户信任访问接下来以我的个人网站五岁小孩为例子,带大家一起从0到1配置网站https本次配置的...
- 10个Linux文件内容查看命令的实用示例
-
Linux文件内容查看命令30个实用示例详细介绍了10个Linux文件内容查看命令的30个实用示例,涵盖了从基本文本查看、分页浏览到二进制文件分析的各个方面。掌握这些命令帮助您:高效查看各种文本文件内...
- 第13章 工程化实践_第13章 工程化实践课
-
13.1ESLint+Prettier代码规范统一代码风格配置//.eslintrc.jsmodule.exports={root:true,env:{node...
- 龙建股份:工程项目中标_龙建股份有限公司招聘网
-
404NotFoundnginx/1.6.1【公告简述】2016年9月8日公告,公司于2016年9月6日收到苏丹共和国(简称“北苏丹”)喀土穆州基础设施与运输部公路、桥梁和排水公司出具的中标通知书...
- 福田汽车:获得政府补助_福田 补贴
-
404NotFoundnginx/1.6.1【公告简述】2016年9月1日公告,自2016年8月17日至今,公司共收到产业发展补助、支持资金等与收益相关的政府补助4笔,共计5429.08万元(不含...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)