百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

10 个 Python 爬虫入门实例(python爬虫技术入门)

off999 2024-10-26 12:10 41 浏览 0 评论

来源:cnblogs.com/h3zh1/p/12548946.html



带伙伴们学习python爬虫,准备了几个简单的入门实例,分享给大家。


涉及主要知识点:

web是如何交互的

requests库的get、post函数的应用

response对象的相关函数,属性

python文件的打开,保存


代码中给出了注释,并且可以直接运行哦


如何安装requests库(安装好python的朋友可以直接参考,没有的,建议先装一哈python环境)


windows用户,Linux用户几乎一样:打开cmd输入以下命令即可,如果python的环境在C盘的目录,会提示权限不够,只需以管理员方式运行cmd窗口


pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

Linux用户类似(ubantu为例): 权限不够的话在命令前加入sudo即可

sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests


1. 爬取强大的BD页面,打印页面信息


# 第一个爬虫示例,爬取百度页面


import requests #导入爬虫的库,不然调用不了爬虫的函数


response = requests.get("http://www.baidu.com")  #生成一个response对象


response.encoding = response.apparent_encoding #设置编码格式


print("状态码:"+ str( response.status_code ) ) #打印状态码


print(response.text)#输出爬取的信息


2. 常用方法之get方法实例,下面还有传参实例


# 第二个get方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.get("http://httpbin.org/get")  #get方法


print( response.status_code ) #状态码


print( response.text )


3. 常用方法之post方法实例,下面还有传参实例


# 第三个 post方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.post("http://httpbin.org/post")  #post方法访问


print( response.status_code ) #状态码


print( response.text )


4. put方法实例


# 第四个 put方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.put("http://httpbin.org/put")  # put方法访问


print( response.status_code ) #状态码


print( response.text )


5. 常用方法之get方法传参实例(1)


如果需要传多个参数只需要用&符号连接即可如下:


# 第五个 get传参方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.get("http://httpbin.org/get?name=hezhi&age=20")  # get传参


print( response.status_code ) #状态码


print( response.text )


6. 常用方法之get方法传参实例(2)


params用字典可以传多个


# 第六个 get传参方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


data = {
  "name":"hezhi",
  "age":20
}
response = requests.get( "http://httpbin.org/get" , params=data )  # get传参


print( response.status_code ) #状态码


print( response.text )


7. 常用方法之post方法传参实例(2) 和上一个有没有很像


# 第七个 post传参方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


data = {
  "name":"hezhi",
  "age":20
}
response = requests.post( "http://httpbin.org/post" , params=data )  # post传参


print( response.status_code ) #状态码


print( response.text )


8. 关于绕过反爬机制,以zh爸爸为例


# 第好几个方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.get( "http://www.zhihu.com")  #第一次访问知乎,不设置头部信息


print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers,不能正常爬取,状态码不是 200


#下面是可以正常爬取的区别,更改了User-Agent字段


headers = {


    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"


}#设置头部信息,伪装浏览器


response = requests.get( "http://www.zhihu.com" , headers=headers )  #get方法访问,传入headers参数,


print( response.status_code ) # 200!访问成功的状态码


print( response.text )


9. 爬取信息并保存到本地


因为目录关系,在D盘建立了一个叫做爬虫的文件夹,然后保存信息


注意文件保存时的encoding设置


# 爬取一个html并保存


import requests


url = "http://www.baidu.com"


response = requests.get( url )


response.encoding = "utf-8" #设置接收编码格式


print("\nr的类型" + str( type(response) ) )


print("\n状态码是:" + str( response.status_code ) )


print("\n头部信息:" + str( response.headers ) )


print( "\n响应内容:" )


print( response.text )


#保存文件
file = open("D:\\爬虫\\baidu.html","w",encoding="utf")  #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制


file.write( response.text )


file.close()


10. 爬取图片,保存到本地


#保存百度图片到本地


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif")  #get方法的到图片响应


file = open("D:\\爬虫\\baidu_logo.gif","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入


file.write(response.content) #写入文件


file.close()#关闭操作,运行完毕后去你的目录看一眼有没有保存成功

< END >

相关推荐

戴尔官网保修查询入口(戴尔售后保质期查询)

可以按照以下步骤查询戴尔笔记本电脑的保修期:1.打开戴尔官网:https://www.戴尔.com/zh-cn/售后服务/保修政策.html2.点击页面上方的“服务与支持”按钮,进入戴尔的服务支持...

手机号邮箱登录入口(手机号邮箱官网)

手机163邮箱登录入口如下:163邮箱官网入口:https://smart.mail.163.com/login.htm点击进入登录或者注册邮箱即可。手机浏览器访问进入官网http://www.123...

sd卡(sd卡无法读取怎么修复)

  SD卡是大卡,相机用的;普通的手机内存卡,是小卡,正规的名称是macrosd卡,也就是微型SD卡。可以通过卡套转为普通的SD卡的大小。  其实就是大小不同。但手机上的内存卡,人们经常也俗称为SD...

路由器连接图(网络路由器连接图)
  • 路由器连接图(网络路由器连接图)
  • 路由器连接图(网络路由器连接图)
  • 路由器连接图(网络路由器连接图)
  • 路由器连接图(网络路由器连接图)
windows7蓝牙功能在哪里打开

点击搜索框在windows7系统主界面点击开始菜单,点击打开搜索框。输入命令输入services.msc后回车,在列表中找到并右击BluetoothSupportS...点击属性选择进入属性菜单,...

2010激活密钥(microsoft2010激活密钥)
2010激活密钥(microsoft2010激活密钥)

步骤/方式1officeprofessionalplus2010:(office专业版)6QFdx-pYH2G-ppYFd-C7RJM-BBKQ8Bdd3G-xM7FB-Bd2HM-YK63V-VQFdKVYBBJ-TRJpB-QFQ...

2025-11-19 04:03 off999

联想官方刷新bios工具(联想电脑刷新bios)

刷新BIOS需要使用联想的官方网站或授权维修中心来进行操作。以下是一些基本步骤:1.访问联想的官方网站,找到BIOS更新程序并下载。在下载过程中,请确保选择与您计算机型号匹配的版本。2.将下载的B...

苹果ios14系统下载(苹果ios14.1下载)
苹果ios14系统下载(苹果ios14.1下载)

1方法一步骤/方式一打开Appstore。步骤/方式二在搜索栏点击搜索框。步骤/方式三搜索并点击需要下载的软件。步骤/方式四点击获取。步骤/方式五最后验证ID密码即可。1.在应用商店搜索你要下载的应用名称。2.点击下载按钮,如果要求登...

2025-11-19 03:03 off999

office2010怎么免费永久激活密钥

用这个试试,一个KMS激活工具可以激活2010到2019的Office自家的目前用的就是这个microsoft6477.moe/1716.html直接使用这个Microsoftoffice2010...

类似爱加速的国内ip(类似爱加速的app)
类似爱加速的国内ip(类似爱加速的app)

推荐“V8盒子”。这一款免费无广告的模拟器,不同于其它软件盒子,而是类似于X8沙箱,满足游戏多开,画中画,悬浮球操作,熄屏后台运行等多功能的沙箱盒子.支持一键root,一键安装xposed框架,能在安卓/苹果手机上运行多个安卓/ios虚拟系...

2025-11-19 02:03 off999

阿里旺旺手机客户端(阿里旺旺手机app)

手机淘宝的旺旺在打开商品后,会看到左下角有个旺旺的图标,点击就可以联系了。  阿里旺旺是将原先的淘宝旺旺与阿里巴巴贸易通整合在一起的一个新品牌。它是淘宝和阿里巴巴为商人量身定做的免费网上商务沟通软件,...

最纯净的pe装机工具(pe工具哪个纯净)

U盘装系统步骤:1.制作U盘启动盘。这里推荐大白菜U盘启动盘制作工具,在网上一搜便是。2.U盘启动盘做好了,我们还需要一个GHOST文件,可以从网上下载一个ghost版的XP/WIN7/WIN8系统,...

装一个erp系统多少钱(wms仓库管理软件)

现在主流有客户端ERP和云端ERP两种客户端通常一次买断,价格在万元左右,但是还有隐性费用,你需要支付服务器、数据管理员,此外如果系统需要更新维护,你还需要支付另外一笔不菲的费用。云端ERP:优势...

cad2014序列号和密钥永久(autocad2014序列号和密钥)

1在cad2014中修改标注样式后,需要将其保存2单击“样式管理器”按钮,在弹出的窗口中选择修改后的标注样式,然后单击“设置为当前”按钮,再单击“保存当前样式”按钮,将其保存为新的样式名称3为了...

qq修改密保手机号(qq修改密保手机号是什么意思)

QQ更改绑定的手机号码操作步骤如下:1、打开手机主界面,找到“QQ”软件点击打开。2、输入正确的QQ账户和密码登录到qq主界面。3、点击左上角的头像“图片”,进入到个人中心界面。4、进入到个人中心界面...

取消回复欢迎 发表评论: