百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

10 个 Python 爬虫入门实例(python爬虫技术入门)

off999 2024-10-26 12:10 50 浏览 0 评论

来源:cnblogs.com/h3zh1/p/12548946.html



带伙伴们学习python爬虫,准备了几个简单的入门实例,分享给大家。


涉及主要知识点:

web是如何交互的

requests库的get、post函数的应用

response对象的相关函数,属性

python文件的打开,保存


代码中给出了注释,并且可以直接运行哦


如何安装requests库(安装好python的朋友可以直接参考,没有的,建议先装一哈python环境)


windows用户,Linux用户几乎一样:打开cmd输入以下命令即可,如果python的环境在C盘的目录,会提示权限不够,只需以管理员方式运行cmd窗口


pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

Linux用户类似(ubantu为例): 权限不够的话在命令前加入sudo即可

sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests


1. 爬取强大的BD页面,打印页面信息


# 第一个爬虫示例,爬取百度页面


import requests #导入爬虫的库,不然调用不了爬虫的函数


response = requests.get("http://www.baidu.com")  #生成一个response对象


response.encoding = response.apparent_encoding #设置编码格式


print("状态码:"+ str( response.status_code ) ) #打印状态码


print(response.text)#输出爬取的信息


2. 常用方法之get方法实例,下面还有传参实例


# 第二个get方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.get("http://httpbin.org/get")  #get方法


print( response.status_code ) #状态码


print( response.text )


3. 常用方法之post方法实例,下面还有传参实例


# 第三个 post方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.post("http://httpbin.org/post")  #post方法访问


print( response.status_code ) #状态码


print( response.text )


4. put方法实例


# 第四个 put方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.put("http://httpbin.org/put")  # put方法访问


print( response.status_code ) #状态码


print( response.text )


5. 常用方法之get方法传参实例(1)


如果需要传多个参数只需要用&符号连接即可如下:


# 第五个 get传参方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.get("http://httpbin.org/get?name=hezhi&age=20")  # get传参


print( response.status_code ) #状态码


print( response.text )


6. 常用方法之get方法传参实例(2)


params用字典可以传多个


# 第六个 get传参方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


data = {
  "name":"hezhi",
  "age":20
}
response = requests.get( "http://httpbin.org/get" , params=data )  # get传参


print( response.status_code ) #状态码


print( response.text )


7. 常用方法之post方法传参实例(2) 和上一个有没有很像


# 第七个 post传参方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


data = {
  "name":"hezhi",
  "age":20
}
response = requests.post( "http://httpbin.org/post" , params=data )  # post传参


print( response.status_code ) #状态码


print( response.text )


8. 关于绕过反爬机制,以zh爸爸为例


# 第好几个方法实例


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.get( "http://www.zhihu.com")  #第一次访问知乎,不设置头部信息


print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers,不能正常爬取,状态码不是 200


#下面是可以正常爬取的区别,更改了User-Agent字段


headers = {


    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"


}#设置头部信息,伪装浏览器


response = requests.get( "http://www.zhihu.com" , headers=headers )  #get方法访问,传入headers参数,


print( response.status_code ) # 200!访问成功的状态码


print( response.text )


9. 爬取信息并保存到本地


因为目录关系,在D盘建立了一个叫做爬虫的文件夹,然后保存信息


注意文件保存时的encoding设置


# 爬取一个html并保存


import requests


url = "http://www.baidu.com"


response = requests.get( url )


response.encoding = "utf-8" #设置接收编码格式


print("\nr的类型" + str( type(response) ) )


print("\n状态码是:" + str( response.status_code ) )


print("\n头部信息:" + str( response.headers ) )


print( "\n响应内容:" )


print( response.text )


#保存文件
file = open("D:\\爬虫\\baidu.html","w",encoding="utf")  #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制


file.write( response.text )


file.close()


10. 爬取图片,保存到本地


#保存百度图片到本地


import requests #先导入爬虫的库,不然调用不了爬虫的函数


response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif")  #get方法的到图片响应


file = open("D:\\爬虫\\baidu_logo.gif","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入


file.write(response.content) #写入文件


file.close()#关闭操作,运行完毕后去你的目录看一眼有没有保存成功

< END >

相关推荐

window截图快捷键(windows自带截屏的方法)
window截图快捷键(windows自带截屏的方法)

1、按Prtsc键截图这样获取的是整个电脑屏幕的内容,按Prtsc键后,可以直接打开画图工具,接粘贴使用。也可以粘贴在QQ聊天框或者Word文档中,之后再选择保存即可。2、按Ctrl+Prtsc键截图截屏获得的内容也是整个电脑屏幕,与上面的...

2026-01-14 13:15 off999

win10一定要创建账户吗(win10需要创建microsoft账户吗)

win10系统安装不需要申请微软账号。如果是在安装win10的过程中,则使用本地账户登录,从安装主要步骤完成之后进入后续设置阶段开始,步骤如下:1、首先就是要输入产品密钥,或者点击左下角“以后再说”。...

win10显示已禁用输入法(w10系统已禁用输入法)

在使用win10的过程中,有时候利用第三方软件过度优化开机启动项目就容易导致win10无法打开输入法问题,这个情况是由于ctfmon程序无法正常启动所致,一般表现在电脑桌面右下角显示已禁用ime的提示...

windows pad(windowspad官方网站入口)

平板电脑安装windows方法如下1、首先,下载并安装U启动PE制作工具,这里要特别注意的是,要下载装机版的。2、点开PE制作工具的主界面,插入U盘,等待U盘被制作工具识别出来后。3、点击归还空间,然...

为什么电脑一开机就死机(为什么电脑一开机就死机重启)

一、软件问题:  1、导致死机的一个重要原因就是病毒程序的入侵。大家都知道,病毒程序是一种会破坏计算机软件系统,并占用极大的系统资源的一种恶意攻击程序,它会给计算机本身的软件造成很大的伤害。死机时的首...

0x0000007a蓝屏解救方法win7

0x0000007A说明是内存或虚拟内存(硬盘)的问题,你可以按顺序尝试如下操作:1、更改虚拟内存页面文件位置:我的电脑→右键→属性→高级→性能设置→高级→虚拟内存更改→取消原来选择的驱动器(默认在C...

系统小说排行榜完本经典之作

超级兑换系统超级修仙超级客栈系统貌似高手在异界重生之修仙系统超级修仙系统异界之兑换成圣(贱圣VS奸神)+超级兑换(火山飞狐)+穿越之无敌兑换(开心小帅)+兑换器修仙(轻舞流芒)+...

手机能修复u盘吗(手机修复u盘工具下载)

1.在手机上可以恢复u盘,当手机SD卡或U盘插入电脑中时,如果提示“文件或目录损坏且无法读取”的信息时,我们首先需要对手机SD卡或U盘进行目录修复操作。插入待修复的U盘,打开“我的电脑”,找到Sd卡...

怎么查电脑显卡的信息(电脑怎么查看显卡信息)

要查看电脑的显卡信息,可以按照以下步骤进行操作:1.使用快捷键Win+R打开“运行”对话框。2.在运行对话框中输入“dxdiag”并点击“确定”按钮,打开“DirectX诊断工具”。3....

电脑上找不到输入法怎么办(电脑中找不到输入法)

如果电脑上不显示输入法,您可以尝试以下解决方法:1.检查输入法设置:首先,您可以检查电脑的输入法设置。在Windows系统中,您可以点击任务栏右下角的输入法图标(一般为字母或语言标志),然后选择“显...

win10系统本地连接在哪里(window10的本地连接在哪)

要找到本地连接,可以按照以下步骤在Windows10系统中进行:1.点击“开始”菜单,然后选择“设置”(齿轮图标)。2.在设置窗口中选择“网络和Internet”选项。3.在“网络和Inter...

win10有32位版本吗(win10还有32位的吗)

64位版本好。32位的操作系统处理数据的能力较慢,支持的内存小,并且只支持基于32位的软件,不能运行64位的软件。64位的操作系统处理数据的能力较快,支持的内存较大,能运行32位的软件,也能运行6...

pdf打印机下载(pdf打印机安装程序下载)
  • pdf打印机下载(pdf打印机安装程序下载)
  • pdf打印机下载(pdf打印机安装程序下载)
  • pdf打印机下载(pdf打印机安装程序下载)
  • pdf打印机下载(pdf打印机安装程序下载)
账号密码大全真的(各种账号密码)

英雄号,是4399官方版本的账号:1973024549密码:123456这是自己的,不想玩了,送给看到的有缘人吧^o^1、默认的机顶盒密码6321,也可以进行更改,方法:首先,通过搜索“中国电信”...

windows server2019(windowsserver2019密钥激活码)

WindowsServer2019那是给服务器用的系统。服务器的作用是计算数据,而不是图像处理。所以WindowsServer2019里面精简了大量有关图形的功能。办公和打游戏是需要图像处理的...

取消回复欢迎 发表评论: