当前位置：网站首页 > 技术资源 > 正文

爬虫是如何实现的（爬虫有几种方法）

off999 2025-04-09 19:05 36 浏览 0 评论

爬虫的基本原理和基本库使用

爬虫简单来说就是获取网页并提取和保存信息的自动化程序。

获取网页

获取网页的源代码：向网站的服务器发送一个请求，返回的响应体便是网页源代码。

提取信息

分析网页源代码，从中提取我们想要的数据。最通用的方式便是采用正则表达式提取

保存数据

将提取到的数据保存到某处以便以后使用

自动化程序

利用爬虫代替我们完成这份爬取工作的自动化程序

爬虫过程中遇到的一些情况：比如403错误，打开网页一看，可能会看到"您的ip访问频率过高"这样提示，是因为网站采用了一些反爬虫的措施，这个时候我们可以使用代理，所谓的代理，就是代理服务器，就是一个网络信息的中转站，正常请求一个网站的时候，是发送给web服务器，web服务器吧响应传回给我们，如果我们设置了代理服务器，就相当于本机和服务器之间搭了一座桥，本机向代理服务器发送请求，再由代理服务器发送给Web服务器。再由代理服务器把web服务器返回的响应转发本机，这样我们就实现了IP伪装

网上免费代理比较多，但最好筛选一下可用代理，付费的质量会比免费代理好很多

然后我们正式来开始学习爬虫的一些基本使用库(python3环境),这里我们用的是pycharm软件

使用urllib

Urlopen

Urllib.request模块提供了最基本的构造HTTP请求的方法，可以利用它模拟浏览器一个请求发起的过程,这里我们以python官网为例

import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(response.read().decode('utf-8'))

这样我们就完成了python官网的抓取

2.Type

然后我们可以用type()方法输出响应的类型

import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(type(response))

可以发现他是一个HTTPResponse类型对象，主要包含read(),readinto(),getheader(name),getheaders()等方法。

我们可以把它赋值为response变量，然后就可以调用这些方法和属性，得到返回结果的一系列信息了

例如：

import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(response.status)

返回200代表请求成功，在本篇文章末尾会有一张状态码表，可以进行对照

import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(response.getheaders())

输出响应的状态码和响应的头信息import urllib.requestresponse=urllib.request.urlopen('https://www.python.org')print(response.getheader('Server'))

传递了一个server值获取了响应头中的server值，返回的意思是服务器用nginx搭建的

如果想给链接传一些参数:

DATA参数：如果添加该函数，需要使用byte()方法将参数转化为字节流编码格式的内容，如果传递了这个函数，则它的请求方式就不是GET方式，而是POST方式，这里我们请求站点是http://httpbin.org/post，他可以测试post

import parseimport urllib.requestdata=bytes(urllib.parse.urlencode({'word':'Hello'}),encoding='utf-8')#将字符转化为字符串response=urllib.request.urlopen('http://httpbin.org/post',data=data)print(response.read())

可以看到我们传递的参数在form字段中

timeout参数：用于设置超时时间（s），如果超出设置的时间没有得到相应，就会抛出异常，不指定参数就会使用全局默认时间

import urllib.requestresponse=urllib.request.urlopen('http://httpbin.org/get',timeout=1)print(response.read())

因为我们设置的时间1秒，超过1秒后服务器没响应，因此抛出异常

因此我们可以设置这个超时时间来控制一个网页长时间没有响应后，就跳过它的抓取

import socketimport urllib.requestimport urllib.errortry: response=urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)except urllib.error.URLError as e: if isinstance(e.reason,socket.timeout): print('TIME OUT')

设置时间为0.1s,因为太短了得不到服务器响应，因此打印timeout

Request

我们知道利用urlopen（）方法可以实现最基本的请求发起，但这几个简单参数不足以构建个完整的请求，如果请求中需要加入Headers等信息，可以利用Request来构建

from urllib import request,parseurl='http://httpbin.org/post'headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)','Host':'httpbin.org'}dict={ 'name' :'Germey'}data=bytes(parse.urlencode(dict),encoding='utf-8')req=request.Request(url=url,headers=headers,method='POST')response=request.urlopen(req)print(response.read().decode('utf-8'))