百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

python爬虫经典案例,看完这一篇就够了

off999 2024-09-29 16:17 29 浏览 0 评论

urllib2

urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)
在python2.x里面有urllib和urllib2;在python3.x里面就把urllib和urllib2合成一个urllib;urllib3是在python3.x了里面新增的第三方扩展。
urllib2 官方文档:https://docs.python.org/2/lib...
urllib2 源码:https://hg.python.org/cpython...
urllib2 在 python3.x 中被改为urllib.request

来先看一个简单的Demo,通过请求访问百度

# 向指定的url地址发送请求,并返回服务器响应的类文件对象
response = urllib.request.urlopen("http://www.baidu.com/")

# 服务器返回的类文件对象支持Python文件对象的操作方法
# read()方法就是读取文件里的全部内容,返回字符串
html = response.read()

# 打印响应内容
print(html)</pre>

我们已经拿到百度的首页了,但是目前出现了第一个问题就是,当你使用urllib2去访问的时候,它的User-Agent是Python-urllib/3.6 (user-agent决定用户的浏览器)

我们需要稍微伪装下,要不然第一步就会被反爬虫发现

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib.request

# urllib2 的User-Agent: Python-urllib/2.7
# User-Agent 爬虫和反爬虫的第一步
ua_headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
}

# 通过urllib.request.Request() 方法构造一个请求对象
request = urllib.request.Request("http://www.baidu.com/", headers = ua_headers)

# 向指定的url地址发送请求,并返回服务器响应的类文件对象

# urllib.request.urlopen()参数即可以是字符串也可以是对象
response = urllib.request.urlopen(request)

# 服务器返回的类文件对象支持Python文件对象的操作方法
# read()方法就是读取文件里的全部内容,返回字符串
html = response.read()

# 返回 HTTP的响应码,成功返回200,4服务器页面出错,5服务器问题
print(response.getcode())

# 返回 返回实际数据的实际URL,防止重定向问题
print(response.geturl())

# 返回 服务器响应的HTTP报头
print(response.info())

# 打印响应内容
#print(html)

爬取百度贴吧

在url后面直接拼接参数,这种请求方式为get请求

#!/usr/bin/python
#coding:utf-8
from urllib import request,parse



def loadPage(fullUrl,filename):
    """
        作用:根据url发送请求,获取服务器响应文件
        url: 需要爬取的url地址
        filename : 处理的文件名
    """
    print('正在下载' + filename)

    headers = {"User_Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"}

    # 构造请求对象
    request1 = request.Request(fullUrl,headers = headers);
    return request.urlopen(request1).read()

def wirtePage(html,filename):
    """
        作用:将html内容写入到本地
        html:服务器相应的文件内容
    """

    print('正在保存' + filename)

    #文件写入
    with open(filename,'w') as f:
        # 此时打印的html伪bytes格式的,f.write()参数需要字符串
        f.write(html.decode(encoding='utf-8'))

    print ('-' * 30)

def tiebaSpider(url,beginPage,endPage):


    for page in range(beginPage,endPage+1):
        pn = (page-1) * 50
        filename = "第" + str(page) +'页.html'
        fullUrl  = url +'&pn='+str(pn)

        # 发起请求
        html = loadPage(fullUrl,filename)
        print(html)

        # 写网页
        wirtePage(html,filename)


if __name__ == '__main__':
    kw = input('请输入爬去的贴吧名:')
    beginPage = int(input('请输入起始页:'))
    endPage = int(input('请输入结束页'))

    url = 'http://tieba.baidu.com/f?'
    key = parse.urlencode({"kw":kw})
    fullUrl = url + key
    tiebaSpider(fullUrl,beginPage,endPage)

通过POST请求到有道翻译

有些网站的查询传参不是直接在URL上面拼接而且通过post form data进行,这个时候传递就要模拟post请求

from urllib import request,parse

# 通过抓包的方式获取的url,并不是浏览器上显示的url
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"

# 完整的headers
headers = {
        "Accept" : "application/json, text/javascript, */*; q=0.01",
        "X-Requested-With" : "XMLHttpRequest",
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",
        "Content-Type" : "application/x-www-form-urlencoded; charset=UTF-8",
    }

# 用户接口输入
key = input("请输入需要翻译的文字:")

# 发送到web服务器的表单数据
formdata = {
"from" : "AUTO",
"to" : "AUTO",
"smartresult" : "dict",
"client" : "fanyideskweb",
"type" : "AUTO",
"i" : key,
"doctype" : "json",
"keyfrom" : "fanyi.web",
"ue" : "UTF-8",
"version":"2.1",
"action" : "FY_BY_CLICKBUTTON",
"typoResult" : "false"
}

# 经过urlencode转码
data = parse.urlencode(formdata).encode('utf-8')
print(data)

# 如果Request()方法里的data参数有值,那么这个请求就是POST
# 如果没有,就是Get
request1 = request.Request(url, data = data, headers = headers)

print(request.urlopen(request1).read().decode('utf-8'))

抓取ajax豆瓣电影

有些时候页面上面是空的,内容通过ajax来加载,那么我们爬虫需要关注点就应该到数据源这个位置,ajax加载的页面,数据源一定是json,拿到json也就拿到了数据




from urllib import request, parse


url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action"

headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

formdata = {
        "start":"0",
        "limit":"20"
    }

data = parse.urlencode(formdata).encode('utf-8')

request1 = request.Request(url, data = data, headers = headers)

print(request.urlopen(request1).read().decode('utf-8'))

相关推荐

apisix动态修改路由的原理_动态路由协议rip的配置

ApacheAPISIX能够实现动态修改路由(DynamicRouting)的核心原理,是它将传统的静态Nginx配置彻底解耦,通过中心化配置存储(如etcd)+OpenRest...

使用 Docker 部署 OpenResty Manager 搭建可视化反向代理系统

在之前的文章中,xiaoz推荐过可视化Nginx反向代理工具NginxProxyManager,最近xiaoz还发现一款功能更加强大,界面更加漂亮的OpenRestyManager,完全可以替代...

OpenResty 入门指南:从基础到动态路由实战

一、引言1.1OpenResty简介OpenResty是一款基于Nginx的高性能Web平台,通过集成Lua脚本和丰富的模块,将Nginx从静态反向代理转变为可动态编程的应用平台...

OpenResty 的 Lua 动态能力_openresty 动态upstream

OpenResty的Lua动态能力是其最核心的优势,它将LuaJIT嵌入到Nginx的每一个请求处理阶段,使得开发者可以用Lua脚本动态控制请求的生命周期,而无需重新编译或rel...

LVS和Nginx_lvs和nginx的区别

LVS(LinuxVirtualServer)和Nginx都是常用的负载均衡解决方案,广泛应用于大型网站和分布式系统中,以提高系统的性能、可用性和可扩展性。一、基本概念1.LVS(Linux...

外网连接到内网服务器需要端口映射吗,如何操作?

外网访问内网服务器通常需要端口映射(或内网穿透),这是跨越公网与私网边界的关键技术。操作方式取决于网络环境,以下分场景详解。一、端口映射的核心原理内网服务器位于私有IP地址段(如192.168.x.x...

Nginx如何解决C10K问题(1万个并发连接)?

关注△mikechen△,十余年BAT架构经验倾囊相授!大家好,我是mikechen。Nginx是大型架构的必备中间件,下面我就全面来详解NginxC10k问题@mikechen文章来源:mikec...

炸场!Spring Boot 9 大内置过滤器实战手册:从坑到神

炸场!SpringBoot9大内置过滤器实战手册:从坑到神在Java开发圈摸爬滚打十年,见过太多团队重复造轮子——明明SpringBoot自带的过滤器就能解决的问题,偏偏要手写几十...

WordPress和Typecho xmlrpc漏洞_wordpress主题漏洞

一般大家都关注WordPress,毕竟用户量巨大,而国内的Typecho作为轻量级的博客系统就关注的人并不多。Typecho有很多借鉴WordPress的,包括兼容的xmlrpc接口,而WordPre...

Linux Shell 入门教程(六):重定向、管道与命令替换

在前几篇中,我们学习了函数、流程控制等Shell编程的基础内容。现在我们来探索更高级的功能:如何控制数据流向、将命令链接在一起、让命令间通信变得可能。一、输入输出重定向(>、>>...

Nginx的location匹配规则,90%的人都没完全搞懂,一张图让你秒懂

刚配完nginx网站就崩了?运维和开发都头疼的location匹配规则优先级,弄错顺序直接导致500错误。核心在于nginx处理location时顺序严格:先精确匹配=,然后前缀匹配^~,接着按顺序正...

liunx服务器查看故障命令有那些?_linux查看服务器性能命令

在Linux服务器上排查故障时,需要使用一系列命令来检查系统状态、日志文件、资源利用情况以及网络状况。以下是常用的故障排查命令,按照不同场景分类说明。1.系统资源相关命令1.1查看CPU使...

服务器被入侵的常见迹象有哪些?_服务器入侵可以被完全操纵吗

服务器被入侵可能会导致数据泄露、服务异常或完全失控。及时发现入侵迹象能够帮助你尽早采取措施,减少损失。以下是服务器被入侵的常见迹象以及相关的分析与处理建议。1.服务器被入侵的常见迹象1.1系统性能...

前端错误可观测最佳实践_前端错误提示

场景解析对于前端项目,生产环境的代码通常经过压缩、混淆和打包处理,当代码在运行过程中产生错误时,通常难以还原原始代码从而定位问题,对于深度混淆尤其如此,因此Mozilla自2011年开始发起并...

8个能让你的Kubernetes集群“瞬间崩溃”的配置错误

错误一:livenessProbe探针“自杀式”配置——30秒内让Pod重启20次现象:Pod状态在Running→Terminating→CrashLoopBackOff之间循环,重启间隔仅...

取消回复欢迎 发表评论: