3分钟，10行代码教你写Python爬虫

off999 2024-12-14 14:24 36 浏览 0 评论

前言：

本文适合新人小白阅读，大佬们感兴趣就看看，不感兴趣就可以划走啦。

话不多说，先看完整源码：

import requests
from lxml import html
url = 'https://movie.douban.com/'#需要爬数据的网址
header = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬虫伪装
page = requests.Session().get(url, headers=header)
tree = html.fromstring(page.text)
result = tree.xpath('//td[@class="title"]//a/text()')#获取需要的数据
print(result)

下面是我们爬取的数据：

['Tinder 诈骗王', 
'逃亡', '寻找黑暗',
 '正发生', '瀑布',
 '沧海渔生', '抱紧我',
 '美国草根：库尔特·华纳的故事',
 '一切顺利', '甘草披萨']

也就是下面爬取的这个页面里红色框框里面的数据，豆瓣电影本周口碑榜。

添加图片注释，不超过 140 字（可选）

那么，这个爬虫代码是怎么写的呢？我们来看一看

第一步：导入模块

import requests
from lxml import html

Python的强大之处就在于，它的库特别多，使用很方便，这个程序我们需要导入requests，lxml这两个模块。

很简单，用pip指令就好。打开cmd（即终端），输入指令：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn requests

然后回车，等待安装完成。

lxml安装我是用这个指令：

pip install lxml http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

同样回车，等待安装完成。

第二步：爬虫的网址

url = 'https://movie.douban.com/'#需要爬数据的网址

至于为什么选豆瓣，额，大概是传承吧，大家都是从爬豆瓣开始的，这不豆瓣都加反爬机制了，不过这难不倒我们，咱可以给爬虫伪装一下，也就是我们接下来要做的。

第三步：爬虫伪装

header = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
} #爬虫伪装

我们通过更改User-Agent字段来实现网站请求，实现网页应答。具体步骤如下：

1.打开你要爬虫的网页

2.按F12或通过浏览器右上角的“更多工具”选项选择【开发者工具】

3.按F5刷新网页

4.点击Network，再点击Doc

5.找到Headers，查看Request Headers的User-Agent字段，直接复制

6.将刚才复制的User-Agent字段构造成字典形式（即我们的那段代码）

编辑切换为居中

添加图片注释，不超过 140 字（可选）

看不懂英文的话，右上角那里有个设置，可以换成中文。

第四步：爬取数据

result = tree.xpath('//td[@class="title"]//a/text()')#获取需要的数据

这一步是最重要的一步了。怎么写呢，我们来看看：

1.还是打开网页，按F12，点击左上角那个按钮:

2.鼠标点击需要爬取的数据，这里我们点“诈骗王”，如图所示。

添加图片注释，不超过 140 字（可选）

3.看到大红色框框里的东西，是不是和我们最“重要”的代码有很多相似的地方。

再看来最后一行代码中最“重要”的部分。

‘//td[@class=”title”]//a/text()’

1）//td ：这个相当于指定是大目录；

2）[@class=”title”]：这个相当于指定的小目录；

3）//a ：这个相当于最小的目录；

4）/text()：这个是提取其中的数据。

添加图片注释，不超过 140 字（可选）

这里我们就完成啦，是不是感觉爬虫很简单，你学废了吗

python爬虫库

上一篇：一个python爬虫小案例(超简单)
下一篇：手把手教你使用curl2py自动构造爬虫代码并进行网络爬虫

3分钟，10行代码教你写Python爬虫

第一步：导入模块

第二步：爬虫的网址

第三步：爬虫伪装

第四步：爬取数据

相关推荐

取消回复欢迎你发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

3分钟，10行代码教你写Python爬虫

第一步：导入模块

第二步：爬虫的网址

第三步：爬虫伪装

第四步：爬取数据

相关推荐

取消回复欢迎 你 发表评论:

抖音上好看的小姐姐，Python给你都下载了

飞牛NAS部署TVGate Docker项目，实现内网一键转发、代理、jx

全网最简单易懂!495页Python漫画教程，高清PDF版免费下载

win7系统还原步骤图解（win7还原电脑系统的步骤）

Python 3.14 的 UUIDv6/v7/v8 上新，别再用 uuid4 () 啦!

网盘在哪里打开（华为网盘在哪里打开）

python入门到脱坑 输入与输出—str()函数

苹果手机怎么下载软件并安装

linux软件（linux软件图标）

16949认证费用是多少（16949审核员太难考了）

取消回复欢迎你发表评论:

python入门到脱坑输入与输出—str()函数