Python爬虫-面向知乎的答案提取和图片下载
off999 2025-08-31 08:02 85 浏览 0 评论
需求描述:爬取知乎的答案,爬取并下载一个问题下所有回答中的图片。
实现平台:开发工具PyCharm2017,语言版本Python3.6,Chrome谷歌浏览器。
基本原理:1.发送请求,获取网页HTML源码;解析HTML,获取数据;保存数据。2
模拟浏览器登录,获取并解析HTML,获取数据。利用Python中的库即可便捷实现。
功能实现1:知乎答案爬取
实现思路:
1. 首先实现安装好第三方模块requests和bs4并调用。
2. 其次设置Http请求头,利用requests访问网页获取到源代码,利用bs模块中的BeautifulSoup得到解析过后的html。
3. 随后,分别通过对照网页源代码中标签内容进行匹配,分别获取问题标题、问题内容、点赞数以及答案等内容。
4. 最后进行包括知乎答案等信息的打印。
分别对应上述思路进行代码编写。
1. 调用第三方模块。
#-*- coding: UTF-8 -*-
# 爬取知乎答案
import requests
from bs4 import BeautifulSoup
2. 设置Http请求头:可以在Chrome谷歌浏览器的网页中的任意地方按下F12,打开chrome自带的调试工具,在调试工具中选择network标签,F5刷新网页后在左边找到该网页url,点击该url,选择Headers,就可以看到当前网页的Http头。复制到header={}中。
获取源代码并解析:利用requests和BeautifulSoup实现,并返回解析后的body。
#获取网页body里的内容
def get_content(url , data = None):
# 设置Http请求头,根据自己电脑查一下
header={
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate, sdch',
'Accept-Language': 'zh-CN,zh;q=0.8',
'Connection': 'keep-alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'
}
req = requests.get(url, headers=header)
req.encoding = 'utf-8'
bs = BeautifulSoup(req.text, "html.parser") # 创建BeautifulSoup对象
body = bs.body #
return body
3. 标签内容进行class匹配:问题标题——QuestionHeader-title,问题内容——RichText ztext,点赞量——Button VoteButton VoteButton—up,问题回答——ContentItem-time。
#获取问题标题
def get_title(html_text):
data = html_text.find('h1', {'class':' QuestionHeader-title '}) #匹配标签
return data.string.encode('utf-8')
#获取问题内容
def get_question_content(html_text):
data = html_text.find('span', {'class': 'RichText ztext'})
print (data.string)
if data.string is None:
out = ''
for datastring in data.strings:
datastring = datastring.encode('utf-8')
out = out + datastring.encode('utf-8')
print ('内容:\n' + out)
else:
print ('内容:\n' + data.string.encode('utf-8'))
#获取点赞数
def get_answer_agree(body):
agree = body.find('button',{'class': 'Button VoteButton VoteButton--up'})
agree_html = BeautifulSoup(str(agree), "html.parser")
all_buttons = agree_html.find_all("button", {"class": "Button VoteButton VoteButton--up"})
one_button = all_buttons[0]
agree_number = one_button["aria-label"]
print(agree_number)
#获取答案
def get_response(html_text):
out1 = ''
response = html_text.find_all('div', {'class': 'ContentItem-time'})
for index in range(len(response)):
#获取标签
answerhref = response[index].find('a', {'target': '_blank'})
if not(answerhref['href'].startswith('javascript')):
url = 'http:' + answerhref['href']
body = get_content(url)
get_answer_agree(body)
answer = body.find('span', {'class': 'RichText ztext CopyrightRichText-richText css-hnrfcf'})
if answer.string is None:
out = ''
for datastring in answer.strings:
datastring = datastring.encode('utf-8')
out = out + '\n' + str(datastring,encoding = 'utf-8')
else:
print (answer.string.encode('utf-8'))
out1 = out1 + '\n' + out
return url + '\n' + out1
4. 结果输出打印:以一个网址为例,调用之前编写的函数,进行信息的获取和打印。
# 输入要爬取的网址
URL_target = 'https://www.zhihu.com/question/505503990/answer/2276487889'
html_text = get_content(URL_target)
title = get_title(html_text)
print ("标题:" + str(title,encoding = 'utf-8') + '\n')
data = get_response(html_text)
print (data)
功能实现2:知乎图片下载
实现思路:
1. 首先实现安装好chromedriver模拟人为登录浏览器,模拟登录网页,中途拿手机扫码登录。
2. 安装好模块selenium、time、urllib.request 、bs4 和html.parser并调用。
3. 利用chromedriver打开浏览器并登录知乎,利用bs模块中的BeautifulSoup得到解析过后的html。
4. 随后,找到照片并进行下载。
5. 保存所有图片。
思路是先模拟登录网页,(中途拿手机扫码登录),然后逐步爬取所有回答。
1.下载对应Chrome版本的chromedriver。
通过chrome://version/查看版本,下载chromedriver后解压安装。详细可以参考这个说明。
selenium 安装与 chromedriver 安装 :
https://www.cnblogs.com/lfri/p/10542797.html
我的Chrome版本是:94.0.4606.71(正式版本)(64 位),对应文件夹应该放在
C:\Program Files\Google\Chrome\Application
2.分别对应上述思路进行代码编写,安装好模块并调用。
# 爬取知乎问题下的所有图片
from selenium import webdriver
import time
import urllib.request
from bs4 import BeautifulSoup
import html.parser
3.自动化打开浏览器并扫码登录知乎,并解析网页 HTML 信息,查找所有的noscript标签。
def main():
# 确保文件夹中有chromedriver.exe,有的在C:\Program Files x86
chromedriver = 'C:\Program Files\Google\Chrome\Application\chromedriver.exe'
driver = webdriver.Chrome(chromedriver)
time.sleep(5)
driver.get("
https://www.zhihu.com/question/287084175") # 打开想要爬取的知乎页面
time.sleep(5)
# 模拟用户操作
def execute_times(times):
for i in range(times):
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(3)
try:
driver.find_element_by_css_selector('button.QuestionMainAction').click()
print("page" + str(i))
time.sleep(1)
except:
break
# 执行次数
execute_times(5)
# 原网页的信息
result_raw = driver.page_source # 这是原网页 HTML 信息
result_soup = BeautifulSoup(result_raw, 'html.parser')# 然后将其解析
result_bf = result_soup.prettify() # 结构化原 HTML 文件
with open("D:/python安装包
/PycharmProjects/zhihutupian/raw_result.txt", 'w',encoding="utf-8") as raw_result: # 存储路径里的文件夹需要事先创建。
raw_result.write(result_bf)
raw_result.close()
print("爬取回答页面成功!!!")
with open("D:/python安装包
/PycharmProjects/zhihutupian/noscript_meta.txt", 'wb') as noscript_meta:
noscript_nodes = result_soup.find_all('noscript') # 找到所有<noscript>node
noscript_inner_all = ""
for noscript in noscript_nodes:
noscript_inner = noscript.get_text() # 获取<noscript>node内部内容
noscript_inner_all += noscript_inner + "\n"
noscript_all = html.parser.unescape(noscript_inner_all).encode('utf-8') # 将内部内容转码并存储
noscript_meta.write(noscript_all)
noscript_meta.close()
print("爬取noscript标签成功!!!")
4.查找所有图片并命名下载。
img_soup = BeautifulSoup(noscript_all, 'html.parser')
img_nodes = img_soup.find_all('img')
with open("D:/python安装包
/PycharmProjects/zhihutupian/img_meta.txt", 'w') as img_meta:
count = 0
for img in img_nodes:
if img.get('src') is not None:
img_url = img.get('src')
line = str(count) + "\t" + img_url + "\n"
img_meta.write(line)
urllib.request.urlretrieve(img_url, "D:/python安装包
/PycharmProjects/zhihutupian/" + str(count) + ".jpg") # 一个一个下载图片
count += 1
img_meta.close()
print("图片下载成功")
if __name__ == '__main__':
main()
5.最后进行包括知乎图片的保存。
最后,有相关爬虫需求欢迎通过公众号联系我们.
公众号: 320科技工作室
相关推荐
- Kubernetes 核心概念全景图:Pod、Node、Cluster、Control Plane 等
-
想真正读懂Kubernetes的底层运作,你必须理解它的“权力架构”。Pod是什么?Node是什么?ControlPlane又是做什么的?它们之间有什么关系?怎么协同工作?本篇带你构建一个...
- Helm 实战:用 Helm 部署一个 Nginx 应用
-
这一篇,我们将动手实战:用Helm从零部署一个Nginx应用,并掌握HelmChart的结构和参数化技巧。一、准备环境在开始之前,你需要确保环境中具备以下工具:已部署的Kubernet...
- 从零开始:如何在 Linux 上搭建 Nginx + Node.js 高性能 Web 服务
-
在现代互联网服务架构中,Nginx+Node.js已成为轻量级、高性能网站的首选组合。本文将带你从零开始,一步步搭建一个高并发、高可用的Web服务平台,让新手也能轻松掌握生产级部署思路。一、...
- NetBox 最新版 4.4.1 完整安装指南
-
NetBox最新版4.4.1完整安装指南(修正版)by大牛蛙1.系统准备#关闭SELinux和防火墙(仅测试环境)systemctldisable--nowfirewalldse...
- Termux 安装 linux 宝塔面板,搭建 Nginx+PHP+Mysql web 网站环境
-
Termux安装linux宝塔面板,搭建Nginx+PHP+Mysqlweb服务环境,解决启动故障奶妈级教程1.到宝塔面板官网:https://www.bt.cn/new/download...
- OpenEuler系统安装Nginx安装配置_openwrt安装nginx
-
NginxWEB安装时可以指定很多的模块,默认需要安装Rewrite模块,也即是需要系统有PCRE库,安装Pcre支持Rewrite功能。如下为安装NginxWEB服务器方法:源码的路径,而不是编...
- 多级缓存架构实战:从OpenResty到Redis,打造毫秒级响应系统
-
在传统的Web架构中,当用户发起请求时,应用通常会直接查询数据库。这种模式在低并发场景下尚可工作,但当流量激增时,数据库很容易成为性能瓶颈。多级缓存通过在数据路径的不同层级设置缓存,可以显著降低数据库...
- 如何使用 Nginx 缓存提高网站性能 ?
-
快速加载的站点提供了更好的用户体验并且可以拥有更高的搜索引擎排名。通过Nginx缓存提高你的网站性能是一个有效的方法。Nginx是一个流行的开源web服务器,也可以作为web服务器反向代...
- 如何构建企业级Docker Registry Server
-
很多人问我,虚拟机镜像和docker镜像的区别是什么?其实区别非常明显,我们可以通过阅读Dockerfile文件就可以知道这个镜像都做了哪些操作,能提供什么服务;但通过虚拟机镜像,你能一眼看出来虚拟机...
- 如何解决局域网SSL证书问题?使用mkcert证书生成工具轻松搞定
-
“局域网里弹出‘不安全’红锁,老板就在身后盯着演示,那一刻只想原地消失。”别笑,九成前端都经历过。自签证书被Chrome标红,客户以为网站被黑,其实只是缺一张被信任的证。mkcert把这事从半小时缩到...
- Docker 安全与权限控制:别让你的容器变成“漏洞盒子”
-
在享受容器带来的轻量与灵活的同时,我们也必须面对一个现实问题:安全隐患。容器并不是天然安全,错误配置甚至可能让攻击者“越狱”入侵主机!本篇将带你从多个层面强化Docker的安全防护,构建真正可放心...
- Kubernetes生产级管理指南(2025版)
-
在云原生技术持续演进的2025年,Kubernetes已成为企业数字化转型的核心引擎。然而,生产环境中的集群管理仍面临基础设施配置、安全漏洞、运维复杂度攀升等挑战。本文将结合最新行业实践,从基础设施即...
- 云原生工程师日常使用最多的工具和100条高频命令
-
在云原生时代,工程师不仅要熟悉容器化、编排和服务网格,还要掌握大量工具和命令来进行日常运维与开发。本文将从工具篇和命令篇两个角度,详细介绍云原生工程师每天都会用到的核心技能。一、云原生工程师常...
- 用 Jenkins 实现自动化 CI/CD_jenkins api自动执行
-
场景设定(可替换为你的技术栈)语言:Node.js(示例简单,任何语言思路一致)制品:Docker镜像(推送到DockerHub/Harbor)运行环境:Kubernetes(staging...
- 5款好用开源云笔记虚拟主机部署项目推荐
-
在个人数据管理与协同办公场景中,开源云笔记项目凭借可自主部署、数据可控的优势,成为众多用户的首选。以下推荐5款适配虚拟主机部署、功能完善的开源项目,附核心特性与部署要点,助力快速搭建专属云笔记系统。...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- Kubernetes 核心概念全景图:Pod、Node、Cluster、Control Plane 等
- Helm 实战:用 Helm 部署一个 Nginx 应用
- 从零开始:如何在 Linux 上搭建 Nginx + Node.js 高性能 Web 服务
- NetBox 最新版 4.4.1 完整安装指南
- Termux 安装 linux 宝塔面板,搭建 Nginx+PHP+Mysql web 网站环境
- OpenEuler系统安装Nginx安装配置_openwrt安装nginx
- 多级缓存架构实战:从OpenResty到Redis,打造毫秒级响应系统
- 如何使用 Nginx 缓存提高网站性能 ?
- 如何构建企业级Docker Registry Server
- 如何解决局域网SSL证书问题?使用mkcert证书生成工具轻松搞定
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)