Python爬取小说技术指南(python爬取文章)
off999 2025-05-11 00:13 2 浏览 0 评论
在 Python 中爬取小说需要遵循法律法规和网站的服务条款,请确保你有权获取目标内容。以下是使用 Python 爬取小说的通用技术流程
安装依赖库
pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple
示例代码
import requests
from bs4 import BeautifulSoup
import time
# 目标目录页URL
url = "http://www.bequ6.org/144_144551/"
# 模拟浏览器请求头
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
# 获取目录页内容
def get_chapter_links(url):
try:
response = requests.get(url, headers=headers)
response.encoding = "utf-8" # 根据实际网页编码调整
soup = BeautifulSoup(response.text, "html.parser")
# 假设章节链接在<div id="list">下的<dd><a>标签中(需根据实际HTML结构调整)
chapter_list = soup.find("div", id="list")
links = chapter_list.find_all("a")
# 拼接完整URL并返回
base_url = url.rsplit("/", 2)[0] # 获取基础URL
return [f"{base_url}/{link.get('href')}" for link in links]
except Exception as e:
print(f"获取章节链接失败: {e}")
return []
# 获取单章内容
def get_chapter_content(chapter_url):
try:
response = requests.get(chapter_url, headers=headers)
response.encoding = "utf-8"
soup = BeautifulSoup(response.text, "html.parser")
# 假设标题在<h1>标签中
title = soup.find("h1").text.strip()
# 假设正文在<div id="content">中
content = soup.find("div", id="content").text.strip()
return title, content
except Exception as e:
print(f"获取章节内容失败: {chapter_url} - {e}")
return None, None
# 主程序
if __name__ == "__main__":
# 获取所有章节链接
chapter_links = get_chapter_links(url)
print(f"共找到 {len(chapter_links)} 个章节")
# 遍历章节并保存内容
with open("novel_content.txt", "w", encoding="utf-8") as f:
for link in chapter_links:
title, content = get_chapter_content(link)
if title and content:
f.write(f"\n\n{title}\n\n")
f.write(content)
print(f"已保存章节: {title}")
time.sleep(1) # 防止请求过快被封
print("小说内容已保存到 novel_content.txt")
关键注意事项
- 反爬机制
- 添加 headers 模拟浏览器请求。
- 使用 time.sleep() 控制请求频率。
- 部分网站需要处理 Cookies 或验证码(需更复杂方法)。
- 动态加载内容
如果章节内容通过 JavaScript 动态加载,需使用 Selenium 或 requests-html 库。 - 内容清洗
使用正则表达式或字符串处理去除广告等无关内容。 - 异常处理
添加 try-except 处理网络错误或解析失败。
法律提醒
务必遵守以下原则:
- 仅爬取允许公开访问且无版权保护的内容。
- 不得将爬取内容用于商业用途。
- 尊重网站的 robots.txt 协议。
援共小说收藏
最后分享一些稀有小说,收集整理不易,多谢打赏!!
不定期更新收集到的小说,建议收藏!!
可txt免费文本下载,无网络也可阅读!!
相关推荐
- 咱村里有个老爷子,居然自学起了Python编程
-
咱村里有个老爷子,没什么文化,居然自学起了Python编程,还搞出个“智能喂鸡系统”,这事儿可把整个村子都惊到了。要说这老爷子,平时就爱琢磨些新鲜玩意儿。一开始,大家还以为他是瞎折腾,毕竟都一把年纪了...
- 真上头!清华打造的最全Python教程,通俗易懂,学不会我退出IT圈
-
前言随着人工智能的发展,Python近两年也是大火,越来越多的人加入到Python学习大军,对于毫无基础的人该如何入门Python呢?小编这里整理了一套python编程零基础自学教程,清华大佬196小...
- 如何学好Python技术(怎么才能学会python)
-
现在python发展势头很猛,都想快速学好它,其实学任何一个语言没有太多好的秘诀,一般情况下,还是少不了你努力刻苦的样子。学好一门技术并不容易,很多人推荐学习python,在于比其他语言的约束,或者...
- 如何高效且系统地自学Python?(自己学python怎么学)
-
关于这个问题,我也算有些话语权吧!5年多经验的我,今天和大家分享一套系统性学习Python的方法,几周内系统性地学会Python并不是啥难事!首先,学习Python确立明确的学习目标至关重要。要系统性...
- 使用 Python 监控文件系统(基于python的监控系统)
-
前言在我们使用服务器的时候,有时候需要监控文件或文件夹的变化。例如,定期扫描文件夹下是否有某一类型的文件生成。今天,我们介绍如何使用Python来监控文件系统。在Python中,主要有两个监控...
- Python文件读写最佳实践:关键操作的异常处理
-
在Python中进行文件操作时,合理的异常处理是保证程序健壮性的关键。以下是针对文件操作异常处理的全面指南。一、为什么需要异常处理?文件操作可能失败的常见原因:文件不存在(FileNotFoundEr...
- Python编程笔记(python编程入门与案例详解)
-
1.Python简介Python是一种解释型、高级和通用的编程语言。它通过显著的缩进使用来强调代码的可读性。#HelloWorldprogramprint("Hello,World...
- Python目录与文件操作教程(python word目录)
-
大家好,我是ICodeWR。今天要记录的是如何使用Python进行常见的目录和文件操作。Python提供了强大的内置模块来处理文件和目录操作。1.基本模块介绍Python中主要使用以下模块进行文件...
- 自动创建 Python 的 requirements.txt 文件
-
技术背景在Python开发中,requirements.txt文件用于记录项目所依赖的第三方库及其版本,方便在不同环境中部署项目。然而,当从GitHub下载Python源代码时,有时会缺...
- Python文件操作指南(python 操作文件)
-
一、核心函数open()精解基本语法open(file,mode='r',encoding=None,errors=None,newline=None)关键参数解析1.f...
- Python 实现从文本文件提取数据并分析保存
-
一、引言在日常的数据处理工作中,我们经常会遇到从文本文件中提取特定信息并进行分析的需求。本文将详细介绍如何使用Python编写代码,从一个包含用户网络使用信息的文本文件中提取用户姓名、入站流量和出...
- 22-3-Python高级特性-上下文管理器
-
4-上下文管理器4-1-概念上下文管理器是一种实现了`__enter__()`和`__exit__()`方法的对象;用于管理资源的生命周期,如文件的打开和关闭、数据库连接的建立和断开等。使用...
- python:最简单爬虫之使用Scrapy框架爬取小说
-
python爬虫框架中,最简单的就是Scrapy框架。执行几个命令就能生成爬虫所需的项目文件,我们只需要在对应文件中调整代码,就能实现整套的爬虫功能。以下在开发工具PyCharm中用简单的Demo项目...
- Python爬取小说技术指南(python爬取文章)
-
在Python中爬取小说需要遵循法律法规和网站的服务条款,请确保你有权获取目标内容。以下是使用Python爬取小说的通用技术流程安装依赖库pipinstallrequestsbeauti...
- python原始套接字socket下载http网页文件到txt
-
python原始套接字socket下载http网页文件到txtimportsocketdefdownload_webpage(url,output_file):try:...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)