百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python爬取小说技术指南(python爬取文章)

off999 2025-05-11 00:13 2 浏览 0 评论

在 Python 中爬取小说需要遵循法律法规和网站的服务条款,请确保你有权获取目标内容。以下是使用 Python 爬取小说的通用技术流程

安装依赖库

pip install requests beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple

示例代码

import requests
from bs4 import BeautifulSoup
import time

# 目标目录页URL
url = "http://www.bequ6.org/144_144551/"

# 模拟浏览器请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# 获取目录页内容
def get_chapter_links(url):
    try:
        response = requests.get(url, headers=headers)
        response.encoding = "utf-8"  # 根据实际网页编码调整
        soup = BeautifulSoup(response.text, "html.parser")
        
        # 假设章节链接在<div id="list">下的<dd><a>标签中(需根据实际HTML结构调整)
        chapter_list = soup.find("div", id="list")
        links = chapter_list.find_all("a")
        
        # 拼接完整URL并返回
        base_url = url.rsplit("/", 2)[0]  # 获取基础URL
        return [f"{base_url}/{link.get('href')}" for link in links]
    except Exception as e:
        print(f"获取章节链接失败: {e}")
        return []

# 获取单章内容
def get_chapter_content(chapter_url):
    try:
        response = requests.get(chapter_url, headers=headers)
        response.encoding = "utf-8"
        soup = BeautifulSoup(response.text, "html.parser")
        
        # 假设标题在<h1>标签中
        title = soup.find("h1").text.strip()
        
        # 假设正文在<div id="content">中
        content = soup.find("div", id="content").text.strip()
        
        return title, content
    except Exception as e:
        print(f"获取章节内容失败: {chapter_url} - {e}")
        return None, None

# 主程序
if __name__ == "__main__":
    # 获取所有章节链接
    chapter_links = get_chapter_links(url)
    print(f"共找到 {len(chapter_links)} 个章节")
    
    # 遍历章节并保存内容
    with open("novel_content.txt", "w", encoding="utf-8") as f:
        for link in chapter_links:
            title, content = get_chapter_content(link)
            if title and content:
                f.write(f"\n\n{title}\n\n")
                f.write(content)
                print(f"已保存章节: {title}")
            time.sleep(1)  # 防止请求过快被封
    
    print("小说内容已保存到 novel_content.txt")

关键注意事项

  1. 反爬机制
  2. 添加 headers 模拟浏览器请求。
  3. 使用 time.sleep() 控制请求频率。
  4. 部分网站需要处理 Cookies 或验证码(需更复杂方法)。
  5. 动态加载内容
    如果章节内容通过 JavaScript 动态加载,需使用 Selenium 或 requests-html 库。
  6. 内容清洗
    使用正则表达式或字符串处理去除广告等无关内容。
  7. 异常处理
    添加 try-except 处理网络错误或解析失败。

法律提醒

务必遵守以下原则

  1. 仅爬取允许公开访问且无版权保护的内容。
  2. 不得将爬取内容用于商业用途。
  3. 尊重网站的 robots.txt 协议。

援共小说收藏

最后分享一些稀有小说,收集整理不易,多谢打赏!!
不定期更新收集到的小说,建议收藏!!
可txt免费文本下载,无网络也可阅读!!

相关推荐

咱村里有个老爷子,居然自学起了Python编程

咱村里有个老爷子,没什么文化,居然自学起了Python编程,还搞出个“智能喂鸡系统”,这事儿可把整个村子都惊到了。要说这老爷子,平时就爱琢磨些新鲜玩意儿。一开始,大家还以为他是瞎折腾,毕竟都一把年纪了...

真上头!清华打造的最全Python教程,通俗易懂,学不会我退出IT圈

前言随着人工智能的发展,Python近两年也是大火,越来越多的人加入到Python学习大军,对于毫无基础的人该如何入门Python呢?小编这里整理了一套python编程零基础自学教程,清华大佬196小...

如何学好Python技术(怎么才能学会python)

现在python发展势头很猛,都想快速学好它,其实学任何一个语言没有太多好的秘诀,一般情况下,还是少不了你努力刻苦的样子。学好一门技术并不容易,很多人推荐学习python,在于比其他语言的约束,或者...

如何高效且系统地自学Python?(自己学python怎么学)

关于这个问题,我也算有些话语权吧!5年多经验的我,今天和大家分享一套系统性学习Python的方法,几周内系统性地学会Python并不是啥难事!首先,学习Python确立明确的学习目标至关重要。要系统性...

使用 Python 监控文件系统(基于python的监控系统)

前言在我们使用服务器的时候,有时候需要监控文件或文件夹的变化。例如,定期扫描文件夹下是否有某一类型的文件生成。今天,我们介绍如何使用Python来监控文件系统。在Python中,主要有两个监控...

Python文件读写最佳实践:关键操作的异常处理

在Python中进行文件操作时,合理的异常处理是保证程序健壮性的关键。以下是针对文件操作异常处理的全面指南。一、为什么需要异常处理?文件操作可能失败的常见原因:文件不存在(FileNotFoundEr...

Python编程笔记(python编程入门与案例详解)

1.Python简介Python是一种解释型、高级和通用的编程语言。它通过显著的缩进使用来强调代码的可读性。#HelloWorldprogramprint("Hello,World...

Python目录与文件操作教程(python word目录)

大家好,我是ICodeWR。今天要记录的是如何使用Python进行常见的目录和文件操作。Python提供了强大的内置模块来处理文件和目录操作。1.基本模块介绍Python中主要使用以下模块进行文件...

自动创建 Python 的 requirements.txt 文件

技术背景在Python开发中,requirements.txt文件用于记录项目所依赖的第三方库及其版本,方便在不同环境中部署项目。然而,当从GitHub下载Python源代码时,有时会缺...

Python文件操作指南(python 操作文件)

一、核心函数open()精解基本语法open(file,mode='r',encoding=None,errors=None,newline=None)关键参数解析1.f...

Python 实现从文本文件提取数据并分析保存

一、引言在日常的数据处理工作中,我们经常会遇到从文本文件中提取特定信息并进行分析的需求。本文将详细介绍如何使用Python编写代码,从一个包含用户网络使用信息的文本文件中提取用户姓名、入站流量和出...

22-3-Python高级特性-上下文管理器

4-上下文管理器4-1-概念上下文管理器是一种实现了`__enter__()`和`__exit__()`方法的对象;用于管理资源的生命周期,如文件的打开和关闭、数据库连接的建立和断开等。使用...

python:最简单爬虫之使用Scrapy框架爬取小说

python爬虫框架中,最简单的就是Scrapy框架。执行几个命令就能生成爬虫所需的项目文件,我们只需要在对应文件中调整代码,就能实现整套的爬虫功能。以下在开发工具PyCharm中用简单的Demo项目...

Python爬取小说技术指南(python爬取文章)

在Python中爬取小说需要遵循法律法规和网站的服务条款,请确保你有权获取目标内容。以下是使用Python爬取小说的通用技术流程安装依赖库pipinstallrequestsbeauti...

python原始套接字socket下载http网页文件到txt

python原始套接字socket下载http网页文件到txtimportsocketdefdownload_webpage(url,output_file):try:...

取消回复欢迎 发表评论: