百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

用Python爬虫快速下载全网小说(python爬虫怎么爬小说)

off999 2024-11-07 11:41 30 浏览 0 评论

如今网络上很多小说网站都有免费的小说阅读,但是它不提供下载全本的服务,目的也是为了获得更多的流量,资源君就不服了,今天刚好看到一个小说网站,就想弄本小说来看看,于是拿起电脑,噼里啪啦写了一个下载小说的Python代码,下面我来带大家读一读代码(具体的代码讲解我已经写在注释里了)!


1.首先第一步,导入两个我们需要的包

# 用于获取网页的html
from urllib import request
# 用于解析html
from bs4 import BeautifulSoup

2. 我们来分析一下,我们要抓取的小说页面

(广告还挺显眼的)

我们看下这个界面然后再来看看html源码

我们会发现,我框住的地方正是我们所需要的地方,但是注意上面的最新章节和我们的正式的小说目录也就是下面的地方,他们都处于<div class='box1'>中,待会大家可以看看我是怎么处理的。


然后再来看看小说阅读的界面:

这个界面就很简单了,我们来看看HTML源码:


很容易看到<h1>标签中的正是每一章的标题,<p>标签中的也就是正文

OK,经过我们初步分析,我们可以开始写代码了!


3.首先我们写出获取网页html源码的一个方法:

# 得到网页的html
def getHtml(url):
    url = url
    res = request.urlopen(url)
    res = res.read().decode()
    # print(res)
    return res

这个方法传入一个url,会返回一个html源码


4.然后我们再来写一下,获取整本小说所有章节的链接的方法:

# 解析小说章节页面,获取所有章节的子链接
def jsoupUrl(html):
    # 获取soup对象
    url_xiaoshuo = BeautifulSoup(html)
    # 因为我们要拿取class为box1中的div
    class_dict = {'class': 'box1'}
    url_xiaoshuo = url_xiaoshuo.find_all('div', attrs=class_dict)
    # 因为分析html中的代码可以发现div的class为box1的有两个,通过上面的代码返回的是一个list格式的结果,所以下面的索引应该是1
    # 我们要获取li中的值,所以find_all,这个方法返回的是一个list集合
    url_xiaoshuo = url_xiaoshuo[1].find_all('li')
    # print(url_xiaoshuo)
    # 创建一个集合,用于存放每个章节的链接
    url_xs = []
    for item in url_xiaoshuo:
        # 获取每个元素中的href值
        url = item.a['href']
        # 将值传入url_xs集合中
        url_xs.append(url)
    return url_xs

具体的解释,我已经写在注释里了,不懂的可以在公众号后台留言


5.我们获取到每个章节的链接之后,我们就需要把每一章节的内容给弄下来并且把它写入到txt文本而且每个文本的标题为章节的标题

# 解析小说每个章节的的主要内容
def jsoupXiaoshuo(list):
    for item in list:
        html = getHtml(item)
        html = BeautifulSoup(html)
        # 获取小说标题
        title = html.h1.get_text()
        xiaoshuo = html.find_all('p')

        for item in xiaoshuo:
            str = item.get_text()
            # open中的第二个参数是让每一次的字符串接连到上一个字符串,千万不能是w
            with open(title + '.txt', 'a') as f:
                f.write(str+'\n')

6.最后我们在main方法中运行这几个方法即可:

if __name__ == '__main__':
    html = getHtml("http://www.136book.com/dadaozhaotian/")

    url_xs = jsoupUrl(html)

    jsoupXiaoshuo(url_xs)



大功告成!

不懂的可以在公众号后台留言,我全部都会回复的哦!



相关推荐

虚拟号码发送短信平台(虚拟手机号收短信平台)

用虚拟手机号给别人发送短信的方法如下1、下载安装定时达人软件(安卓手机端),进入首页,点击下部的“添加新任务”,左边选择“通信”项。2、这时就可以看到右边的“虚拟电话”和“虚拟短信”选项。3、点击进入...

免费阅读软件(一念永恒小说免费阅读软件)

  追书免费全本小说、追书神器免费版、易追书、全本追书阅读器等软件都是比较好用的免费读书软件。具体介绍如下:  1、追书免费全本小说,免费阅读热门网络小说;  2、追书神器免费版,有海量的书库,更...

qq聊天软件免费下载安装(qq聊天应用下载)

首先右击你想下载的聊天记录的好友头像,这时把鼠标放到“聊天记录”上,你会看到三个选项,点击“查看聊天记录”,进入“信息管理器”界面。界面分为两部分,左边是你的好友名单,右边是详细的聊天记录,同...

下载官方浏览器(下载官方浏览器安装到桌面)

当我们在使用ie浏览器时或是操作电脑时,由于偶尔的不小心或是误点了某些安全提示,可能会导致ie浏览器无法使用下载功能,而导致ie浏览器无法下载文件和软件。首先我们来确认是安全软件阻止还是防火墙阻止还是...

万能种子搜索神器app(万能种子搜索神器2.9.9)

你好,万能播放器是一款功能强大的音视频播放软件,通常需要购买激活码或者注册码来激活使用。具体的激活方式可能因软件版本和开发者而异,以下是一般的激活步骤:1.购买激活码:前往官方网站或授权渠道购买激活...

word免费版电脑版(word office免费版)

不同版本也不一样1.目前电脑中office365是订阅制,没有永久免费的政策。office2016与office2019可以永久激活使用。2、永久激活版本在电脑中只要自带office2016或者off...

可以免费下载音乐的app(可以免费下载音乐的软件并传到U盘)

目前市场上有不少免费的音乐下载软件,比如QQ音乐、网易云音乐等。这些免费的音乐下载软件一般会提供不同种类的音乐,从流行歌曲到经典老歌都可以找到,除此之外,这些软件还会针对用户进行推荐,根据用户的音乐口...

office2007免安装绿色版(office2007绿色完整版)

把你的绿色版删除!附件的压缩包里有微软提供的卸载程序!运行一遍就可以了!office2007哪个版本好?针对office2007哪个版本好,office2007的版本主要有office2007官方下载...

魔兽官方对战平台(魔兽官方对战平台什么时候回归)

魔兽争霸的对战平台每个时间段都不一样。以前最后的就是浩方队员平台,还有QQ对战平台,后来又出来了vs对战平台。其中开始的浩方平台高手多,后来vs平台出来后大量高手都跑过去了,QQ平台一般菜鸟比较多。...

三国策略手游(三国策略手游试玩)

率土之滨官方版是一款超级好玩的全新策略三国竞技冒险手游,高清质风格的游戏画面能够带你体验全新的策略战斗,高度自由的竞技玩法,玩家可以在游戏中打造属于自己的三国世界1、《极无双》:3D动作军团征战手游《...

在线音频转换器(在线音频转换器Audio)

音频转换器是一种工具,它可以将一个音频格式转换成另外一个格式。使用它非常简单,首先打开音频转换器软件,然后选择需要转换的音频文件,设置输出格式和参数,最后点击转换按钮即可完成转换。注意,在设置输出格式...

拼音输入法哪个最好用(电脑打字常用输入法)

拼音输入法推荐使用谷歌拼音输入法。谷歌的拼音输入法,有五大特色:智能输入:选词和组句准确率高,能聪明地理解您的意图,短句长句,随想随打。时尚语汇:海量词库整合了互联网上的流行语汇和热门搜索词。...

ps软件官方免费下载电脑版免费

1:点击下载好的安装包先进行解压,然后点击“Photoshop_CS6_CHS_lite.exe”文件2:在弹开的界面中点击“自定义安装”,这里小编说明一下,如果用户选择“快速安装”的话,那么软件的安...

传奇盒子平台大全(传奇盒子赚钱)

在996传奇盒子中,会员玩家可以在“我的游戏”中通过“云玩”进入之前体验过的传奇游戏,开启挂机模式后,就能在“云多开”系统里观察到自己的云设备和正在进行云游戏状态的传奇游戏,如果点进手机后台,还能看到...

pdf查看软件(查看pdf格式的软件)

pdf当然可以有查找功能:1、第一步:首先我们要使用WPSOffice打开PDF文档。2、第二步:我们需要依次点击“开始”--->“查找”(或使用快捷键“Ctrl+F”)。3、第三步:我们在查...

取消回复欢迎 发表评论: