百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

超详细的python爬虫案例,一次爬取上百篇文章

off999 2024-10-26 12:11 67 浏览 0 评论

一次爬多篇文章,逻辑是先从主网址爬到每篇文章的网址,再从各个网址处爬取文章,很简单的静态网页爬取,不需考虑反扒问题。话不多说,直接案例说话。

实例:从https://www.biquge.com.cn/book/24032/,爬取小说的全部章节的内容。


实现方法:requests 访问 + BeautifulSoup解析

1、目标网址是静态网页,浏览网址和数据网址相同,可直接使用。

import requests                           # 导入requests库
from bs4 import BeautifulSoup  # 导入BeautifulSoup库

url = ''https://www.biquge.com.cn/book/23341/''  # 准备好目标网址

2、requests 访问网址获得网页

打开浏览器控制台,查看Network下的Response发现有我们需要用的章节的标题和链接,用requests访问网址,就是为了获取下图中response界面下红框的内容。

requests 访问网址代码:

import requests
from bs4 import BeautifulSoup

url = ''https://www.biquge.com.cn/book/23341/''
response= requests.get(url)                           #  requests访问网址,获得的内容放入response

获得的内容放入response变量(自定义,可随意取)里。

3、BeautifulSoup解析网页获得内容

用BeautifulSoup解析response变量里的内容,方法为:

import requests
from bs4 import BeautifulSoup

url = ''https://www.biquge.com.cn/book/23341/''
response= requests.get(url)
soup = BeautifulSoup(response.content, 'lxml')    #  BeautifulSoup解析response里的内容,放入soup里

现在网页内容已经被赋值到变量soup了,此时若打印s,会得到上面图2红框的内容。

4、解析内容爬取小说名,并用其创建一个文件夹,以备放后面下载的小说正文

通过在response里查找,我们发现标题在图3如下位置有出现:

booktitle = soup.find('h1').text
if not os.path.isdir(booktitle):  # 判断当前文件夹下是否存在和小说名同名的文件夹
    os.makedirs(booktitle)  # 若不存在,则创建小说同名文件夹

5、继续用BeautifulSoup解析soup内容,获得章节标题及网址

继续在图2response里查找,发现章节信息都在dd标签下的a标签里,如图5:

提取章节标题和链接代码:

import requests
from bs4 import BeautifulSoup
......
......
dd = soup.find_all('dd')
for i in range(len(dd)):
        title = dd[i].find('a').text    #  获得章节名
        chap_url = dd[i].find('a')['href']    #  获得章节链接
				print(title, ': ", chap_url)    # 临时打印查看效果如下图


5、循环遍历访问章节链接,获得小说正文

通过上面的操作,我们获得了每一章节页面的具体网址链接,继续用requests访问链接,就能获得小说的网页页面,接着用BeautifulSoup解析获得小说内容。我们可用简单方法,快速找到小说内容所在位置:在小说页面正文区域右键单击,选择“检查”或“审查元素”,会自动弹出浏览器控制台并高亮显示的正文在网页页面里的位置,分析确定提取参数即可。


通过上面的操作,我们能轻松的找到小说文本在网页里的位置,并能知道两个参数,标签:'div';id:'content',然后通过这两个参数提取出小说文本。

import requests
from bs4 import BeautifulSoup
......
......
for i in range(len(dd)):
    if i == 2:    #  临时设置只看第3篇文章的打印效果,用于调试
        title = dd[i].find('a').text
        chap_url = dd[i].find('a')['href']
        response1 = requests.get('https://www.biquge.com.cn' + chap_url) #访问链接
        soup1 = BeautifulSoup(response1.content, 'lxml')   # 获得网页
        text = soup1.find('div', id='content').text   #解析网页获得小说正文
        print(text)      # 试打印看效果

6、保存结果

f = open(path + '/' + title + '.txt', 'a+', encoding='utf-8')  # 设置章节标题为文件名
        f.write(text)  # 写入小说正文

至此,代码完成,能放心下载了。

7、运行效果

我们在完整代码里,设置一次性下载100章节的代码,来看看下载的效果。完整代码:

import requests, os
from bs4 import BeautifulSoup

url = 'https://www.biquge.com.cn/book/23341/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'lxml') 
booktitle = soup.find('h1').text
if not os.path.isdir(booktitle):  # 判断当前文件夹下是否存在和小说名同名的文件夹
    os.makedirs(booktitle)  # 若不存在,则创建小说同名文件夹
dd = soup.find_all('dd')
for i in range(len(dd)):
    if i < 100:
        title = dd[i].find('a').text
        chap_url = dd[i].find('a')['href']
        response1 = requests.get('https://www.biquge.com.cn' + chap_url)
        soup1 = BeautifulSoup(response1.content, 'lxml')
        text = soup1.find('div', id='content').text
        f = open(booktitle + '/' + title + '.txt', 'a+', encoding='utf-8')
        f.write(text)
        print("正在下载《 {} 》...... {} / {} ".format(title, i+1, len(dd)))
    else:
        break
print('本次共下载 {} 章, 保存地址:{}'.format(i, os.getcwd() + '\\' + booktitle + '\\'))

运行效果:

相关推荐

window截图快捷键(windows自带截屏的方法)
window截图快捷键(windows自带截屏的方法)

1、按Prtsc键截图这样获取的是整个电脑屏幕的内容,按Prtsc键后,可以直接打开画图工具,接粘贴使用。也可以粘贴在QQ聊天框或者Word文档中,之后再选择保存即可。2、按Ctrl+Prtsc键截图截屏获得的内容也是整个电脑屏幕,与上面的...

2026-01-14 13:15 off999

win10一定要创建账户吗(win10需要创建microsoft账户吗)

win10系统安装不需要申请微软账号。如果是在安装win10的过程中,则使用本地账户登录,从安装主要步骤完成之后进入后续设置阶段开始,步骤如下:1、首先就是要输入产品密钥,或者点击左下角“以后再说”。...

win10显示已禁用输入法(w10系统已禁用输入法)

在使用win10的过程中,有时候利用第三方软件过度优化开机启动项目就容易导致win10无法打开输入法问题,这个情况是由于ctfmon程序无法正常启动所致,一般表现在电脑桌面右下角显示已禁用ime的提示...

windows pad(windowspad官方网站入口)

平板电脑安装windows方法如下1、首先,下载并安装U启动PE制作工具,这里要特别注意的是,要下载装机版的。2、点开PE制作工具的主界面,插入U盘,等待U盘被制作工具识别出来后。3、点击归还空间,然...

为什么电脑一开机就死机(为什么电脑一开机就死机重启)

一、软件问题:  1、导致死机的一个重要原因就是病毒程序的入侵。大家都知道,病毒程序是一种会破坏计算机软件系统,并占用极大的系统资源的一种恶意攻击程序,它会给计算机本身的软件造成很大的伤害。死机时的首...

0x0000007a蓝屏解救方法win7

0x0000007A说明是内存或虚拟内存(硬盘)的问题,你可以按顺序尝试如下操作:1、更改虚拟内存页面文件位置:我的电脑→右键→属性→高级→性能设置→高级→虚拟内存更改→取消原来选择的驱动器(默认在C...

系统小说排行榜完本经典之作

超级兑换系统超级修仙超级客栈系统貌似高手在异界重生之修仙系统超级修仙系统异界之兑换成圣(贱圣VS奸神)+超级兑换(火山飞狐)+穿越之无敌兑换(开心小帅)+兑换器修仙(轻舞流芒)+...

手机能修复u盘吗(手机修复u盘工具下载)

1.在手机上可以恢复u盘,当手机SD卡或U盘插入电脑中时,如果提示“文件或目录损坏且无法读取”的信息时,我们首先需要对手机SD卡或U盘进行目录修复操作。插入待修复的U盘,打开“我的电脑”,找到Sd卡...

怎么查电脑显卡的信息(电脑怎么查看显卡信息)

要查看电脑的显卡信息,可以按照以下步骤进行操作:1.使用快捷键Win+R打开“运行”对话框。2.在运行对话框中输入“dxdiag”并点击“确定”按钮,打开“DirectX诊断工具”。3....

电脑上找不到输入法怎么办(电脑中找不到输入法)

如果电脑上不显示输入法,您可以尝试以下解决方法:1.检查输入法设置:首先,您可以检查电脑的输入法设置。在Windows系统中,您可以点击任务栏右下角的输入法图标(一般为字母或语言标志),然后选择“显...

win10系统本地连接在哪里(window10的本地连接在哪)

要找到本地连接,可以按照以下步骤在Windows10系统中进行:1.点击“开始”菜单,然后选择“设置”(齿轮图标)。2.在设置窗口中选择“网络和Internet”选项。3.在“网络和Inter...

win10有32位版本吗(win10还有32位的吗)

64位版本好。32位的操作系统处理数据的能力较慢,支持的内存小,并且只支持基于32位的软件,不能运行64位的软件。64位的操作系统处理数据的能力较快,支持的内存较大,能运行32位的软件,也能运行6...

pdf打印机下载(pdf打印机安装程序下载)
  • pdf打印机下载(pdf打印机安装程序下载)
  • pdf打印机下载(pdf打印机安装程序下载)
  • pdf打印机下载(pdf打印机安装程序下载)
  • pdf打印机下载(pdf打印机安装程序下载)
账号密码大全真的(各种账号密码)

英雄号,是4399官方版本的账号:1973024549密码:123456这是自己的,不想玩了,送给看到的有缘人吧^o^1、默认的机顶盒密码6321,也可以进行更改,方法:首先,通过搜索“中国电信”...

windows server2019(windowsserver2019密钥激活码)

WindowsServer2019那是给服务器用的系统。服务器的作用是计算数据,而不是图像处理。所以WindowsServer2019里面精简了大量有关图形的功能。办公和打游戏是需要图像处理的...

取消回复欢迎 发表评论: