拒绝我复制?那我就利用Python跟我一起写某度文库下载器
off999 2024-09-16 00:43 44 浏览 0 评论
前言
度娘啊,你以为你把百度网盘取消限速了,我们就满意了?当然不满意,还有某度文库呢!本来好好的文档,非得不让我们下载……今天,就教大家跟我一起写某度文库下载器Weeker,拒绝某库,从我做起。
私信小编01即可获取大量Python学习资源
我们的下载器是一个GUI程序,具体架构是,先写核心文件(get.py),再写命令行解析文件(weeker.py),接着使用Fire生成命令行,最后用Gooey把CLI转换为GUI。
准备
安装
- 安装Python 3.8;
- 安装依赖(依赖的作用下文会详解):pip install requests docx beautifulsoup4 Gooey
目录
初始化项目(下面的脚本是在Unix或Linux上运行的):
复制代码 隐藏代码
cd /path/to/project
mkdir Weeker
touch get.py weeker.py爬虫核心
第一步,打开get.py,先引入类库:
复制代码 隐藏代码
from os import getcwd, system
from re import sub
import requests
import docx
from bs4 import BeautifulSoup每个模块的作用如下:
模块名称 | 作用 |
os | 获取当前目录 |
re | 替换文档中的特定字符 |
requests | 用来做网络请求,不用多说。 |
docx | 用来将txt转换为docx格式。 |
bs4 | 用来把文本从html中解析出来。 |
由于保存文件时我们需要判断路径,定义一个pwd常量,用来存储“当前路径:
复制代码 隐藏代码
pwd = getcwd()再声明一个get url:ua:path:output:convert方法,来实现我们的爬虫函数,其中:
参数名称 | 作用 |
url | 文档地址,比如随便搜了一个:https://wenku.baidu.com/view/11ebd2af42323968011ca300a6c30c225901f0ea.html?fr=search |
ua | User Agent。我试了一下,如果使用浏览器UA是不行的,会爬到一个广告界面,然后告诉你此操作需要登录,因此我们要使用Googlebot或Baiduspider来绕过UA检测(这就是为什么搜索引擎能搜到),以为我们是一个搜索引擎。跟推荐使用后者,毕竟百度和文库一家人嘛。 |
path | 存储目录,不包括文件名。 |
output | 带有后缀名的文件名。 |
convert | 转换后的格式。 |
编写get:::::函数
获取html&解析
把光标移到get:::::函数。首先照例我们要用requests,并且祭上bs4一条龙解析:
复制代码 隐藏代码
headers = { 'User-Agent': ua }
result = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, "html.parser")
# 为了方便管理文本,我们定义一个数组用来存储文档的每一行
everyline = []添加标题
我们给文档先添上标题,也就是网页的标题。
复制代码 隐藏代码
everyline.append(soup.title.string)但是这样会有一个问题,添加出来的标题都是“xxxxxxx_百度文库”,很不雅观。所以抬上re.sub作替换,改成:
复制代码 隐藏代码
everyline.append(re.sub('_百度文库', '', soup.title.string, 1))获取正文
通过观察网页,我们发现,bd doc-reader这个class有重大嫌疑,这个class里的东西都是正文内容:
我们通过bs4解析它,发现内容中有很多\n、\x0c和空格,\n是换行符,我们把它分割到数组中,而后两者分别删除即可:
复制代码 隐藏代码
for doc in soup.find_all('div', attrs={"class": "bd doc-reader"}):
everyline.extend(doc.get_text().split('\n')) # 扩展数组
everyline = [i.replace(' ', '') for i in everyline]
everyline = [i.replace('\x0c', '') for i in everyline]保存文件
接下来就是保存文件。我的思路是,先按照txt格式保存,然后再判断convert参数,如果填写了docx,再将txt加后缀并修改为docx。
复制代码 隐藏代码
final_path = path
# 如果是相对路径,连接pwd改成绝对路径,否则python不支持。
if not path.startswith('/'):
final_path = pwd + '/' + final_path
try:
file = open(final_path + '/' + output, 'w', encoding='utf-8')
for line in everyline:
file.write(line)
file.write('\n')
file.close()
except FileNotFoundError as err:
print("wenku: error: Output directory does not exist. Quitting.")
exit(1)
# 如果有convert请求
if convert == 'docx':
with open(final_path + '/' + output) as f:
docu = docx.Document() # 创建对象
docu.add_paragraph(f.read()) # 添加段落
docu.save(final_path + '/' + output + '.' + convert) # 保存文档,文件名为xxx.xxx.docx
system('rm ' + final_path + '/' + output) # 删除try中保存的文件创建GUI
打开weeker.py。
首先是两句 import,其中Gooey可以用类似argparse的语法将CLI转换为GUI。
复制代码 隐藏代码
from gooey import Gooey, GooeyParser
import get接着添加if __name__ == '__main__':
复制代码 隐藏代码
if __name__ == '__main__':
main()我们来定义一下这个main():
复制代码 隐藏代码
@Gooey(encoding='utf-8', program_name="Weeker ", language='chinese')
def main():
parser = GooeyParser(description="百度文库下载器,干杯!")
parser.add_argument("url", metavar='文档地址', widget="TextField")
parser.add_argument("ua", metavar='用户UA', widget="Dropdown", choices={"Googlebot": 1, 'Baiduspider': 2})
parser.add_argument("path", metavar='保存路径', widget="DirChooser")
parser.add_argument("output", metavar='重命名', widget="TextField")
parser.add_argument("convert", metavar='格式转换', widget="Dropdown", choices={'docx': 1})
args = parser.parse_args()
get.get(args.url, ua=args.ua, path=args.path, output=args.output, convert=args.convert)@Gooey是一个修饰器,可以把main()转换为一个Gooey函数。在main中,我们写下类似argparse的parser.add_argument函数,最终定义args = parser.parse_args(),从args的成员获取每个参数的输入,传到get.py里。我们运行一下,神奇的一幕发生了:
我们成功地把CLI转换成了GUI!!!
注I:如果你喜欢命令行,可以GitHub搜python-fire,直接将函数和参数暴漏给CLI,效果更佳。
注II:因为电脑原因,打包不了成品,因此有需要者请自行编译。
注III:附件里有两个py文件。
注IV:我刚看见源码里面有一句import写错了,如果你下载了源码,请先照文中代码核对一下。
相关推荐
- 免费在线影视观看网站(在线观看影视剧网址)
-
有蛮多的,茶杯狐影视,555影视,首播影院都是可以看电影的免费网址,里面有很多最新更新的电影,综艺,电视剧,动漫,可以收藏起来目前有许多观看最新电影的网站可供选择。其中一些知名的网站包括Netflix...
- 4399造梦西游3(4399造梦西游3账号)
-
在4399造梦西游三中,要进入下界需要完成一定的任务。首先,需要完成主线任务“寻找下界之门”,该任务需要完成一系列的支线任务,包括“寻找下界之钥”、“寻找下界之路”等。完成这些任务后,就可以进入下界了...
- 原来的琪琪电影在线看(原来琪琪电影在线看免费)
-
186x2=372原来多372张
- python编程软件(python编程软件怎么读)
-
学点编程是一款手机编程应用,这款软件界面漂亮,功能强大,支持多种语言,内容丰富,编程的程序员们可千万不要错过啦!应用包含一张涵盖了所有HTML5元素释义的列表,并能查看元素在内置浏览器中实现的样式...
- google play apk(Google play apk English)
-
googleplay是一款谷歌开发的、用于帮助用户加快游戏软件运转速度的软件。该软件可以快速与谷歌游戏中心连接,从而加快游戏同步数据的传输。 如果用户不需要使用该软件了,则可以尝试直接使用卸载功能卸...
- 单人枪战单机游戏(单人枪战闯关游戏)
-
有胡闹厨房,NBA2K,Knack纳克,光环战斗进化,杀手5赦免。钓鱼星球。神鬼寓言,战争机器,精灵与森林,盗贼之海,丧尸围城枪火重生,这是融合了第一人称射击、Roguelite随机元素和RPG策略...
- 三国战纪街机版下载(三国战纪街机版下载教程)
-
三国战纪单机手机版非常容易上手,可以通过以下步骤进行玩耍:容易上手。游戏的操作非常简单,只需要用手指点击屏幕即可完成。游戏同时提供了简单、普通、困难等多个难度设置,能够满足不同玩家的需求。在游戏中,玩...
- 永久免费的网盘哪个好用(百度网盘登录入口)
-
现在的网盘很多都是免费的哦,而且也很安全,我自己就在用天翼云网盘。天翼云虽然刚登陆是15G,但是现在登陆客户端就有10T的容量了,可以存很多东西了。天翼云网盘还有个挺好的功能叫做私密空间,每次登陆都要...
- 热血传奇官方正版下载(热血传奇官网下载安装)
-
1.可以通过官方网站或者应用商店下载热血传奇。2.热血传奇作为一款热门的网络游戏,开发商通常会提供官方网站或者在应用商店上架,方便玩家下载和安装。3.此外,还可以通过一些第三方游戏平台或者论坛等...
- 经典老歌500首铃声(免费设为铃声的歌曲)
-
许慧欣七月七日晴黄格选春水流任贤齐沧海一声笑杨培安我相信邓丽君路边的野花不要采乌兰托娅套马杆索朗扎西姑娘我爱你刀郎情人西域刀郎寻找玛依拉林依轮透过开满鲜花的月亮...
- 网页黄冈大推广(黄冈宣传)
-
意思是职称通过了最终审核,已被批准,也就意味着职称稳了,可以享受其相应的待遇了。职称,指教授,讲师,中级,高级等专业技术等级。终审,指最终审核。通过,指批准了。职称终审通过多指工作在技术,学术行业领城...
- 可以插二次元角色的游戏ios(二次元插图软件)
-
决战平安京,和光影对决,就是二次元moba游戏其中决战平安京的画质什么的,个人感觉更好~推荐“影视大全-人人美剧视频影视大全苹果版App”。这是一款资源最全的影视苹果端追剧应用,汇聚全网电影、电视剧、...
-
- 手机字体上面带拼音(手机字体上面带拼音怎么取消)
-
通过修改手机中的字体来设置的,方法如下(以华为mate8手机为例):1、首先,在华为手机上找到系统自带的主题的应用软件,并点击打开它。2、然后,在打开的主题界面点击底部的字体的标签栏目。3、接着,在字体的界面上方的搜索框中输入“拼音”,并进...
-
2026-02-03 22:51 off999
- 国内国外精品影视网站(国外影视网站排行)
-
影视大全强烈推荐的视频app影视大全。是一款作品非常多,大多数都是免费,无广告,无弹窗。它上面也实时更新一些影视作品。有一些在其他影视app中搜索不到,或者收费的作品,在他上面,都是免费的。同时呢,这...
- 2345网址导航官网(2345网址导航官网官方下载)
-
搜了好多办法,修改主页,修改host文件,查找注册表。最后我的解决方案是:删除可能携带病毒的软件,修改浏览器主页,(此时chrome浏览器的主页依然是2345),然后新建一个chrome的快捷方式替...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
win7系统还原步骤图解(win7还原电脑系统的步骤)
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
16949认证费用是多少(16949审核员太难考了)
-
linux软件(linux软件图标)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
