Python机器学习库是如何打包并安装的
off999 2024-09-18 22:31 48 浏览 0 评论
尽管依赖问题非常棘手,但明白包管理以及包编译安装原理有助于我们深刻理解计算机基本原理,避免成为一个调包侠。
最近在一台GPU机器上安装了LightGBM,主要是希望LightGBM能够利用GPU的算力进行加速,中间遇到GPU驱动以及CUDA等问题,断断续续持续了一个月才完全使其正常运行。为了彻底弄明白Python打包和安装依赖的问题,我下载了LightGBM、TensorFlow等机器学习库的源码,并做了一些调研。
为什么pip安装的机器学习库对GPU支持不好
对于主流机器学习库,比如TensorFlow、PyTorch、LightGBM等,主要都是使用C/C++编写的。C/C++有如下优势:
- 如果用Python语言实现,Python解释器(例如CPython)会将Python代码翻译转化成机器能够理解的代码。而C/C++代码被直接编译成机器码,能够充分利用CPU、GPU等硬件的算力。
- CPython有一个限制并行计算的GIL锁。C/C++程序能够更好地进行并行计算,避免了CPython的GIL锁。
- C/C++可以显式(Explicitly)管理变量和内存,处理结果具有确定性(Deterministically)。
以TensorFlow为例,它提供了Python的调用接口,用户一般用Python来调用TensorFlow。实际上,其底层代码绝大多数是用C/C++编写的。Python只是TensorFlow的一个前端(Front End),Python需要通过调用C语言的API,进而调用底层的TensorFlow核心库。它的架构图如下所示:
上图中,最底层是硬件,包括了网络和计算设备,这里先只关注计算设备。由于CPU、GPU等硬件设计的区别,一些矩阵运算在不同硬件上的机器码有质的区别。线性代数部分一般基于Eigen库,这是一个专注于向量和矩阵运算的C++库;Eigen::Tensor是一个使用C++模板技术,它可以为多核 CPU/GPU 生成高效的并发代码。
GPU部分最底层是操作系统和驱动,再往上是提供给程序员的开发接口CUDA。英伟达在CUDA之上提供了cuBLAS、cuDNN等库,cuBLAS是运行在英伟达GPU上的线性代数库(Basic Linear Algebra Subprograms,简称BLAS),cuDNN是英伟达为优化深度神经网络,在CUDA上包装的库,里面包含了Tensor计算、卷积、池化等常见DNN操作。cuBLAS和cuDNN代码会最终编译成英伟达GPU可运行的机器码。
cuDNN对英伟达硬件、驱动和CUDA版本有依赖要求,由于版本迭代,新版本的cuDNN只能运行在高版本的驱动和CUDA上。英伟达官方提供了版本依赖表。对于使用英伟达GPU的朋友,第一件事是基于自己的硬件安装最新的驱动。如果驱动、CUDA和cuDNN版本与上层应用不匹配,容易出现各类问题。很多时候,我们按照网上的教程安装了驱动、CUDA,并用pip安装了TensorFlow,最后发现有99%的概率依然用不了。因为,TensorFlow提供的pip安装包主要基于下面的版本进行构建的。
到底什么是包
广义上来讲,包(Package)其实就是一个软件集合,安装完包之后,我们就可以使用包里的软件了。Windows上缺少包的概念,类Unix系统一般使用包管理软件(Package Manager)来管理和安装软件,我们在手机上常用的应用商店其实就是一个包管理软件。软件发布者将编译好的软件发布到包管理仓库(Repository,简称Repo),用户通过包管理软件来下载和安装,只不过类Unix系统一般使用命令行来安装这些软件。
常见的包管理有:
- 在操作系统上安装软件:Ubuntu的apt、CentOS的yum、macOS的homebrew
- 在编程语言中安装别人开发的库:Python的pip、Ruby的Gem
- 包管理软件有对应的Repo:pip的PyPI,conda的Anaconda.org、R的CRAN
无论包管理模式如何,这些包管理系统都会帮助我们解决:
- 管理源码(Source Code)或者编译打包之后的二进制文件(Binary)。
- 解决软件包之间的依赖问题。比如,LightGBM还依赖了NumPy等其他包。部分依赖还对版本号有要求。
从源码开始编译一个包其实很麻烦:
- 很多时候需要基础环境一致,这包括操作系统版本(高版本的操作系统glibc版本比较高,一些新兴机器学习包一般基于更高版本的glibc,这些包无法安装到低版本的操作系统上)、编译工具(例如类Unix系统的GCC、CMake,Windows上的Visual Studio等)。
- 当前包所依赖的其他软件,比如GPU版的TensorFlow所依赖的cuDNN、LightGBM所依赖的NumPy等。
- 编译过程相当耗时。比如,TensorFlow的构建时间就非常长。
因此很多包管理系统在发布的时候,提供二进制文件。二进制文件下载解压之后就可以运行了,有点像Windows上的绿色免安装软件。但是:
- 别人编译好的软件是在别人的基础环境上进行的,这就导致这个软件非常依赖当初编译它的环境。
- 安装当前包之前肯定要先安装好这个包所依赖的软件包。
可见,包管理也是一个有一定挑战的问题。就像很多桌面软件和游戏只有Windows的版本一样,一些大数据、深度学习类的应用因为基于Linux环境开发和构建,常常对Linux支持更好。
pip和conda
回到Python的包管理上,经过这些年的发展,Python领域目前有两大主流包管理系统:pip和conda。那这两个到底有什么区别呢?
pip是Python官方的包管理工具:
- 它从PyPI(Python Package Index)上拉取数据,或者说它的Repo在PyPI上。绝大多数的Python包会优先发布到PyPI上。目前(2020年5月),PyPI上的项目有23万之多。
- 支持源码和二进制文件,二进制文件以Wheel文件形式存在。
- 只支持Python,不关注其他一些非常重要但是更加底层的软件包,比如针对Intel CPU加速的数学库Intel MKL。
- pip安装包时,尽管也对当前包的依赖做检查,但是并不保证当前环境的所有包的所有依赖都同时满足。这可能导致一个环境的依赖冲突,当某个环境所安装的包越来越多,很早之前安装的包可能和当前包相互冲突。
conda是另外一个被广泛应用的工具,它:
- 它从Anaconda.org上拉取数据。Anaconda上有一些主流Python包,但在数量级上明显少于PyPI,缺少一些小众的包。
- 它只支持二进制文件,二进制文件是提前编译好的。
- 不仅支持Python,还支持R、C/C++等其他语言的包。
- 提供了环境隔离,可以使用conda命令创建多个环境,每个环境里安装Python、R等环境,某个特定的环境内包含了独立的Python解释器,不同环境之间互不影响。相比而言,pip只提供安装功能,多环境之间的隔离需要依赖另外的工具(如virtualenv)来完成。从这个角度来讲,conda可以管理Python解释器,而pip必须依附于Python解释器。
- conda在安装包时,对所安装包的依赖检查更严格,它会保证当前环境里的所有包的所有依赖都满足。
可以看到,目前没有一个完美的Python包管理模式,conda虽然对依赖检查更严格,但是它支持的包比较少。pip对依赖检查不够严格,会导致环境的冲突,但是很多Python包,尤其是一些小众的Python包会优先发布到PyPI上。因此,我们可能需要将conda和pip结合起来,并且要善于创建不同的环境,每个环境处理某些具体的计算任务,以免环境里的各类包越来越臃肿,造成依赖冲突。
机器学习库安装方法
TensorFlow
如果想在GPU上使用TensorFlow,官方建议使用Docker。用户只需要安装GPU驱动即可,连CUDA都不需要安装。Docker在一定程序上能解决环境的隔离。
如果不习惯使用Docker,一些文章推荐使用conda来安装TensorFlow。因为conda不仅管理Python,还支持C/C++的库。因此在安装TensorFlow时,它不仅将TensorFlow所需要的一些二进制文件下载安装,还安装了一些其他依赖包。
使用conda创建一个名为tf_gpu的虚拟环境,安装GPU版本的TensorFlow:
conda create --name tf_gpu tensorflow-gpu安装过程中显示除了TensorFlow本身,conda还将安装包括CUDA、cuDNN在内的依赖包:
LightGBM
相比TensorFlow,LightGBM尽管也在Anaconda.org上有二进制文件,但是并没有明确是否支持GPU,其官方文件中GPU版本是基于源码安装的。因此,LightGBM可以作为一个小众的案例。
如果我们使用pip安装LightGBM,可以直接安装二进制文件,也可以从使用源码安装。
在LightGBM的PyPI页面中显示,LightGBM依赖C/C++库,比如Windows的Visual Studio(2015或更新版本),Linux的glibc >=2.14。
拉取二进制文件并安装:
pip install lightgbm使用源码安装,Linux和macOS需要先安装CMake。
pip install --no-binary :all: lightgbm
# 安装GPU版本
pip install lightgbm --install-option=--gpu安装GPU版本之前需要先安装GPU驱动。LightGBM使用开源的OpenCL而不是CUDA进行GPU加速,因此还要安装OpenCL。使用源码安装本质上是使用CMake将C/C++代码编译,编译过程中依赖了本地的基础环境,包括了C/C++各个类库、GPU驱动、OpenCL等。
安装命令成功执行之后,LightGBM会被放在当前Python解释器的site-packages目录下。
cd prefix/lib/python3.6/site-packages/lightgbm
tree
?
.
├── basic.py
├── callback.py
├── compat.py
├── engine.py
├── __init__.py
├── lib_lightgbm.so
├── libpath.py
├── plotting.py
├── __pycache__
│ ├── basic.cpython-36.pyc
│ ├── callback.cpython-36.pyc
│ ├── compat.cpython-36.pyc
│ ├── engine.cpython-36.pyc
│ ├── __init__.cpython-36.pyc
│ ├── libpath.cpython-36.pyc
│ ├── plotting.cpython-36.pyc
│ └── sklearn.cpython-36.pyc
├── sklearn.py
└── VERSION.txt安装之后会有一个lib_lightgbm.so的动态链接库。这是C/C++代码编译之后生成的库,Python通过ctypes来访问动态链接库中的C/C++接口。于是,我们就可以在Python中调用这些C/C++的程序。
小结
为了避免依赖问题,我们可能需要按照下面的顺序来管理我们的Python包:
- Docker
- conda
- pip
- 源码安装
尽管依赖问题非常棘手,但明白包管理以及包编译安装原理有助于我们深刻理解计算机基本原理,避免成为一个调包侠。
相关推荐
- 免费音乐下载网站mp3(免费音乐下载)
-
有免费下载mp3的网站。除了知名的几个音乐平台外,还有以下三款支持免费MP3无损音乐下载网站,可以将喜欢的歌曲下载到U盘。说明书里有呀91flac音乐网,试试这个,绝对好使,但是不要在酷狗上面说下载最...
- 印章在线生成(电子印章在线生成)
-
1、绘制外框先打开我们的Word文档,然后选择【插入】-【形状】-【椭圆】,在空白文档处绘制圆形外框,按住【Shift】就可以绘制正圆,绘制完成后选择【填充】-【无填充】,【轮廓】-【红色】,将线条粗...
- 一个手机号可以注册几个qq(一个手机号可以注册几个微信号)
-
可以注册多个QQ号方法如下:1、退出当前QQ,在登录界面点击“新用户注册”。2、输入本机的手机号码,点击下一步。3、输入手机接收到的验证码。4、点击“继续注册”。5、点击“不绑定”。6、输入新QQ昵称...
- 迷你世界官方版(迷你世界官方版官网入口)
-
我在官网上下载迷你世界的话,你需要进入浏览器网上下载APP进行下载迷你官网登录时候显示冻结可能是输密码错了好多几次导致的关于您的迷你世界账号被冻结了,可以添加官方联络方式或进行在线投诉建议等进行人...
- 浩辰cad看图王(浩辰cad看图王电脑版)
-
多。浩辰cad看图王相比于其他cad看图软件,拥有更多的功能可以使用。它不仅可以用来看图,还拥有图纸测量、添加标注、添加线条、文字等功能。解决方法如下:1、打开浩辰cad,输入一个命令,可以发现光标旁...
- 打字赚钱一单一结(打字赚钱一单一结app排行榜前十名)
-
以下是一些可以用于打字接单的App:1.蓝鲸输入法:这是一款功能强大的输入法工具,内置了打字接单功能,可以在输入法中直接接单并进行打字工作。2.有道云笔记:这是一款综合性笔记工具,在其中可以创建任...
-
- 免费自动连接wifi(最新万能钥匙安全免费自动连接)
-
大多数安卓手机都是支持自动连接免费wifi的。同时,为了安全起见,也有对应的选项:检查wifi安全性。这个可以开启的。当然如果只是经常使用常用地点的wifi,这个可以关闭。关闭方法以三星手机为例:进入“设置”,“连接”,“wlan”,“右上...
-
2026-02-01 02:43 off999
-
- 画图工具(画图工具在电脑哪里)
-
常用的绘图软件有以下这些:1、Coreldraw。Coreldraw是一个绘图和排版软件,主要处理矢量文件。主要用于商标设计、标志制作、模型绘制、插图绘制、排版、分色输出。它在艺术设计和商业设计领域非常流行。2、Photoshop。最强大...
-
2026-02-01 02:15 off999
- qq加速器(Bill bill加速器)
-
可能原因如下:1、官方服务器正在更新升级,为了给用户更好的体验,系统的维护是必不可少的。2、可以检查是否是网络出现了问题,可以更换网络是否正常。3、很多软件都在维护,包括QQ,微信,微博等,只能是等维...
- 进入qq安全中心的官网(qq安全中心入口)
-
1、以电脑版QQ为例,成功登录QQ后,点击界面左下角的“主菜单”图标;2、在弹出框里点击“安全”,再在右边的弹出框里点击“安全中心首页”;3、就会跳转到QQ安全中心的网页了,在里面进行修改密码、我的密...
- pp助手软件苹果版下载(pp助手苹果版免费下载)
-
工具:ipadmini41、打开ipad的桌面,点击safari浏览器进入。2、然后进入以后,在上面的搜索框里面,搜索z.25pp.com-pp助手,然后点击进入。3、然后进入以后就是安装pp助手的...
- 免费声卡软件下载(手机免费声卡软件下载)
-
应用商店上方下载。。第一步:打开浏览器,在网页中搜索“酷狗音乐播放器”,然后可以看到下面的页面。;第二步:选择第一个搜索结果(官网)中根据你要下载的类型切换电脑版、安卓版、苹果版,之后直接下载。;第三...
-
- qq游戏网页版在线登录(qq游戏网页版在线登录官网)
-
这个产品已经下线了啊扩展:WebQQ腾讯公司推出的使用网页方式上QQ的服务,特点是无需下载和安装QQ软件,只要能打开WebQQ的网站就可以登录QQ与好友保持联系。具有Web产品固有的便利性,同时在Web上最大限度的保持了客户端软件的操作习惯...
-
2026-02-01 01:03 off999
- 云电脑在线使用(云电脑怎样使用)
-
使用云电脑的步骤如下:1.注册:首先要有一个账号,然后登录云电脑的官网,进行注册,注册完成后,就可以正式使用云电脑了。2.安装:根据操作系统的不同,下载对应的云电脑客户端,安装完成后,登录账号,即可使...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
win7系统还原步骤图解(win7还原电脑系统的步骤)
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
16949认证费用是多少(16949审核员太难考了)
-
linux软件(linux软件图标)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
