深度学习最佳实践系列——权重w初始化
off999 2024-10-23 12:42 45 浏览 0 评论
作为深度学习的初学者,我有意识到的一件事情,即网络上没有太多的在线文档能够涵盖所有深层次的学习技巧。都是一些比较零碎的实践技巧,比如权重初始化、正则化及循环学习率等,这些可以使得训练和调试神经网络变得更容易和更高效。本系列博客内容将尽可能多地介绍一些实践细节,以便你更容易实现深度学习方法。
在撰写本文时,假定读者已经对如何训练神经网络有着一个基本的理解。理解权重(weight)、偏置(bias)、隐藏层(hidden layer)、激活函数(activation function)等内容将使你看本篇文章会更加清晰。如果你想建立一个深度学习的基础,推荐这门课程。
注明:本文提到神经网络的层时,表示的是一个简单的神经网络层,即全连接层。当然,本文所讲解的一些方法也适用于卷积和循环神经网络。在本文中,将讨论与权重矩阵初始化相关的问题以及如何减轻它们的方法。在此之前,先介绍一些将要使用的基本知识和符号。
基础和符号
考虑一个L层神经网络,它具有L-1个隐藏层和1个输出层。第l层的参数(权重和偏置)表示为
除了权重和偏置之外,在训练过程中,还会计算以下中间变量
一个神经网络的训练过程一般由以下4个步骤组成:
- 1.初始化权重和偏置。
- 2.前向传播(forward propagation):使用输入X,权重W和偏置b,对于每一层计算Z和A。在最后一层中,计算f(A ^(L-1)),它可能会是S形函数softmax或线性函数的A ^(L-1),并得到预测值y_hat。
- 3.计算损失函数(loss function):该函数是理想标签y和预测标签y_hat二者的函数,它表明预测值离实际目标值有多大差距,训练神经网络模型的目的就是要尽量减少损失函数的值。
- 4.反向传播(back propagation):在这一过程中,需要计算损失函数f(y,y_hat)相对于A、W和b的梯度,分别称为dA、dW和db。使用这些梯度值,将参数的值从最后一层反向更新到第一层。
- 5.对n次迭代重复步骤2-4,直到我们觉得已经最小化了损失函数,且没有过拟合训练数据时则表明训练结束。
- 下面快速浏览第2步、第3步和第4步。以一个2层网络为例,即只有一个隐藏层。(注意,为了简单起见,在这里没有添加偏置):
权重W初始化
建立网络时首先需要注意的是要正确初始化权重矩阵。下面让我们考虑在训练模型时可能导致出现问题的两种初始化情况:
1.将所有权重初始化为0
这样的操作将使得模型等价于一个线性模型。将所有权重设为0时,对于W ^ l中的每个w而言,损失函数的导数都是相同的,因此在随后的迭代中所有权重具有相同的值,这会使得隐藏单元变得对称,并继续运行设置的n次迭代。因此,将权重设置为零会使得网络的性能并不比线性模型更好。值得注意的是,将偏置设置为0不会产生任何麻烦,因为非零权重可以打破对称性,即使偏置为0,每个神经元的值仍然不同。
2.随机初始化权重
按照标准正态分布(Python中可以用np.random.randn(size_l,size_l-1)实现)随机初始化权重可能会导致2个问题——梯度消失(vanishing gradient)或梯度爆炸(exploding gradient):
a)梯度消失——对于深度网络,任何激活函数abs(dW)值将随着反向传播过程中每一层向后移动而变得越来越小。在这种情况下,较早的层次变化是最慢的。
权重更新较小,进而导致收敛速度变慢,这使会使得损失函数的优化变得缓慢。在最坏的情况下,可能会完全停止神经网络的进一步训练。
更具体地说,在sigmoid(z)和tanh(z)的情况下,如果权重值很大,那么梯度将会很小,从而有效地防止权重改变它们的值,这是因为abs(dW)每次迭代后会稍微增加或者变得越来越小。使用RELU(z)作为激活函数时,梯度消失通常不会成为问题,因为负(和零)输入的梯度值总为0,其正输入时梯度的值总为1。
b)梯度爆炸——这与梯度消失完全相反。假设你有非负的、大的权重值和小的激活值A(可能是sigmoid(z)的情况)。当这些权重沿着层次相乘时,会导致损失函数发生较大变化。因此,梯度值也会很大,这意味着W的变化将大幅增加W-?* dW。
这可能导致模型在最小值附近一直振荡,一次又一次错过了最佳值,模型将永远不会得到最好的学习!梯度爆炸的另一个影响是梯度的超大值可能会导致数字溢出,从而导致不正确的计算或引入NaN,这也可能导致出现损失值为NaN的情况。
最佳实践
1.使用RELU/leaky RELU作为激活函数,因为它对梯度消失/爆炸问题(特别是对于不太深的网络而言)相对健壮。在 leaky RELU作为激活函数的情况下,从来不会有梯度为0的时候,因此模型参数更新将永远不会停止,训练仍会继续训练。
2.对于深度网络,可以使用启发式来根据非线性激活函数初始化权重。在这里,并不是从标准正态分布绘图,而是用方差为k /n的正态分布初始化W,其中k的值取决于激活函数。尽管这些启发式方法不能完全解决梯度消失/爆炸问题,但它们在很大程度上有助于缓解这一问题。最常见的启发式方法是:
a)对于RELU(z)——将随机生成的W值乘以:
b)对于tanh(z) ——也被称为Xavier初始化。与前一个方法类似,但k的值设置为1而不是设置为2。
在TensorFlow中可以用W = tf.get_variable('W',[dims],initializer)实现,其中initializer = tf.contrib.layers.xavier_initializer( )。
c)另一个常用的启发式方法:
这些方法都可以作为权重w初始化方法,都有缓解爆炸或消失梯度的可能性。这样设置的权重w既不会太大,也不会太小于1。因此,梯度不会消失或爆炸,有助于避免收敛缓慢,同时确保模型不会一直在最小值附近摇晃。当然,还存在上述方法的其它变体,大致的思想都是使参数的方差最小化。
3.梯度剪枝——这是处理梯度爆炸问题的另一种方法。我们可以设置一个阈值,如果一个梯度的选择函数大于这个设定的阈值,那么我们就将它设置为另一个值。例如,如果l2_norm(W)>阈值,则将L2范数超过特定阈值时的梯度值归一化为-W = W * threshold / l2_norm(W)。
需要注意的一点是,就是上述内容都是谈的权重W的各种初始化方法,并没有介绍任何偏置b的初始化方法。这是因为每层偏置的梯度仅取决于该层的线性激活值,而不取决于较深层的梯度值。因此,对于偏置项不会存在梯度消失和梯度爆炸问题。如前所述,可以安全地将偏置b初始化为0。
结论
在本文中,着重介绍了权重初始化方法以及一些缓解技术。如果本文漏掉了一些与此主题相关的任何其他有用的见解,希望读者在留言出指出。在接下来的博客中,将进一步讨论正则化方法,以减少过拟合和梯度检查——这是一种使调试更简单的技巧。
参考
- 1.深层神经权重初始化;
- 2.神经网络:bp训练算法;
- 3.神经网络梯度爆炸简介;
- 4.梯度消失问题;
- 5.为什么梯度爆炸对于RNN模型是一个大问题;
相关推荐
- win10下载应用商店(win10应用商店打不开)
-
1、点击Win10系统的开始菜单,然后在点击应用商店;2、打开Win10应用商店后,在搜索框里输入想要搜索的应用软件,然后点击检索;3、点击搜索到的应用,点击安装;4、点击安装后,系统会提示要切换到这...
- dell电脑重装系统win10(dell 重装win10系统)
-
戴尔笔记本重装系统win10的步骤如下:制作好wepe启动盘之后,将win10系统iso镜像直接复制到U盘。在需要重装系统的戴尔电脑上插入pe启动盘,重启后不停按F12启动快捷键,调出启动菜单对话框,...
- android升级包下载安装(android 升级包)
-
打开手机系统更新升级,前提是官方有新系统推送才能更新 哪个大不一定,但一般规律如下: 1、小版本的更新,通常越更新越大。比如3.1更新到3.2,通常是修复bug,代码量通常会增大,体积就会增大。 ...
- hdd硬盘和ssd(ssd硬盘和hdd硬盘是什么意思)
-
HDD硬盘和SSD硬盘是两种不同类型的电脑存储设备,它们有着以下区别:1.工作原理:HDD硬盘使用机械旋转的磁盘和读写磁头来存储和读取数据,而SSD硬盘则使用闪存存储数据,类似于USB闪存盘。2....
- 电脑免费软件下载大全(电脑上免费的下载软件)
-
正常情况下,如果我们想要在自己的电脑上面下载一个不要钱的单机游戏,那么我们是可以直接在我们的软件管理中心进行一个下载的,这个时候我们只需要通过一个权限就能够正常的下载,当然我们也是可以在一些小游戏的软...
- mpp文件转换excel(mpp转换成pdf)
-
要将Excel表格转换为MPP格式,您可以按照以下步骤操作:1.打开Excel表格并确保数据按照项目的不同阶段或任务进行组织。2.将Excel表格中的数据复制到一个新的MicrosoftProj...
- win7旗舰版开机密码忘记按f2
-
方法如下:开始-控制面板-用户帐户;在打开的更改用户帐户界面点击要更改的帐户;然后点击帐户左面的更改密码按钮;在打开的页面上,输入一次当前使用的密码,输入2次要更改的新密码然后保存退出就可以了...
- 笔记本无音频输出设备(笔记本无音频输出设备)
-
1、没有声卡驱动,解决方法就是找到笔记本的官网,下载电脑声卡的驱动安装即可。2、没有外界的音频播放设备,解决方法就是买一个外界的音频播放设备插到电脑主机的音频接口上即可。笔记本电脑显示未安装任何音频输...
- iso文件能用手机打开吗(iso文件能用手机打开吗安全吗)
-
一般的压缩软件就可以打开的,比如,好压软件,这个打开只是解压形式的,如果你说的是运行iso文件,这个没有,况且安卓系统也不支持iso运行ISO文件一般用于光盘镜像文件的存储,如果想要在手机上运行ISO...
- win7系统卡顿怎么优化(win7很慢很卡怎么优化)
-
1、首先打开安全卫士,进入安全卫士首页,单击软件窗口右下角的“更多”图标,打开扩展应用程序。2、单击选择“我的工具”。3、在我的工具菜单里面找到“人工服务”单击打开人工服务。4、在人工服务对话框有很多...
- 如何查看c盘微信聊天记录(如何查看c盘微信聊天记录内存大小)
-
微信群中的消息只要没删除基本都能保存,想要找微信群中几个多月前的消息可以直接根据日期来查找聊天记录。操作如下:1、打开想要查找记录的微信群,点击右上角人形图标;2、点击查找聊天内容;3、选择按日...
- office2016家庭版激活密钥(office家庭版激活码2019)
-
走淘宝吧,因为零售版的密钥只能用一次。大概几块钱就能激活2016。如果你不在乎钱的话可以向我一样,订阅一个office365.实在不行可以和几个人一起买一个家庭版的365.出现这个情况,找微软申诉是没...
- 移动硬盘驱动器下载安装(移动硬盘驱动器下载安装教程)
-
1、右键单击您的桌面,选择“新建文件夹”,并命名该文件夹(例如“usb驱动程序”);2、然后到本站下载驱动程序;3、将其解压缩至在您的桌面上刚刚创建的usb驱动程序文件夹;4、单击开始菜单,然后选择设...
- 电脑硬盘格式化工具(电脑 格式化硬盘)
-
硬盘格式化工具很多,PQMACGIG8.0(中文就叫硬盘分区魔法师)是比较好的一个,这个是在WINDOWS下比叫好用,(个人感觉)FDISK也是比较好的一个,这个一般用在DOS下分区格式化WIN...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
