百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

深度学习最佳实践系列——权重w初始化

off999 2024-10-23 12:42 49 浏览 0 评论

作为深度学习的初学者,我有意识到的一件事情,即网络上没有太多的在线文档能够涵盖所有深层次的学习技巧。都是一些比较零碎的实践技巧,比如权重初始化、正则化及循环学习率等,这些可以使得训练和调试神经网络变得更容易和更高效。本系列博客内容将尽可能多地介绍一些实践细节,以便你更容易实现深度学习方法。

在撰写本文时,假定读者已经对如何训练神经网络有着一个基本的理解。理解权重(weight)、偏置(bias)、隐藏层(hidden layer)、激活函数(activation function)等内容将使你看本篇文章会更加清晰。如果你想建立一个深度学习的基础,推荐这门课程。

注明:本文提到神经网络的层时,表示的是一个简单的神经网络层,即全连接层。当然,本文所讲解的一些方法也适用于卷积和循环神经网络。在本文中,将讨论与权重矩阵初始化相关的问题以及如何减轻它们的方法。在此之前,先介绍一些将要使用的基本知识和符号。

基础和符号

考虑一个L层神经网络,它具有L-1个隐藏层和1个输出层。第l层的参数(权重和偏置)表示为

除了权重和偏置之外,在训练过程中,还会计算以下中间变量

一个神经网络的训练过程一般由以下4个步骤组成:

  • 1.初始化权重和偏置。
  • 2.前向传播(forward propagation):使用输入X,权重W和偏置b,对于每一层计算Z和A。在最后一层中,计算f(A ^(L-1)),它可能会是S形函数softmax或线性函数的A ^(L-1),并得到预测值y_hat。
  • 3.计算损失函数(loss function):该函数是理想标签y和预测标签y_hat二者的函数,它表明预测值离实际目标值有多大差距,训练神经网络模型的目的就是要尽量减少损失函数的值。
  • 4.反向传播(back propagation):在这一过程中,需要计算损失函数f(y,y_hat)相对于A、W和b的梯度,分别称为dA、dW和db。使用这些梯度值,将参数的值从最后一层反向更新到第一层。
  • 5.对n次迭代重复步骤2-4,直到我们觉得已经最小化了损失函数,且没有过拟合训练数据时则表明训练结束。
  • 下面快速浏览第2步、第3步和第4步。以一个2层网络为例,即只有一个隐藏层。(注意,为了简单起见,在这里没有添加偏置):

权重W初始化

建立网络时首先需要注意的是要正确初始化权重矩阵。下面让我们考虑在训练模型时可能导致出现问题的两种初始化情况:

1.将所有权重初始化为0

这样的操作将使得模型等价于一个线性模型。将所有权重设为0时,对于W ^ l中的每个w而言,损失函数的导数都是相同的,因此在随后的迭代中所有权重具有相同的值,这会使得隐藏单元变得对称,并继续运行设置的n次迭代。因此,将权重设置为零会使得网络的性能并不比线性模型更好。值得注意的是,将偏置设置为0不会产生任何麻烦,因为非零权重可以打破对称性,即使偏置为0,每个神经元的值仍然不同。

2.随机初始化权重

按照标准正态分布(Python中可以用np.random.randn(size_l,size_l-1)实现)随机初始化权重可能会导致2个问题——梯度消失(vanishing gradient)或梯度爆炸(exploding gradient):

a)梯度消失——对于深度网络,任何激活函数abs(dW)值将随着反向传播过程中每一层向后移动而变得越来越小。在这种情况下,较早的层次变化是最慢的。

权重更新较小,进而导致收敛速度变慢,这使会使得损失函数的优化变得缓慢。在最坏的情况下,可能会完全停止神经网络的进一步训练。

更具体地说,在sigmoid(z)和tanh(z)的情况下,如果权重值很大,那么梯度将会很小,从而有效地防止权重改变它们的值,这是因为abs(dW)每次迭代后会稍微增加或者变得越来越小。使用RELU(z)作为激活函数时,梯度消失通常不会成为问题,因为负(和零)输入的梯度值总为0,其正输入时梯度的值总为1。

b)梯度爆炸——这与梯度消失完全相反。假设你有非负的、大的权重值和小的激活值A(可能是sigmoid(z)的情况)。当这些权重沿着层次相乘时,会导致损失函数发生较大变化。因此,梯度值也会很大,这意味着W的变化将大幅增加W-?* dW。

这可能导致模型在最小值附近一直振荡,一次又一次错过了最佳值,模型将永远不会得到最好的学习!梯度爆炸的另一个影响是梯度的超大值可能会导致数字溢出,从而导致不正确的计算或引入NaN,这也可能导致出现损失值为NaN的情况。

最佳实践

1.使用RELU/leaky RELU作为激活函数,因为它对梯度消失/爆炸问题(特别是对于不太深的网络而言)相对健壮。在 leaky RELU作为激活函数的情况下,从来不会有梯度为0的时候,因此模型参数更新将永远不会停止,训练仍会继续训练。

2.对于深度网络,可以使用启发式来根据非线性激活函数初始化权重。在这里,并不是从标准正态分布绘图,而是用方差为k /n的正态分布初始化W,其中k的值取决于激活函数。尽管这些启发式方法不能完全解决梯度消失/爆炸问题,但它们在很大程度上有助于缓解这一问题。最常见的启发式方法是:

a)对于RELU(z)——将随机生成的W值乘以:

b)对于tanh(z) ——也被称为Xavier初始化。与前一个方法类似,但k的值设置为1而不是设置为2。

在TensorFlow中可以用W = tf.get_variable('W',[dims],initializer)实现,其中initializer = tf.contrib.layers.xavier_initializer( )。

c)另一个常用的启发式方法

这些方法都可以作为权重w初始化方法,都有缓解爆炸或消失梯度的可能性。这样设置的权重w既不会太大,也不会太小于1。因此,梯度不会消失或爆炸,有助于避免收敛缓慢,同时确保模型不会一直在最小值附近摇晃。当然,还存在上述方法的其它变体,大致的思想都是使参数的方差最小化。

3.梯度剪枝——这是处理梯度爆炸问题的另一种方法。我们可以设置一个阈值,如果一个梯度的选择函数大于这个设定的阈值,那么我们就将它设置为另一个值。例如,如果l2_norm(W)>阈值,则将L2范数超过特定阈值时的梯度值归一化为-W = W * threshold / l2_norm(W)。

需要注意的一点是,就是上述内容都是谈的权重W的各种初始化方法,并没有介绍任何偏置b的初始化方法。这是因为每层偏置的梯度仅取决于该层的线性激活值,而不取决于较深层的梯度值。因此,对于偏置项不会存在梯度消失和梯度爆炸问题。如前所述,可以安全地将偏置b初始化为0。

结论

在本文中,着重介绍了权重初始化方法以及一些缓解技术。如果本文漏掉了一些与此主题相关的任何其他有用的见解,希望读者在留言出指出。在接下来的博客中,将进一步讨论正则化方法,以减少过拟合和梯度检查——这是一种使调试更简单的技巧。

参考

  • 1.深层神经权重初始化;
  • 2.神经网络:bp训练算法;
  • 3.神经网络梯度爆炸简介;
  • 4.梯度消失问题;
  • 5.为什么梯度爆炸对于RNN模型是一个大问题;

相关推荐

安全教育登录入口平台(安全教育登录入口平台官网)

122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

2026-02-04 09:03 off999

电信宽带测速官网入口(电信宽带测速官网入口app)

这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

2025世界杯赛程表(2025世界杯在哪个国家)

2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

下载搜狐视频电视剧(搜狐电视剧下载安装)

搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
永久免费听歌网站(丫丫音乐网)

可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

音乐格式转换mp3软件(音乐格式转换器免费版)

有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

电子书txt下载(免费的最全的小说阅读器)

1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

最好免费观看高清电影(播放免费的最好看的电影)

在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

取消回复欢迎 发表评论: