标签:AI 一第 传播 公开课 神经网络 参数 深度 维度 反向
1.深度为L层的神经网络概述
图1 深度神经网络的结构图
在前面课程讲述了只有一个隐藏层的神经网络,这周主要讲的是多个隐藏层的神经网络。在多层神经网络中,其中l表识layers,l=0代表第一层。例如n[l]代表第l层的节点数。n[0]=3代表输入层有3个节点。而第l层的w用w[l]标识,第l层的b用b[l]表示,以此类推。
2.深度神经网络的前向传播
图2 深度神经网络的前向传播公式
深度神经网络的前向传播与单层神经网络类似。这里同样吧W、A、Z向量化,使其能够针对m个样本进行向量化运算。每个W和A与Z和b都有下标l,代表是对应的l层的值。
3.深度神经网络参数的维度
图3 深度神经网络的参数维度
第l层A,z,b的维度为(n[l],m)
第l层W的维度为(n[l],n[l-1])
第l层X的维度为(n[l-1],m)
第l层dZ与dA的维度(n[l],m)
第l层dw的维度(n[l],1)
第l层db的维度(n[l],1)
4.深度神经网络为什么具有价值
1)深度神经网络浅层其实在识别事物的特征,如人的脸部特征,声音的音调。而深度神经网络的深层就是把浅层的特征组合起来成为复杂的事物并进行检测。
2)如果将深度神经网络平铺为一层,那么它相当于n层的指数级大小,所以其能适应的特征就非常多。
5.神经网络的基本框架
图4 神经网络的基本框架
如图所示为神经网络的基本框架,其中在前向传播时的Z[l]值将会被保存,因为其将在计算反向传播时被利用。先由前向传播一步步计算得到a[L]也就是yhat的值,再由da[L]一步步返回计算各级的da[l],dw[l],db[l],这些值将在梯度下降迭代中被使用。
6.前向传播与反向传播
1)l层的前向传播
图5 l层的前向传播
2)l层反向传播
图6 l层反向传播
l层的正向传播和反向传播与第三周的单隐藏层向量化正向方向传播公式一致,只不过将在求w和z时把X替换为a[l-1]
7.超参数与普通参数的区别
图7 普通参数与超参数
1)普通参数,类似于w,b,这些值都是学习过程改变的
2)超参数:是用户可定义的值,例如学习速率、迭代次数、隐藏层层数、隐藏层单元数、每层激活函数的选择。
3)后来又有一些新的超参数例如:momentum term(动量项优化方法),mini batch size(每次最小训练样本个数)、various forms of regularization(各种形式的正则化)、等等。
4)调试学习速率的方法,可以通过控制变量,改变学习速率,观察损失函数J的变化曲线,如果某一学习速率J的值下降得快并且能达到最小J值,说明该学习速率最好。
5)超参数的最优值不会一直不变,可能由着硬件的改变或者其他运行的东西的改变,其最优值也会发生改变。这需要花费大量时间去寻找最适合你问题的超参数,这也许是神经网络令人不满意的地方,也是其仍需进步的地方。
8.编程作业
1)输出层dA计算方法,求dA(L):
dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL))
2)调用l层参数的方法,例如调用l层的dw:
标签:AI,一第,传播,公开课,神经网络,参数,深度,维度,反向 来源: https://blog.csdn.net/clearhenry/article/details/121208893
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。