math
分布式情景下的 Batch Normalization 处理
Batch Normalization (BN) Batch Normalization 的 motivation 大概是这样的。在深度学习过程中,每一层网络都会对输入的数据做一次映射。于是随着网络的不断加深,前面 $n$ 层的网络对输入数据的影响是累加的。所以对于 $n+1…
反向传播算法的数学推导
本文严重参考了 CSDN 反向传播算法(过程及公式推导) 基本定义
在上图所示的简单神经网络中,layer 1 是输入层,layer 2 是隐藏层,layer 3是输出层。我们用上图来阐述一些变量名称的意义:
名称 含…
矩阵求导
矩阵求导(Matrix Derivative)也称作矩阵微分(Matrix Differential),在机器学习、图像处理、最优化等领域的公式推导中经常用到。矩阵求导实际上是多元变量的微积分问题,只是应用在矩阵空间上而已,即为标量求导的一个推广…