
资料内容:
Layer normalization-方法篇 
一、Layer Norm 篇 
1.1 Layer Norm 的计算公式写一下?
二、RMS Norm 篇 (均方根 Norm) 
2.1 RMS Norm 的计算公式写一下?
2.2 RMS Norm 相比于 Layer Norm 有什么特点? 
RMS Norm 简化了 Layer Norm ,去除掉计算均值进行平移的部分。 
对比LN,RMS Norm的计算速度更快。效果基本相当,甚至略有提升。 
三、Deep Norm 篇 
3.1 Deep Norm 思路? 
Deep Norm方法在执行Layer Norm之前,up-scale了残差连接 (alpha>1);另外,在初始化阶段down-scale了模 
型参数(beta<1)。 
3.2 写一下 Deep Norm 代码实现?
 
                