直观的理解,batch vs layer normalization。 batch是“竖”着来的,各个维度做归一化,所以与batch size有关系。 batch是“竖 你的当前访问异常,请进行认证后继续阅读剩余内容。 提交