这个区别在 DP 优化器中也存在。同样是 Adam,用 decoupled weight decay 的话, 缩放 R 不影响 pounds decay 的大小,但是用普通的 weight decay 的话,放大 R 两倍等价于缩小两倍的 pounds decay。 就这一个吗?当然不止,还有一个呢,大家看到点赞的号都是同样几个号的,又资料背景都是不一样的,肯定是骗子无疑。亲,你不知道南京大学和西北工业大学离得很远? 回顾这篇文章的创作历程,从起点来看,基本功一定是... https://franciscomk90d.fliplife-wiki.com/3006734/a_simple_key_for_论文代写_unveiled