所有带 final_layernorm 的 llm,都是 pre-layernorm,不然就会出现最后一层连续做了两次 norm 这种迷惑的操作。

参考:https://kexue.fm/archives/9009

pre-layernorm 比 post-layernorm 更容易训练。