参考：https://spaces.ac.cn/archives/10091

两点创新。

MLA

MQA，GQA，MLA 这些技术的核心目的主要是为了减少 KV cache。

MLA：低秩压缩。简单来说就是用一个降维矩阵，去乘 KV cache，保存降维后的结果。用的时候再乘以升维矩阵。

deepseek moe

有一个公共 expert，过所有 token。

并且有多种 load balance 策略，限制 token 尽量在当前设备上，减少通信开销。