参考:https://spaces.ac.cn/archives/10091

两点创新。

MLA

MQA,GQA,MLA 这些技术的核心目的主要是为了减少 KV cache。

MLA:低秩压缩。简单来说就是用一个降维矩阵,去乘 KV cache,保存降维后的结果。用的时候再乘以升维矩阵。

deepseek moe

有一个公共 expert,过所有 token。

并且有多种 load balance 策略,限制 token 尽量在当前设备上,减少通信开销。