https://zhuanlan.zhihu.com/p/663557294
特点:
深度学习的矩阵往往是过参数化的(over-parametrized)。
特征的内在维度(intrinsic dimension)指的是在深度学习中的真实或潜在的低维结构或信息的维度。它表示特征中存在的有效信息的维度,与特征的实际维度可能不同。事实上许多问题的内在维度比人们认为的要小的多,而对于某个数据集,内在维度在不同参数量级的模型上差距并不大。这个内在维度指的是我们解决这个问题实际上需要的参数空间的维度,我们对模型的微调通常调整的也是这些低秩的内在维度。这个结论说明了两个现象:
LoRA 的训练:固定已有的 W 不变,在旁边插入两个低秩矩阵,一个降维一个升维。只训练这两个矩阵。最终生成的 ckpt 就是 W + BA,所以不会对推理引入额外的计算量。
注意:A 使用正态分布初始化,B采用0初始化。目的是为了让初始阶段,输出跟没有 LoRA 一样。