https://zhuanlan.zhihu.com/p/739669365
本质上是跨 request 的 kv cache。尤其在多轮对话里面,当前的 prompt 就是上一轮的 prompt + response,可以 cache 不少东西。
Prefix Caching只节省了prefill阶段的耗时(也就是降低了TTFT,Time To First Token),并不能节省解码阶段的耗时(也就是TPOT,Time Per Output Token)。