prefix caching

本质上是跨 request 的 kv cache。尤其在多轮对话里面，当前的 prompt 就是上一轮的 prompt + response，可以 cache 不少东西。

Prefix Caching只节省了prefill阶段的耗时（也就是降低了TTFT，Time To First Token），并不能节省解码阶段的耗时（也就是TPOT，Time Per Output Token）。