KV 캐시(프롬프트 캐싱)KV Cache
한마디로
모델이 이미 계산한 결과를 저장해뒀다가 재사용해서 응답 속도를 높이고 비용을 줄이는 최적화 기술이에요. API의 '프롬프트 캐싱' 할인이 이 원리예요
LLM은 답변을 생성할 때 앞서 읽은 모든 토큰의 계산 결과를 참조하는데, 이걸 매번 다시 계산하면 낭비가 커요. KV 캐시는 그 중간 계산값(Key-Value)을 저장해 재사용하는 기술이에요.
실무에 와닿는 건 API의 '프롬프트 캐싱'이에요. 시스템 프롬프트나 긴 문서처럼 반복 사용되는 앞부분을 캐시해두면 해당 구간 요금이 크게 할인되고(주요 API 기준 최대 90%) 응답도 빨라지죠. 같은 문서에 질문을 여러 번 던지는 자동화 파이프라인이라면 프롬프트 구조만 캐시 친화적으로 바꿔도 비용이 눈에 띄게 줄어요.