모델 기초

KV 캐시(프롬프트 캐싱)KV Cache

한마디로

모델이 이미 계산한 결과를 저장해뒀다가 재사용해서 응답 속도를 높이고 비용을 줄이는 최적화 기술이에요. API의 '프롬프트 캐싱' 할인이 이 원리예요

LLM은 답변을 생성할 때 앞서 읽은 모든 토큰의 계산 결과를 참조하는데, 이걸 매번 다시 계산하면 낭비가 커요. KV 캐시는 그 중간 계산값(Key-Value)을 저장해 재사용하는 기술이에요.

실무에 와닿는 건 API의 '프롬프트 캐싱'이에요. 시스템 프롬프트나 긴 문서처럼 반복 사용되는 앞부분을 캐시해두면 해당 구간 요금이 크게 할인되고(주요 API 기준 최대 90%) 응답도 빨라지죠. 같은 문서에 질문을 여러 번 던지는 자동화 파이프라인이라면 프롬프트 구조만 캐시 친화적으로 바꿔도 비용이 눈에 띄게 줄어요.

헷갈리는 용어 구분

KV 캐시(프롬프트 캐싱)vs메모리메모리는 'AI가 대화·사용자 정보를 기억'하는 기능, KV 캐시는 '연산 결과를 재사용'하는 내부 최적화예요

KV 캐시(프롬프트 캐싱)KV Cache

헷갈리는 용어 구분

관련 용어

태그