추론(실행)Inference
한마디로
학습이 끝난 모델을 실제로 돌려 결과를 뽑아내는 과정이에요. 모델을 '만드는' 학습(training)의 반대 개념이에요
인퍼런스는 '완성된 모델을 사용하는' 단계예요. ChatGPT에 질문해서 답을 받는 것, 그게 추론이에요. 모델을 학습(training)하는 건 한 번 크게 하는 일이고, 추론은 매 요청마다 일어나죠.
실무 비용의 대부분이 사실 이 추론에서 나와요. 사용량(토큰)이 쌓일수록 추론 비용이 늘기 때문에, 모델 선택·캐싱·라우팅으로 추론 비용을 관리하는 게 중요해요. ('inference 비용'을 '추론 비용'이라고 부르는 이유예요)