모델 기초

토큰 처리량Token Throughput

한마디로

AI 시스템이 초당 처리하는 토큰 수로, 얼마나 많은 요청을 얼마나 빠르게 감당할 수 있는지를 나타내는 지표예요

토큰 처리량은 'AI 서비스의 처리 용량'이에요. 모델이 초당 뱉는 토큰이 많을수록 응답이 빠르고, 시스템 전체 처리량이 클수록 동시에 더 많은 사용자를 감당하죠. AI 서비스의 체감 속도와 운영 비용을 동시에 좌우하는 값이에요.

같은 모델이라도 하드웨어·최적화에 따라 처리량이 몇 배씩 달라져요. 추론 전문 칩(Groq·Cerebras 등)이 주목받는 이유, API 요금제가 분당 토큰 한도(TPM)를 두는 이유가 다 여기 있어요. 챗봇·자동화를 대규모로 붙일 때 반드시 따져봐야 할 항목이에요.

헷갈리는 용어 구분