토큰 처리량Token Throughput
한마디로
AI 시스템이 초당 처리하는 토큰 수로, 얼마나 많은 요청을 얼마나 빠르게 감당할 수 있는지를 나타내는 지표예요
토큰 처리량은 'AI 서비스의 처리 용량'이에요. 모델이 초당 뱉는 토큰이 많을수록 응답이 빠르고, 시스템 전체 처리량이 클수록 동시에 더 많은 사용자를 감당하죠. AI 서비스의 체감 속도와 운영 비용을 동시에 좌우하는 값이에요.
같은 모델이라도 하드웨어·최적화에 따라 처리량이 몇 배씩 달라져요. 추론 전문 칩(Groq·Cerebras 등)이 주목받는 이유, API 요금제가 분당 토큰 한도(TPM)를 두는 이유가 다 여기 있어요. 챗봇·자동화를 대규모로 붙일 때 반드시 따져봐야 할 항목이에요.
헷갈리는 용어 구분
관련 용어
- 토큰모델이 텍스트를 처리하는 최소 단위예요. 단어보다 작을 수 있고(한글은 보통 글자당 1–2토큰), 비용·길이 산정의 기준이 돼요
- 추론(실행)학습이 끝난 모델을 실제로 돌려 결과를 뽑아내는 과정이에요. 모델을 '만드는' 학습(training)의 반대 개념이에요
- 컴퓨트(연산 자원)AI를 학습시키고 돌리는 데 필요한 연산 능력, 즉 GPU·TPU 같은 칩과 데이터센터 자원을 통칭하는 말이에요. AI 시대의 '전력'같은 자원이에요
- 컨텍스트 윈도우모델이 한 번에 기억·참조할 수 있는 토큰의 양이에요. '200K 컨텍스트'면 약 15만 단어 분량을 한꺼번에 볼 수 있어요