전문가 혼합MoE (Mixture of Experts)
한마디로
모델 내부를 여러 '전문가' 서브 네트워크로 쪼개고, 질문마다 필요한 전문가만 골라 쓰는 구조예요. 큰 모델을 적은 연산으로 돌리는 비결이에요
MoE는 '거대한 모델 전체를 매번 다 쓰지 않고, 라우터가 입력에 맞는 전문가 몇 개만 활성화'하는 아키텍처예요. 덕분에 전체 파라미터는 수천억 개여도 실제 연산은 그 일부만 쓰니 추론 비용이 확 줄죠.
DeepSeek가 저비용 고성능으로 주목받은 핵심 기술이 MoE였고, 이후 주요 모델 상당수가 이 구조를 채택했어요. 모델 뉴스에서 '전체 파라미터 XXXB, 활성 파라미터 XXB' 같은 표기가 보이면 MoE라는 뜻이에요.