연구소/벤더중요도4/5
OpenAI·Broadcom Jalapeño 칩, LLM 추론 최적화 인텔리전스 프로세서 공개
OpenAI
한마디로
OpenAI가 Broadcom과 함께 만든 Jalapeño라는 칩으로 LLM을 더 빠르고 저렴하게 실행할 수 있게 한 거예요
무슨 내용인가
OpenAI와 Broadcom이 협력해 LLM 추론 전용으로 설계한 Jalapeño 칩을 공개했습니다. 9개월 만에 개발되었으며, 기존 최고 수준 제품보다 와트당 성능이 훨씬 우수하다고 합니다. OpenAI가 모델, 커널, 시스템 서빙, 네트워킹, 배포까지 full-stack을 직접 설계해 인프라 효율성을 극대화하는 전략을 펼치고 있는데요, 이는 ChatGPT 응답 속도 개선, API 원가 절감, 가용성 향상으로 나타날 예정입니다. 2026년 말부터 기가와트 규모의 데이터센터에 배포될 계획이에요
에디터 노트 · The Brief
추론 전용 칩 자체보다 OpenAI가 모델부터 커널, 네트워킹까지 full-stack을 직접 설계한다는 점이 진짜 무기예요. 범용 GPU에 의존하던 구조에서 벗어나 추론 단가를 구조적으로 깎겠다는 건데, 배포가 2026년 말이라 당장의 API 가격 인하로 이어지진 않고 와트당 성능 수치도 자사 발표라 검증이 필요해요. 다만 추론 원가가 떨어지면 토큰 단가 협상력이 광고주 쪽으로 넘어오니, AI 기능을 단가 가정 위에 설계 중인 곳은 2027년 가격 시나리오를 미리 잡아두는 게 현실적이에요.
실무 시사점
AI 추론 비용을 낮출 수 있는 커스텀 칩 개발이 실제로 진행 중이라는 신호로, LLM 서비스 가격 경쟁이 심화될 가능성이 높습니다. 또한 OpenAI의 full-stack 수직 통합 전략이 기술 리드와 원가 우위를 확보하는 핵심 경쟁력으로 작용할 것으로 보여요
태그
용어 풀이
- Jalapeño
- OpenAI와 Broadcom이 공동 개발한 LLM 추론 전용 인텔리전스 프로세서로, 대규모 언어 모델을 빠르고 효율적으로 실행하도록 설계된 칩
- LLM inference
- 학습된 대규모 언어 모델을 실제로 사용해 입력에 대한 답변을 만드는 과정
- full-stack AI infrastructure
- 모델 개발부터 칩 설계, 네트워킹, 배포 시스템까지 AI 서비스 전체 계층을 한 조직이 직접 설계하고 통합하는 방식
- compute efficiency
- 같은 작업을 처리할 때 전기 에너지나 하드웨어 자원을 최소한으로 사용하는 효율성