AI 인사이트

agentic AI란 무엇이고 AI agent와 뭐가 다른가, 추론 단가가 만든 자율 마케팅 전략

추론 비용 하락이 만든 agentic AI 시대의 마케팅 자동화 전략과 도입 한계2026년 6월 28일

한마디로

OpenAI와 Broadcom의 추론 칩, GPT-5.6 모델 라인업, Salesforce Agentforce 자율 일정까지 한 흐름으로 묶이는데요. 추론 단가가 구조적으로 떨어지면서 단순 자동화가 자율 에이전트로 넘어가는 전환점과, 정부 규제·데이터 정합성이라는 현실 제약을 함께 짚어요.

한눈에

agentic AI는 사람이 시킨 작업만 처리하는 AI agent와 달리 목표를 받고 스스로 판단·재실행하는 자율 에이전트예요. 지금 이 전환이 빨라지는 핵심 동력은 추론 비용 하락인데, OpenAI·Broadcom의 Jalapeño 칩과 GPT-5.6 Terra(2배 저렴)·Luna 라인업이 토큰 단가를 구조적으로 깎고 있고, Salesforce Agentforce는 그 위에서 일정을 실시간 재구성하는 자율 실행을 이미 보여주고 있어요. 다만 정부의 출시 통제와 데이터 정합성 문제가 도입 속도를 제약합니다.

무슨 일이 일어나고 있나

세 갈래의 발표가 같은 방향을 가리켜요.

첫째는 칩이에요. OpenAI가 Broadcom과 만든 Jalapeño는 LLM 추론 전용으로 설계됐고, 와트당 성능이 현재 최고 수준 제품보다 훨씬 낫다고 발표했어요. 9개월 만에 설계에서 생산까지 끝냈고 2026년 말부터 기가와트 규모 데이터센터에 배포됩니다. 핵심은 모델·커널·서빙 시스템·네트워킹·배포까지 full-stack을 OpenAI가 직접 설계한다는 점이에요. 범용 GPU에 의존하던 구조에서 벗어나 추론 단가를 구조적으로 내리겠다는 신호예요.

둘째는 모델 등급 분화예요. GPT-5.6은 Sol(최고 성능)·Terra(균형, GPT-5.5급 성능에 2배 저렴)·Luna(저가)로 셋으로 쪼개졌어요. Sol은 사이버보안 취약점 분석을 이전 모델 토큰의 1/3만 써도 비슷하게 해내고, 생물학 작업에서도 적은 토큰으로 더 좋은 결과를 냈어요. 작업별로 모델을 라우팅해 비용을 깎는 설계가 기본이 된다는 뜻이에요.

셋째는 실행 계층이에요. Salesforce는 현장 서비스 일정을 즉시 배정·배치 처리·전사 최적화·당일 유연 조정·개인별 미세 조정의 5단계로 체계화했고, Agentforce가 예상 못 한 문제가 생기면 일정을 스스로 다시 짜요. 통신사는 주행시간 31% 단축, 글로벌 완성차 업계는 생산성 20% 향상, Lennar는 연 12,000건 자동 배정, Grout Guy는 40% 매출 성장 같은 사례를 제시했어요.

왜 중요한가

agentic AI와 AI agent의 차이는 자율성의 깊이에요. AI agent는 정해진 작업을 대신 실행하는 도구에 가깝고, agentic AI는 목표와 제약을 주면 상황 변화에 맞춰 스스로 계획을 바꿔 실행하는 쪽이에요. Agentforce가 갑작스러운 현장 문제에 일정을 재구성하는 게 후자의 전형이에요.

이 전환의 연료가 바로 추론 비용이에요. Jalapeño가 와트당 성능을 끌어올리고 Terra가 같은 성능을 절반 값에 제공하면, 에이전트가 한 작업을 끝내려고 수십~수백 번 추론을 돌려도 단가 부담이 견딜 만해져요. 자율 에이전트는 본질적으로 추론을 많이 먹는 구조라 토큰 단가가 비싸면 경제성이 안 나오는데, 그 가정이 깨지기 시작한 거죠.

Google의 흐름도 같은 방향이에요. Gemini Nano v3에 Multi-Token Prediction을 붙여 Pixel 9·10 온디바이스 추론을 50% 이상 가속했는데, 별도 드래프터 모델 없이 메인 모델 마지막 레이어에 경량 헤드만 붙여 메모리 중복을 없앤 방식이에요. 알림 요약·교정 같은 저빈도 기능에 굳이 클라우드 API 호출을 태울 이유가 사라지는 거예요. 인프라 쪽에선 linear elastic caching이 캐시를 동적으로 조절해 Spanner 프로덕션에서 메모리 비용 20%를 절감하면서 실제 I/O 비용 영향은 0.5%에 그쳤어요. 칩, 모델 분화, 온디바이스, 캐시까지 추론 원가를 깎는 작업이 동시다발로 진행 중이에요.

실무에 주는 함의

첫째, 모델 라우팅을 기본 설계로 잡으세요. 무조건 최고 성능 모델을 쓰는 게 아니라 작업별로 Sol·Terra·Luna를 나눠 쓰는 구조가 토큰 비용을 결정해요. 대규모 데이터 분석이나 세그먼트 추론은 저가 모델로, 정교한 판단이 필요한 작업만 상위 모델로 보내면 같은 결과에 청구서가 달라져요.

둘째, 마케팅 자동화 솔루션을 비교할 땐 자율성 단계를 기준에 넣으세요. 집단 세그먼트 규칙 기반인지, 개별 고객 단위로 AI가 실시간 판단하는지에 따라 활용 폭이 갈려요. CDP도 데이터를 쿼리해 받는 수동 구조에서 에이전트가 조건을 감지하면 즉시 실행하는 자율 구조로 옮겨가고 있어요.

셋째, 데이터 정합성을 먼저 점검하세요. 자율 일정 재배정이 제대로 돌려면 기술자 숙련도·고객 약속·SLA 같은 제약을 비즈니스 룰로 정교하게 넣어둬야 해요. 마케팅 팀이 현장 서비스 데이터로 24/7 리드 캡처를 노린다면 현장 데이터와 CRM이 한곳에서 도는지부터 확인하는 게 순서예요. 데이터가 흩어져 있으면 자율 재배정이 오히려 현장 혼란을 키워요.

넷째, 어디까지 온디바이스로 내리고 어디부터 서버로 올릴지 선을 그으세요. MTP가 단말 추론을 싸게 만들었지만 50% 가속은 짧은 텍스트 생성에 국한될 가능성이 높고, 온디바이스 모델 품질은 여전히 클라우드급과 격차가 커요.

리스크·한계

벤더가 내건 숫자는 베스트 케이스예요. 31% 주행시간 단축, 생산성 20%, 와트당 성능 우위, 토큰 1/3 모두 자사 발표라 그대로 믿으면 안 돼요. 진짜 관건은 에이전트가 왜 그렇게 판단했는지 설명 가능한지예요.

출시 타이밍도 변수예요. OpenAI는 GPT-5.6 라인업을 미국 정부 요청으로 정부와 공유된 소수 신뢰 파트너에게만 먼저 풀고 있어요. 트럼프 행정부가 첨단 모델을 출시 30일 전 정부 검토에 제출하도록 요구하면서 사실상 면허제에 가까운 규제가 생겼고, Anthropic은 최강 모델 Fable 5를 외국인 접근 차단 명령 후 아예 내렸어요. OpenAI는 임시 조치라고 선을 긋지만, 신규 모델을 캠페인 자동화나 RAG 파이프라인에 끼워 넣는 로드맵을 짤 때 GA 시점을 낙관하면 안 돼요. 직전 안정 버전 기준으로 설계하고 신모델은 옵션으로 두는 편이 안전하고, 단일 벤더 의존도를 낮춰 멀티모델 대비책을 깔아두는 게 현실적이에요.

능력 강화가 곧 오남용 표면 확대라는 점도 있어요. 사이버보안·생물학 성능이 올라간 만큼 정부의 단계적 공개 단서를 가볍게 봐선 안 돼요. 추론 단가 하락도 배포가 2026년 말이라 당장의 API 가격 인하로 직결되진 않아요. AI 기능을 단가 가정 위에 설계 중이라면 2027년 가격 시나리오를 미리 잡아두는 게 합리적이에요.

자주 묻는 질문

agentic ai 뜻이 뭔가요

목표와 제약을 주면 스스로 계획을 세우고 상황 변화에 맞춰 실행을 바꾸는 자율 AI예요. Salesforce Agentforce가 현장 문제 발생 시 일정을 스스로 다시 짜는 게 대표 사례예요.

agentic ai와 ai agent 차이는 뭔가요

AI agent는 정해진 작업을 대신 실행하는 도구에 가깝고, agentic AI는 자율적으로 판단·재계획까지 하는 쪽이에요. 자율성의 깊이가 둘을 가르는 기준이에요. 자율 에이전트는 추론을 많이 먹어서 토큰 단가가 경제성을 좌우해요.

agentic ai 사례로 뭐가 있나요

Salesforce Agentforce 기반 현장 서비스 자율 일정이 대표적인데, 통신사는 주행시간 31% 단축, Lennar는 연 12,000건 자동 배정을 제시했어요. 다만 벤더 발표 수치라 데이터 정합성과 설명 가능성을 함께 따져봐야 해요.

마케팅 자동화 솔루션 비교는 뭘 기준으로 하나요

자율성 단계를 먼저 보세요. 집단 세그먼트 규칙 기반인지, 개별 고객 단위로 AI가 실시간 판단하는지에 따라 활용 폭이 갈려요. 추론 비용 구조와 현장·CRM 데이터 통합 여부도 핵심 기준이에요.

ai 마케팅 전략은 어떻게 짜야 하나요

작업별로 고성능·저가 모델을 나눠 쓰는 라우팅을 기본으로 두고 토큰 비용을 관리하세요. 데이터 정합성을 먼저 잡고, GA 시점은 직전 안정 버전 기준으로 보수적으로 설계하면서 멀티모델 대비책을 깔아두는 게 안전해요.