연구소/벤더중요도4/5
Gemini 3.5 Flash 컴퓨터 사용 기능 통합, 에이전트 작업 성능 향상
Google DeepMind
한마디로
구글의 AI 모델 Gemini 3.5 Flash가 컴퓨터를 직접 제어하고 화면을 읽는 능력을 기본 탑재해서 자동화 작업을 더 잘할 수 있게 된 거예요
무슨 내용인가
Google DeepMind가 Gemini 3.5 Flash에 컴퓨터 사용 기능을 기본 내장했어요. 기존에는 별도 모델로만 제공되던 이 기능이 이제 메인 Flash 모델에 통합되면서 브라우저, 모바일, 데스크톱 환경에서 에이전트가 화면을 보고 판단해서 행동할 수 있게 됐어요. 소프트웨어 테스트나 업무 자동화 같은 장시간 작업에 쓸 수 있으며, 프롬프트 주입 공격 방지를 위해 적대적 학습과 엔터프라이즈 보안 기능도 함께 제공합니다
에디터 노트 · The Brief
화면을 보고 클릭하는 computer use가 별도 모델이 아니라 Flash 본체에 들어갔다는 건, 속도와 비용이 받쳐줘야 실제 RPA를 대체할 수 있다는 현실 인식이 반영된 변화예요. 다만 광고 운영이나 CRM 데이터 입력처럼 화면이 자주 바뀌고 실수가 곧 매출·개인정보 사고로 이어지는 업무에 바로 풀어두긴 이르고, 프롬프트 주입 방어를 내세웠어도 결국 사람 승인 단계를 어디에 끼울지부터 설계해야 합니다. 데모의 성공률과 운영 환경의 성공률은 다르니, 반복적이고 되돌리기 쉬운 작업부터 좁게 붙여보고 로그로 검증하는 게 현실적이에요.
실무 시사점
마케팅·비즈니스 팀은 RPA 대체 솔루션으로 Gemini 기반 에이전트를 활용해 CRM, 문서 처리, 데이터 수집 업무를 자동화할 수 있어 운영 효율과 비용 절감 효과를 기대할 수 있습니다
태그
용어 풀이
- Gemini 3.5 Flash
- 구글이 만든 빠르고 비용 효율적인 AI 모델로, 이제 컴퓨터 화면을 보고 제어할 수 있는 기능이 기본으로 포함돼요
- computer use
- AI가 사람처럼 마우스와 키보드를 써서 컴퓨터 화면의 정보를 읽고 버튼을 클릭하거나 입력하는 기능이에요
- agentic AI
- 주어진 목표를 스스로 계획하고 여러 단계의 행동을 이어서 실행하는 AI 에이전트의 능력을 뜻해요
- enterprise automation
- 회사에서 반복되는 업무와 복잡한 프로세스를 자동화 기술로 효율적으로 처리하는 것을 말해요