심층분석

AI가 직접 실험하고 약물을 합성하는 시대, 과학 연구의 자동화는 어디까지 왔나

생명과학·화학 연구 영역으로 확장되는 AI 에이전트의 자율 실험과 그 평가 체계2026년 6월 18일

한마디로

AI가 정보를 정리하는 단계를 넘어 가설을 세우고 실험을 설계·실행하는 '자율 연구자'로 진화하고 있어요. OpenAI의 화학 자동화 시스템과 생명과학 평가 벤치마크, 그리고 로봇 정책 통합 흐름을 묶어 과학 연구 자동화가 실무에 어떤 의미를 갖는지 분석해 봤어요.

무슨 일이 일어나고 있나

최근 공개된 사례들을 보면 AI의 역할이 한 단계 점프했다는 게 분명하게 보여요. 단순히 질문에 답하거나 문서를 요약하는 수준을 넘어, 연구실에서 사람이 하던 판단과 실험을 직접 수행하는 방향으로 움직이고 있거든요.

가장 상징적인 사례는 OpenAI의 GPT-5.4와 Molecule.one의 Maria 자동화 실험실이 협력한 의약화학 프로젝트예요. 이 시스템은 3개월 동안 무려 10,080개의 반응을 수행하면서 의약화학에서 자주 쓰이는 Chan-Lam Coupling 반응을 개선했어요. 단순히 정해진 실험을 반복한 게 아니라, TEMPO 같은 온화한 산화제가 유황아미드의 수율을 평균 16.6%에서 25.2%로 높일 수 있다는 사실을 스스로 발견했다는 점이 핵심이에요. 더 중요한 건 인간 화학자들이 벤치 스케일에서 재현했더니 14개 기질 쌍 중 11개에서 수율 증가가 확인됐고, 대부분 2배 이상 개선됐다는 거예요. AI의 발견이 '재현 가능한 과학'이었다는 뜻이거든요.

같은 맥락에서 OpenAI가 공개한 LifeSciBench도 주목할 만해요. 이건 AI가 생명과학 연구의 실무 역량을 얼마나 갖췄는지 측정하는 벤치마크인데요. 750개의 전문가 작성 과제, 173명의 박사급 과학자 기여자, 19,020개의 평가 기준으로 구성됐어요. 특이한 건 평가 항목이 단순 사실 회상이 아니라 불완전한 증거 해석, 실험 설계, 임상 판단처럼 연구원이 실제로 하는 7가지 워크플로우를 다룬다는 점이에요. GPT-Rosalind는 과학 커뮤니케이션과 임상 응용 분야에서 진전을 보였어요.

그리고 물리적 세계로의 확장도 같이 일어나고 있어요. HuggingFace의 LeRobot과 AWS Strands Robots 통합은 데이터 수집부터 정책 실행, 하드웨어 배포까지를 에이전트 한 번의 호출로 묶었어요. 시뮬레이션과 실제 로봇이 같은 LeRobotDataset 포맷을 쓰기 때문에, mode="real" 옵션만 바꾸면 코드 수정 없이 물리 로봇에 배포되는 구조거든요.

왜 중요한가

이 세 흐름을 따로 보면 그냥 개별 기술 뉴스예요. 하지만 묶어서 보면 하나의 큰 그림이 드러나요. AI가 '폐쇄 루프(closed-loop)' 연구 주체로 진입하고 있다는 거예요.

폐쇄 루프란 가설 수립 → 실험 설계 → 실행 → 결과 해석 → 다음 가설로 이어지는 순환을 사람의 개입 없이 돌리는 걸 말해요. Chan-Lam Coupling 사례가 바로 그거예요. GPT-5.4가 추론하고, Maria 자동화 실험실이 물리적으로 반응을 수행하고, 그 데이터가 다시 모델에 들어가 다음 실험을 결정하는 구조죠. LeRobot 통합이 시뮬과 실물을 같은 데이터 포맷으로 잇는 것도 본질은 같아요. 디지털 추론과 물리 실행 사이의 장벽을 없애는 작업이거든요.

그렇다면 왜 LifeSciBench 같은 평가 체계가 같은 시점에 나왔을까요. AI가 실험을 직접 한다면, 그 AI가 '연구자로서 얼마나 신뢰할 만한가'를 측정할 표준이 반드시 필요해지기 때문이에요. 자동화가 빨라질수록 검증 인프라가 같이 따라와야 한다는 신호인 셈이죠. 실행 능력(화학 자동화·로봇)과 판단 능력 평가(벤치마크)가 한 묶음으로 등장한 건 우연이 아니에요.

실무에 주는 함의

데이터·비즈니스 실무자 입장에서 이 흐름은 단지 '과학계 이야기'가 아니에요. 몇 가지 직접적인 함의가 있어요.

첫째, 반복 실험이 많은 도메인은 어디든 폐쇄 루프 자동화의 후보예요. 마케팅으로 치면 크리에이티브 A/B 테스트, 채널 믹스 최적화, 가격 실험처럼 '가설-실행-측정-재가설' 사이클이 도는 영역이 그대로 대응돼요. 화학 실험실이 한 일을 마케팅 실험 파이프라인으로 옮겨 생각하면 됩니다.

둘째, 평가 기준을 먼저 설계하는 조직이 이긴다는 거예요. LifeSciBench가 19,020개 평가 기준을 갖춘 것처럼, AI에게 일을 맡기려면 '무엇이 좋은 결과인가'를 정량화한 루브릭이 선행돼야 해요. 에이전트를 도입하기 전에 평가 체계부터 만드는 게 실무의 순서예요.

셋째, 재현성 검증을 워크플로우에 박아 넣어야 해요. Chan-Lam 사례에서 AI 발견을 인간이 벤치에서 다시 확인했듯, AI가 낸 결론은 항상 사람의 표본 재검증을 거치도록 설계해야 신뢰가 쌓여요.

리스크·한계

물론 한계도 분명해요. Chan-Lam 사례조차 14개 기질 쌍 중 11개에서만 개선이 재현됐어요. 즉 AI의 발견이 100% 일반화되지 않는다는 거예요. 자동화 규모(10,080개 반응)가 크다고 해서 결과가 항상 옳은 건 아니라는 점을 잊으면 안 돼요.

또 LeRobot처럼 디지털에서 물리로 배포가 쉬워질수록, 검증되지 않은 정책이 현실 세계에 그대로 나가는 위험도 커져요. 옵션 하나만 바꾸면 실물에 배포되는 편리함은 곧 사고 비용으로 직결될 수 있거든요.

결국 핵심 메시지는 하나예요. AI의 자율 실행 능력은 빠르게 올라가지만, 그 능력을 평가하고 재현성을 검증하는 거버넌스가 같은 속도로 따라가야 한다는 거예요. 실행과 검증, 이 둘의 균형이 자동화 연구 시대의 진짜 경쟁력이 될 거예요.

무슨 일이 일어나고 있나

왜 중요한가

실무에 주는 함의

리스크·한계

태그