The Brief
학습·튜닝

얼라인먼트(정렬)Alignment

한마디로

모델을 인간의 의도·가치에 맞게 정렬하는 작업이에요. AI가 똑똑한 걸 넘어 '안전하고 의도대로' 행동하게 만드는 거예요

얼라인먼트는 'AI를 인간 편으로 맞추는' 작업이에요. 모델이 유능한 것과, 인간이 원하는 대로 안전하게 행동하는 건 별개거든요. 유해한 요청을 거절하고, 거짓을 줄이고, 의도를 지키게 하는 게 정렬이에요.

RLHF, 안전 가이드라인, 헌법적 AI 같은 기법이 정렬에 쓰여요. 에이전트가 자율적으로 행동할수록(agentic) 정렬·거버넌스가 더 중요해져요. '통제할 수 있는가'가 곧 신뢰니까요.

헷갈리는 용어 구분

관련 용어

태그