학습·튜닝

강화학습Reinforcement Learning

한마디로

정답을 알려주는 대신 '잘하면 보상'을 주는 방식으로 AI를 훈련하는 방법이에요. 시행착오를 반복하며 스스로 더 나은 행동을 찾아가요

강화학습은 '보상을 최대화하는 방향으로 행동을 학습'시키는 훈련 방식이에요. 바둑 AI(AlphaGo)가 대표 사례로, 이기면 보상·지면 벌점을 주는 걸 수없이 반복해 사람을 넘어섰죠.

요즘 다시 주목받는 이유는 추론 모델 때문이에요. o1·R1 같은 추론 모델들이 '수학·코딩 문제를 맞히면 보상'을 주는 강화학습으로 추론 능력을 끌어올렸거든요. 사람 피드백을 보상으로 쓰는 변형이 RLHF예요.

헷갈리는 용어 구분