강화학습Reinforcement Learning
한마디로
정답을 알려주는 대신 '잘하면 보상'을 주는 방식으로 AI를 훈련하는 방법이에요. 시행착오를 반복하며 스스로 더 나은 행동을 찾아가요
강화학습은 '보상을 최대화하는 방향으로 행동을 학습'시키는 훈련 방식이에요. 바둑 AI(AlphaGo)가 대표 사례로, 이기면 보상·지면 벌점을 주는 걸 수없이 반복해 사람을 넘어섰죠.
요즘 다시 주목받는 이유는 추론 모델 때문이에요. o1·R1 같은 추론 모델들이 '수학·코딩 문제를 맞히면 보상'을 주는 강화학습으로 추론 능력을 끌어올렸거든요. 사람 피드백을 보상으로 쓰는 변형이 RLHF예요.