학습·튜닝

인간 피드백 기반 강화학습RLHF

한마디로

사람의 피드백으로 모델을 사람 취향·의도에 맞게 정렬·개선하는 방식이에요. 챗봇이 '말이 통하게' 만든 핵심 기술이에요

RLHF(Reinforcement Learning from Human Feedback)는 '사람이 더 좋은 답을 골라주며 가르치는' 방식이에요. 모델이 여러 답을 내면 사람이 '이게 더 낫다'고 평가하고, 그 신호로 모델을 다듬죠.

날것의 LLM은 똑똑해도 무례하거나 엉뚱할 수 있는데, RLHF로 '사람이 원하는 톤·도움·안전성'에 맞춰져요. ChatGPT가 대화가 잘 통하게 된 핵심 비결이에요. 정렬(alignment)의 대표 기법이고요.

헷갈리는 용어 구분