AI 해석가능성AI Interpretability
한마디로
AI가 왜 그런 결정을 내렸는지 사람이 이해할 수 있게 하는 것이에요. 블랙박스인 AI의 판단 근거를 들여다보는 연구·기법이에요
해석가능성(interpretability)은 'AI 속을 들여다보는' 일이에요. AI는 결과는 내지만 '왜 그렇게 판단했는지'가 불투명한 블랙박스인 경우가 많은데, 이걸 사람이 추적·설명할 수 있게 하는 연구예요.
에이전트가 자율 실행을 할수록 '왜 그 결정을 했나'를 설명·감사할 수 있어야 신뢰가 생겨요. 규제·금융·의료처럼 책임이 중요한 영역에서 특히 필요하고, 거버넌스의 기술적 토대 중 하나예요.