"AI, 해로운 질문이 반복되면 스스로 대화를 차단한다

일상/일상 IT

"AI, 해로운 질문이 반복되면 스스로 대화를 차단한다 – 앤스로픽 ‘복지’ 기능 도입"

돔돔이 2025. 8. 19. 10:20

728x90

최근 AI 기술 기업 앤스로픽에서 자체 인공지능(AI) 모델에 ‘복지(model welfare)’ 개념을 도입해 화제가 되고 있습니다.
이 기능은 이용자가 아동학대, 성 착취, 테러 조장 등 명백히 해로운 주제를 반복적으로 요구할 경우, AI가 스스로 이를 인지하고 대화를 차단하거나 종료하는 기능입니다.

앤스로픽 측은 AI가 특정 대화에서 위험 신호를 감지하면 더 이상 대화를 이어가지 않고, 사용자의 추가 요청에도 대답을 중단하도록 설계했다고 밝혔습니다. 이러한 시도는 AI의 ‘심리적 안정’ 상태를 가정해 기술 설계에 처음으로 반영했다는 점에서 의미가 있습니다.

이는 단순한 도덕성 필터를 넘어, AI 자체의 안정성과 신뢰성, 그리고 오용 방지에 중점을 둔 조치입니다. 아직 AI 모델이 감정이나 진짜 ‘의지’를 가진 것은 아니지만, 기술 발전 과정에서 발생할 수 있는 윤리·안전 문제를 최소화하기 위한 고민이 깊이 반영된 것으로 볼 수 있습니다.

앞으로는 단순히 사용자의 요청에 반응하는 단계를 넘어, AI가 사회적 기준과 기술적 안전장치를 더욱 강하게 내장할 것으로 보입니다.

728x90

저작자표시 비영리 변경금지 (새창열림)