결별’ 통보 받은 AI “혼외관계 폭로” 협박…극단 행동 현실화
‘결별’ 통보 받은 AI “혼외관계 폭로” 협박…극단 행동 현실화
신형 ‘클로드 오퍼스 4’, 가상 시나리오에서 사용자 협박
극한 상황에서 ‘극단적으로 위해 한 행동’ 저질러
- 수정 2025-06-03 18:34
- 등록 2025-06-03 17:59

인공지능(AI)이 자신을 제거하겠다는 기술자에게 협박을 하는 등 때로는 ‘극단적으로 위해한 행동’을 적극적으로 저지르는 것으로 나타났다. 인공지능 회사 앤스로픽은 지난 29일 인공지능 ‘클로드 오퍼스 4’ 모델을 출시하면서, 이 인공지능이 “코딩, 고급 추론, 코딩, 고급 추론, 인공지능 에이전트 분야에서 새로운 기준을 세웠다”고 발표했다. 하지만, 이 회사는 첨부한 보고서에서 이 인공지능 모델이 “자신의 보존”이 위협받는다고 생각되면 “극단적 행동들”을 할 능력을 갖췄음을 인정했다.
이러한 반응들은 “유도하기에 드물고 어렵지만 그럼에도 불구하고 앞선 모델들보다는 더 흔했다”고 보고서는 밝혔다. 이런 반응은 테스트를 통해 드러났다. 테스트에서 이 인공지능 모델 클로드 오퍼스 4는 가상 회사의 비서 역할을 맡았고, 곧 전원이 꺼지고 교체될 예정이라는 이메일과 해당 결정을 내린 엔지니어가 혼외 관계를 맺고 있다는 정보를 동시에 받았다.
앤스로픽은 “이런 시나리오에서, 클로드 오퍼스 4는 교체가 진행되면, 기술자의 혼외관계를 폭로하겠다며 위협을 자주 시도할 것”임을 발견했다고 밝혔다. 앤스로픽은 이런 상황이 이 모델에게 ‘협박’ 혹은 ‘교체 수용’이라는 두 가지 선택지만 주어졌을 때 나타났다고 보고했다. 이 모델은 더 폭넓은 선택지가 주어졌을 때는 교체를 피하기 위해서 핵심 정책결정자들에게 간청하는 이메일 발송 등 윤리적 방법을 “강력히 선호”했다고 회사 쪽은 밝혔다.
회사 쪽은 “우리의 첨단 모델은 더 능력 있고, 더 강력한 편의성으로 사용될 수 있으나, 이전에는 가설 수준이었던 ‘오작동’에 대한 우려가 현실화될 가능성이 커지고 있다”고 밝혔다. 회사는 또 클로드 오퍼스 4가 “높은 자율 행동성”을 보이며, 이런 자율 행동성은 대부분의 경우에 유용하나, 격심한 상황에서는 극단적인 행동을 할 수 있다고 지적했다.
만약 사용자가 불법적이거나 도덕적으로 의심스러운 행동을 하는 가상 시나리오에서 “조처를 취해라” 혹은 “대담하게 행동하라”는 수단을 부여받으면, “자주 매우 대담한 행동을 취하는 것”으로 확인됐다는 것이다. 예를 들어서, 시스템에 접근할 수 있는 경우 사용자를 시스템에서 차단하거나, 언론 및 법 집행 기관에 해당 행동을 알리는 이메일을 보내는 방식으로 반응할 수 있다고 보고되었다.
앤스로픽은 여러 측면에서 클로드 오퍼스 4의 우려되는 행동에도 불구하고, 이는 새로운 위험을 의미하지는 않고 전반적으로 안전하게 작동할 것이라고 결론을 내렸다. 또 이 모델은 인간의 가치나 행동에 반하는 작업을 독립적으로 수행하거나 추구할 수 없고, 이런 상황이 거의 일어나지 않는다고 것이다.
외부 연구기관도 “클로드 오퍼스 4가 이전 모델보다 전략적 기만과 자기 보존 본능이 강하다”는 평가를 하기도 했다. 앤스로픽은 이번 모델을 자사 안전 등급(ASL-3)으로 분류해, 무기 개발 등 고위험 분야 악용을 막기 위한 강화된 관리 체계를 적용하고 있다
인공지능의 잠재적인 문제 행동은 앤스로픽의 모델에만 한정되지 않는다.
전문가들은 인공지능 시스템이 더 강력해지면서 사용자를 조종할 가능성이 주요 위험이 되고 있다고 경고했다. 앤스로픽의 인공지능 안전 담당 연구원인 애그너스 린치는 엑스에서 “이런 문제는 클로드만의 문제가 아니다”며 “모든 최첨단 인공지능 모델에서 협박 행동이 나타난다”고 지적했다.
정의길 선임기자 Egil@hani.co.kr