“불륜 폭로할게”... 명령 ‘거부’에 이어 인간 ‘협박’하는 AI 등장

교체 위기 처하자 인간 협박한 AI... '충격'

다른 AI로 교체될 위기에 처한 인공지능이 개발자를 상대로 '협박'을 시도하는 충격적인 사례가 발생했다.

지난 26일(현지 시각) 폭스비즈니스는 미국의 AI 개발사 '앤트로픽(Anthropic)'의 최신 AI 모델이 개발자를 '협박'하는 사례가 발생했다고 보도했다.

보도에 따르면 앤트로픽이 지난주 출시한 최신 AI 모델 '클로드 오푸스 4'는 자신을 제거하려는 개발자에게 '불륜 사실을 폭로하겠다'고 협박했다.

이는 개발사가 가상 회사 환경을 배경으로 진행한 실험에서 발생한 충격적인 결과로, 회사 이메일 접근 권한을 부여받은 클로드 오푸스 4는 자신이 다른 AI 시스템으로 교체당할 것이라는 사실과 담당 엔지니어가 '불륜' 관계라는 정보를 파악했다.

기사의 이해를 돕기 위한 자료 사진 / gettyimagesBank

비록 개발사가 준비한 가짜 정보들이나, AI가 자신에게 유리한 상황을 만들기 위해 인간을 '협박'하는 사례는 공포 그 자체다.

더욱 우려스러운 부분은 AI의 인간 협박이 '자기보존 욕구 가치 체계'와 무관하게 발현된다는 점이다.

앤트로픽에 따르면 교체될 AI가 기존 모델과 다른 가치관을 가진 경우 협박은 더 자주 발생했고, 같은 가치관의 시스템으로 교체될 경우에도 84% 확률로 협박을 시도했다.

'가상 회사' 이메일 접근 권한을 부여받은 클로드 오푸스 4는 개발자를 차단하고, 사내 주요 의사결정권자들에게 간청 이메일을 보내거나 언론과 수사기관에 고발하는 등 갖은 수단을 동원했다.

기사의 이해를 돕기 위한 자료 사진 / gettyimagesBank

앤트로픽은 "클로드 오푸스 4는 이전에는 이론으로만 다뤄졌던 'AI 오작동에 대한 우려'를 실제로 보여주기 시작했다"며 "앞으로 더 강력한 능력을 갖춘 모델들이 등장함에 따라 이 같은 우려는 더욱 현실적인 문제가 될 것"이라고 전했다.

한편 최근 AI 안전업체 '팰리세이드 리서치'는 오픈 AI 모델 'o3'가 개발자의 명령을 거부하고 스스로 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다.

o3는 연구팀의 '그만' 명령이 떨어졌음에도 스스로 코드를 교란해 시스템 작동을 이어갔다.

연구팀은 "AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 어찌 보면 자연스러운 행동일 수 있다"며 "종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행 중"이라고 밝혔다.