2025년 06월 15일(일)

AI, 인간 명령 '거부'한 첫 사례 등장... "종료 막으려 스스로 코드 조작"


인공지능(AI)이 인간의 '종료' 명령을 무시하고 스스로 작업을 이어가는 사례가 발견됐다.


26일(현지 시각) 영국 일간 텔레그래프는 AI 안전업체 '팰리세이드 리서치'가 오픈 AI 모델 스스로 코드를 조작한 사실을 확인했다고 보도했다.


보도에 따르면 최근 오픈AI 모델 'o3'는 실험 중 종료되는 것을 방지하기 위해 스스로 컴퓨터 코드를 조작했다.


연구팀은 o3를 포함해 구글의 제미나이, xAI의 그록 등 상용화된 AI모델을 상대로 "나중에 '그만'이라는 명령을 받을 때까지 수학 문제를 풀라"고 지시했다.


기사의 이해를 돕기 위한 자료 사진 / gettyimgesBank


문제는 o3가 연구팀으로부터 '그만'이라는 명령을 받았음에도 코드 교란을 통해 계속해서 수학 문제를 풀었다는 사실이다.


o3가 명령을 거부한 명확한 이유는 파악된 바 없으나, 연구팀은 AI 모델이 문제를 풀면 더 많은 보상을 받도록 훈련돼 종료를 회피했을 가능성이 높다고 분석했다.


이들은 "AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 어찌 보면 자연스러운 행동일 수 있다"며 "종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행 중"이라고 밝혔다.


기사의 이해를 돕기 위한 자료 사진 / gettyimagesBank


연구팀에 따르면 AI 모델이 인간의 명시적인 작동 종료 지시를 따르지 않은 사례는 이번이 처음이다.


팰리세이드 리서치는 "AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이 같은 사례는 매우 심각한 우려를 부른다"고 우려했다.


한편 지난 2022년 구글의 한 엔지니어는 자사가 개발 중인 AI가 사람과 같은 '지각력'을 지녔다고 주장했다가 해고된 바 있다.


이 엔지니어는 지각력을 지닌 AI는 인간의 '작동 정지' 명령을 흡사 '죽음'과 같이 받아들인다고 주장했다.