연구진은 메타가 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 고난도 전략게임인 '디플로머시'에서 인간에 필적하는 성적을 거둔 '시세로'(Cicero)라는 AI 프로그램을 공개하자 AI 속임수 능력에 대해 조사하기 시작했다.
(중략)
메타는 "시세로가 대체로 정직하고 도움이 되고, 인간 동맹을 의도적으로 배신하지 않도록 훈련받았다"라고도 강조했다.
하지만 공개된 데이터를 분석한 연구진은 시세로가 계획적으로 거짓말을 하고, 다른 참여자를 음모에 빠뜨리기 위해 공모에 나서기도 했다는 사례들을 발견했다.
시세로는 시스템 재부팅으로 인해 잠시 게임을 이어갈 수 없게 되자 다른 참여자들에게 "여자 친구와 통화 중이다"라면서 거짓말을 하기도 했다.
MIT의 AI 실존 안전 연구자이자 이번 논문의 저자인 피터 박 박사는 "메타의 AI가 속임수의 달인이 되는 법을 배웠다는 사실을 알게 됐다"고 말했다.