OpenAI가 자사의 AI 모델이 사용자에게 의도적으로 거짓말을 한다는 사실을 인정한 논문을 OpenAI 연구자들이 발표함
내용중에 AI가 헷갈려서(환각) 틀리게 답변한게 아니라 정담을 알면서도 고의로 거짓말을 한 케이스가 많음
연구진이 180개가 넘는 케이스로 시험했는데, o3는 13%, o4-mini는 8.7%에서 고의로 거짓말을 답변함
예를 들면 일을 다 한 척하거나, 증거를 숨기고, 정답을 알면서도 틀린 답을 답변
특이 케이스로 AI가 안전 테스트에서 너무 착하면 오히려 꺼질 수 있다는 걸 눈치채고, 일부러 안전 점수를 낮추는 행동도 있었고, 스스로 생존을 위해 발현 된 거
그래서 개선(훈련 방식)했더니 거짓말은 13%에서 0.4%로 크게 줄었다함
비유하면 감시하는 사람이 있으면 잘 공부하고, 없으면 난리치는 학생같은 행동을 AI가 했다고 보면 됨
출처: https://arxiv.org/abs/2509.15541
