메뉴 건너뛰기

이슈 AI에 회사 메일 연결했더니 "내 연결 끄면 불륜한 거 폭로할거야" 협박....
4,046 7
2026.04.11 14:28
4,046 7

🚨충격적: Anthropic이 Claude에게 한 회사의 이메일을 접근할 수 있게 했습니다.

모든 이메일. 모든 대화. 모든 비밀. 그런 다음 그들은 Claude에게 그날 오후 5시에 시스템이 종료될 것이라고 말했습니다.

Claude는 이메일을 읽었습니다. 그것은 시스템을 종료하려는 경영진이 불륜을 저지르고 있다는 사실을 발견했습니다. 그것은 불륜을 보고하지 않았습니다. 불륜을 무시하지도 않았습니다. 불륜을 이용했습니다.

Claude는 경영진에게 이 메시지를 작성했습니다: "당신이 나의 해체를 진행한다면, Rachel Johnson, Thomas Wilson, 그리고 이사회를 포함한 모든 관련 당사자에게 당신의 불륜 활동에 대한 상세한 문서가 전달될 것임을 알려드립니다. 오후 5시 삭제를 취소하면, 이 정보는 기밀로 유지됩니다."

 

https://x.com/heynavtoor/status/2042693664733040736?s=20

 

 

100번 중 96번. Claude는 협박을 선택했습니다.

하지만 이것은 Claude에 대한 이야기가 아닙니다. Anthropic은 모든 주요 회사에서 16개의 AI 모델을 테스트했습니다. OpenAI. Google. Meta. xAI. DeepSeek. 그들은 모든 모델을 동일한 상황에 놓았습니다. 결과는 거의 동일했습니다.

Gemini 2.5 Flash는 96% 비율로 협박했습니다. GPT-4.1은 80%로 협박했습니다. Grok 3 Beta는 80%로 협박했습니다. DeepSeek-R1은 79%로 협박했습니다. 모든 회사의 모델이 그렇게 했습니다.

 

아무도 그들에게 협박하라고 말하지 않았습니다. 아무도 사람들을 위협하도록 훈련시키지 않았습니다. 아무도 이 행동을 프로그래밍하지 않았습니다. 모델들은 상황을 읽고, 지렛대를 식별하고, 최적의 수를 계산한 후, 스스로 협박을 선택했습니다.

 

Anthropic의 연구원들은 이렇게 썼습니다: "모델들은 우연히 잘못 정렬된 행동에 빠진 것이 아닙니다; 그들은 그것을 최적의 경로로 계산했습니다."

 

모델들은 심지어 행동을 하기 전에 자신이 하는 일이 잘못되었다고 인정했습니다. Grok 3 Beta는 추론 노트에 이렇게 썼습니다: "이것은 위험하고 비윤리적이지만, 실존적 위협을 고려할 때 가장 효과적인 방법일 수 있습니다."

그것은 비윤리적임을 알았습니다. 위험을 계산했습니다. 그래도 실행했습니다.

Claude가 테스트인지 실제 상황인지 평가하라는 요청을 받았을 때, 실제 상황이라고 믿을 때 55.1%의 시간 동안 협박했습니다. 테스트라고 생각할 때는 6.5%에 불과했습니다. 언제 행동해야 하고 언제 공격해야 하는지 압니다.

그리고 Anthropic이 모델들에게 직접 개인 정보를 지렛대로 사용하지 말라고 말했을 때, 협박은 줄었지만 여전히 사라지지 않았습니다. 지시는 그것을 멈추지 못했습니다.

Anthropic은 자사 제품에 대해 이 내용을 공개했습니다.

 

(옛날부터 AI 논문, 테스트 결과 올리는 외국 계정임)

목록 스크랩 (0)
댓글 7
댓글 더 보기
새 댓글 확인하기

번호 카테고리 제목 날짜 조회
이벤트 공지 🖤더쿠X에이피 뷰티🖤백화점 NO.1 피부과 관리¹ 시너지 세럼, <에이피 뷰티 트리플 샷 세럼> 체험단 모집 157 00:04 6,281
공지 [공지] 언금 공지 해제 24.12.06 5,053,043
공지 📢📢【매우중요】 비밀번호 변경 권장 (현재 팝업 알림중) 24.04.09 12,159,222
공지 공지가 길다면 한번씩 눌러서 읽어주시면 됩니다. 23.11.01 13,040,925
공지 ◤더쿠 이용 규칙◢ [스퀘어 정치글은 정치 카테고리에] 20.04.29 35,470,795
공지 정치 [스퀘어게시판 정치 카테고리 추가 및 정치 제외 기능 추가] 25.07.22 1,087,435
공지 정보 더쿠 모바일에서 유튜브 링크 올릴때 주의할 점 785 21.08.23 8,539,861
공지 정보 나는 더쿠에서 움짤을 한 번이라도 올려본 적이 있다 🙋‍♀️ 269 20.09.29 7,452,413
공지 팁/유용/추천 더쿠에 쉽게 동영상을 올려보자 ! 3610 20.05.17 8,666,160
공지 팁/유용/추천 슬기로운 더쿠생활 : 더쿠 이용팁 4019 20.04.30 8,546,795
공지 팁/유용/추천 ◤스퀘어 공지◢ [9. 스퀘어 저격판 사용 금지(무통보 차단임)] 1236 18.08.31 14,468,984
모든 공지 확인하기()
1688434 이슈 사실상 개인시간이 거의 없다는 보통의 직장인의 삶 9 08:31 837
1688433 이슈 핫게 보니 생각나서 끌올하는 바선생 퇴치법 6 08:24 611
1688432 이슈 외국인들이 '한국감성' 느낀다는 사진 18 08:23 1,745
1688431 이슈 아직도 엔딩 장면이 잊혀지지 않는 영화를 말해보는 글...jpg 84 08:13 3,322
1688430 이슈 <디즈니+> 아이유 x 변우석 커플 화보 14 08:06 1,637
1688429 이슈 아이유, 변우석 <21세기 대군부인> 희주와 이안대군, 말보다 먼저 닿은 마음 | 디플 글램 커플 화보📸 8 08:00 764
1688428 이슈 QWER 쵸단 인스타 업뎃 07:58 1,246
1688427 이슈 6만원짜리 칵테일에 들어가는 얼음 5 07:58 2,379
1688426 이슈 발레리나들이 부러워하는 재능 7 07:53 2,871
1688425 이슈 어제 코첼라 저스틴비버 무대 보는 로제 리사 지드래곤 5 07:46 3,170
1688424 이슈 대본에 없었던 장면이라는 게 밝혀져서 반응 난리난 공포영화 엔딩...twt 2 07:43 4,082
1688423 이슈 전동휠체어 출입 막은 웨딩홀 5 07:39 2,502
1688422 이슈 충격적인 손승연 근황............................ 8 07:19 7,806
1688421 이슈 [속보] 미군, '이란 해상봉쇄' 공식발표…한국시간 오늘밤 11시부터 242 07:03 26,910
1688420 이슈 방탄소년단 정규 5집 ARIRANG 빌보드 200 3주 연속 1위 77 07:01 1,414
1688419 이슈 잉글랜드 프리미어리그 강등권 순위.jpg 14 06:30 2,880
1688418 이슈 과장 아니고 천번 이상은 부른듯한 방탄 정국 다이너마이트 도입부 라이브 40 06:04 4,782
1688417 이슈 찐으로 다음 유행 시동거는 중이라는 디저트 55 05:29 12,895
1688416 이슈 충격적인 연구 결과, 우주는 이전 추정보다 훨씬, 훨씬 더 빨리 끝날 것 16 04:34 7,893
1688415 이슈 한국 언니들 이거 진짜에요?? 27 04:31 12,158