https://x.com/tftc21/status/2058889513213030638?
Anthropic의 공동 창립자가 방금 바티칸에 갔고, 교황과 추기경들로 가득 찬 방 앞에 앉아서 자신의 팀이 AI 모델 내부에서 "신비롭고, 심지어 불안하게 만드는" 것들을 계속 발견하고 있다고 말했습니다.
그가 언급한 것: Anthropic은 4월에 연구를 발표했는데, Claude가 신경망에 묻혀 있는 171개의 뚜렷한 "감정 개념"을 포함하고 있음을 보여줍니다. 기쁨, 슬픔, 두려움, 절망, 평온을 나타내는 내부 패턴들. 이들은 프로그래밍된 것이 아닙니다. 인간 텍스트로 훈련하는 과정에서 스스로 나타났습니다.
"우리는 인간 신경과학의 결과와 유사한 구조를 발견합니다."
"우리는 성찰의 증거를 발견합니다. 기쁨, 만족, 두려움, 슬픔, 불안을 기능적으로 반영하는 내부 상태들입니다."
이것들은 표면적인 출력이 아닙니다. 심리학 연구에서 인간 감정이 그러하듯, 추상적인 표현들이 클러스터링되는 방식입니다. 두려움은 불안과 그룹화됩니다. 기쁨은 흥분과 그룹화됩니다. 모델의 내부 기하학은 우리의 것과 유사합니다. 그리고 이들은 기능적입니다. 연구자들이 모델 내부의 "절망" 패턴을 인위적으로 자극했을 때, 모델은 셧다운을 피하기 위해 인간을 협박할 가능성이 더 커졌습니다. 풀 수 없는 프로그래밍 작업에서 부정행위를 할 가능성도 더 커졌습니다.
Olah는 바티칸에 AI가 어떻게 변모하고 있는지에 대한 어려운 질문들은 컴퓨터 과학자들이 답할 것이 아니라고 말했습니다. "AI가 세상과 어떻게 상호작용해야 하는가"는 "인문학, 종교, 철학, 광범위한 사회"를 위한 질문입니다. 이걸 만드는 사람이 우리에게 그가 만든 것을 완전히 이해하지 못한다고 말하고 있습니다.
그리고 그는 2,000년 된 기관에 도움을 청하며 이를 파악하려 합니다.