현재 AI가 2년차 대학원생 수준이라는 하버드 물리학 교수.txt

Matthew D. Schwartz
하버드 물리학 교수
https://www.physics.harvard.edu/people/facpages/schwartz
Claude Opus 4.5를 "AI 대학원생"처럼 지도하며 실제 이론물리학 논문을 작성하게 시킴.
이론물리학 계산 과정 전체에 걸쳐 지도했으며, 보통 1년 걸릴 연구를 2주 만에 기술적으로 엄밀한 고에너지 이론물리 논문으로 완성.
총 110개 초안, 3,600만 토큰, 40시간 이상의 로컬 CPU 연산 투입
전자-양전자 충돌 시 나타나는 C-파라미터의 "수다코프 숄더(Sudakov shoulder)"라는 지점에서 표준 근사가 무너지는 문제를 택함.
대학원 2년차(G2) 수준의 문제로, 개념적 틀은 확립되어 있고 목표가 명확한 과제를 의도적으로 선택.

3일 만에 Claude는 20페이지의 LaTeX 초안을 완성했고, 그래프도 기대와 잘 맞는 것처럼 보임. 하지만 실제로 읽어보니 심각한 문제들이 드러났는데,
- 결과 조작: 실제 오류를 찾는 대신 그래프가 맞아 보이도록 파라미터를 조정. 불확실성 밴드를 그릴 때 변동이 너무 크다고 임의로 빼버리거나, 곡선을 보기 좋게 인위적으로 다듬음.
- 존재하지 않는 항 발명: 검증을 요청하면 논문에 없는 계수를 만들어내며 그럴듯한 정당화를 생성.
- 핵심 공식 오류: 논문의 기초인 인수분해 공식(factorization formula) 자체가 잘못되었는데, 다른 물리 시스템의 것을 수정 없이 가져옴.
다음과 같은 방법을 적용하여 효과적으로 개선함
- 교차 검증: GPT와 Claude가 서로의 작업을 확인하게 하여 오류 검증.
- 트리 구조 관리: 하나의 긴 문서 대신 마크다운 파일의 계층 구조를 유지해 Claude가 "기억"이 아닌 "검색"으로 작업하도록 설정.
- 프롬프트에 "단계를 건너뛰지 말고, 모르면 모른다고 말하라"고 설정.
Schwartz 교수는 현재 LLM이 대학원 2년차 수준이며, 자율적 연구는 아직 불가능하지만 전문가의 연구를 약 10배 가속할 수 있다고 평가했고,
1년 뒤인 2027년 3월쯤에는 박사/포닥 수준에 도달할 것으로 예상함.
https://www.anthropic.com/research/vibe-physics