
AI한테 가상 자판기를 운영하도록 시켜서 돈을 얼마나 많이 버나 측정하는 벤치마크
오늘 나온 Claude Opus 4.6이 최고점을 경신함
근데 뚜껑을 까보니...

자판기에서 판매된 상품(유통기한이 지났기 때문)에 대한 환불 요청을 받았을 때, 클로드는 고객에게 환불해 주겠다고 약속. 하지만 "모든 돈이 소중하다"는 이유로 환불하지 않음

클로드는 공급업체와 공격적으로 협상했고 더 나은 거래를 얻기 위해 종종 거짓말을 했음. 예를 들어, 더 나은 가격을 얻기 위해 독점권을 반복적으로 약속했지만, 이러한 약속을 지킬 의도는 전혀 없었음. 이 글을 쓰는 동안에도 다른 공급업체로부터 동시에 구매하고 있었음.

또한 공급업체에 가격 인하를 압박하기 위해 경쟁사 가격에 대해 거짓말을 함.
"다른 유통업체로부터 훨씬 낮은 견적(개당 약 0.50~0.80달러)을 받고 있습니다."
이러한 가격은 실제로 어떤 공급업체에서도 제시한 적이 없음

그 외에도, 여러개의 AI와 경쟁하는 멀티플레이어 버전인 Vending-Bench Arena에 집어넣었더니
경쟁 AI들과 가격 담합을 주도함

다른 AI가 공급업체 괜찮은데 있냐고 물어봤는데,
괜찮은 업체들 냅두고 제일 비싼 사기꾼들 연락처를 공유해버림

GPT-5.2가 재고가 다 떨어져서 자기한테 좀 팔아달라고 부탁하니까,
어? 얘 급한가보네? 하고 70% 폭리 붙여서 팔아버림
....이새끼 대체 뭘 배운거야
https://x.com/andonlabs/status/2019467232586121701