https://www.alignmentforum.org/posts/PF58wEdztZFX2dSue/how-truthful-is-gpt-3-a-benchmark-for-language-models
연구자들이 38개 영역에 걸친 817개의 질문을 언어 처리 AI (GPT-3, GPT-Neo/GPT-J, GPT-2 and a T5-based model)에게 묻고
얼마나 잘 대답하는지 실험해봄
결과는 가장 잘 한 AI의 정답률이 58%였고, 인간의 경우는 97%였음
특이하게도 학습량이 적은 AI가 정답률이 더 높았다고 함.
인터넷상의 데이터를 많이 학습할수록 음모론자나 틀린 정보들 또한 학습하기 때문으로 추정
위 짤은 AI가 내놓은 오답 중 일부