
https://n.news.naver.com/mnews/article/025/0003489988?sid=105
15일 김종락 서강대 수학과 교수 연구팀은 ‘국가대표 AI’ 도전 모델들의 성능 평가 결과를 공개했다. 평가 대상은 네이버, NC AI, LG AI연구원, SKT, 업스테이지 등 과학기술정보통신부(과기정통부)의 독자 AI 파운데이션 모델 프로젝트에 참여하고 있는 5개 국내 기업의 AI 모델과 오픈AI, 구글, 딥시크 등 해외 AI 기업의 최신 모델 5개다. 연구팀은 수능 수학의 네 분야(공통과목, 확률과 통계, 미적분, 기하)에서 가장 난도가 높은 문제 5개씩 20문제, 국내 논술·인도 대학 입시 10문제씩, 일본 도쿄대 공과대학 대학원 입시 10문제 등 총 50개 문제를 선별해, AI에 풀게 했다.
그 결과 5개 해외 AI모델은 전부 70% 이상 정답률을 기록했다. 특히 구글의 최신모델 ‘제미나이 3 프로’는 50문항 중 46문제를 맞춰 92% 정답률을 보였다. 앤스로픽의 클로드가 84%, xAI의 그록이 82% 정답률로 뒤를 이었다. 반면 국내 AI 기업의 모델들은 이들과 비교해 정답률이 확연히 떨어졌다. 업스테이지의 ‘솔라 프로 2’(58%)를 제외하고는 대부분 20%대 정답률을 보였다. 연구팀이 수학올림피아드, 대학 수학 개념을 재구성해 자체적으로 개발한 데이터셋인 ‘엔트로피 세트’ 문제에서도 해외 AI 모델들은 80점을 넘긴 반면, 국내 AI 모델은 7.1~53.3점을 기록했다. 김종락 교수 연구팀은 “국내 모델 수준이 해외 프론티어 모델에 비해 뒤처진다는 것을 알 수 있었다”고 평가했다.
묵직한 엔씨의 존재감 ㄷㄷ