“딥시크, 챗GPT 제쳤다고?” 중국 물리 경시대회 깜짝 결과 |

딥시크, 인간과 경쟁시 ‘3등’…인간 최고점엔 미달

딥시크 창업자이자 최고경영자인 량원펑과 딥시크의 기업로고. [딥시크 홈페이지]

[헤럴드경제=김유진 기자] 중국 인공지능(AI) 스타트업 딥시크(DeepSeek, 深度求索) 최신 모델의 물리학 문제 해결 능력이 AI 선두주자인 챗GPT(ChatGPT)를 능가했다는 주장이 나왔다. 출처는 중국이다.

중국과학원 물리연구소는 30일 공식 SNS를 통해 최근 개최한 물리 경시대회의 AI 테스트 결과를 공개하며 이같이 밝혔다.

연구소에 따르면 해당 물리 경시대회 문제는 이달 17일 장쑤성에서 열린 ‘톈무(天目)배 이론물리 경시대회’에 출제된 내용이다. 이 문제를 AI가 풀도록 한 결과, 딥시크의 최신 모델인 R1의 점수가 오픈AI의 GPT-o1을 제쳤다고 밝혔다. 해당 문제들은 중국 국영 연구소에서 과학 수재들을 대상으로 내는 고난도 수준이다.

연구소는 딥시크의 R1, 오픈AI의 GPT-o1, 앤스로픽의 클로드 소넷 등 3개 AI 모델이 푼 문제의 답안을 실제 경시대회 채점위원단에게 전달한 것으로 알려졌다.

연구소는 “AI 응답을 통해 시험 진행 방식에 대한 이해도를 확인한 후 시험을 시작했다”면서 “총 문제 7개에 대해 순차적으로 답안을 받았으며, 답안에 대해서는 중간에 어떤 피드백도 제공하지 않았다”고 설명했다.

채점 결과 140점 만점에 딥시크는 100점으로 1등, 챗GPT 97점, 클로드 소넷이 71점을 받았다.

다만, 이번 대회 참가자들과 진짜 경쟁할 경우 딥시크는 3등 수준의 성적이었으며, 인간 최고점인 ‘125점’과는 격차가 매우 컸다.

연구소는 항목별 채점 결과를 공유하며 “딥시크와 비교하면 챗GPT의 답안은 인간이 작성한 것과 더 유사한 스타일을 보였다”면서 “챗GPT가 증명 문제에서 상대적으로 높은 점수를 기록했다”고 분석했다.

한편, 딥시크는 다른 AI 기업의 데이터를 무단수집했다는 의혹을 받고 있다. 다른 AI 모델의 출력 결과를 훈련 목적으로 사용해 유사한 기능을 개발하는 ‘증류’(distillation) 기술을 통해 유사한 기능을 개발했다는 의혹이다. ‘저비용 개발’의 비결이 다른 기업의 성과 가로채기인지, 자체적 혁신인지를 둘러싼 논란은 계속될 전망이다.