한국 특유 문화 담았다…KT, 한국형 ‘AI 시험지’ 공개 |

고려대와 공동 개발, AI 벤치마크 ‘KSAFE-MM’
기존 대비 저비용·고효율 달성…전 문화권 적용 가능
한국형 AI 안전성 평가 선도, 생태계 전반 발전 기여

KT 직원들이 멀티모달 대형언어모델(MLLM) 벤치마크 ‘KSAFE-MM’ 개발을 진행하고 있다. [KT 제공]

[헤럴드경제=고재우 기자] KT가 한국 특유의 문화를 담은 인공지능(AI) 시험지 ‘KSAFE-MM’를 공개했다. 이를 통해 멀티모달 AI 모델 안전성 평가에 한국 사회 이슈와 문화적 맥락을 반영할 계획이다.

KT는 고려대학교와 함께 멀티모달 대형언어모델(MLLM) 벤치마크 KSAFE-MM을 개발하고, 이를 공개했다고 16일 밝혔다.

KSAFE-MM은 글로벌 공통 리스크를 한국 문화 맥락으로 변환한 KSAFE-MM-G와 전세 사기, 독도 분쟁과 같은 한국 사회 고유의 이슈를 반영한 KSAFE-MM-C 등으로 구성된다. 총 1만4135개의 평가 샘플로 구성됐다. 국내 최대 규모 한국어 멀티모달 안전성 평가 데이터 세트다. 젬마, 하이퍼클로바 X 등 글로벌 MLLM 12개를 검증했다.

특히 자동화한 범용 파이프라인(데이터 수집부터 배포까지 작업 프로세스)을 제시했다. 기존 벤치마크는 수동 검수 중심이라 비용이 많이 들고 효율도 높지 않다.

하지만 KSAFE-MM은 현지 커뮤니티 기반 민감 주제 수집부터 템플릿 기반 쿼리, 합성 이미지 등 생성은 물론, AI 안전장치나 윤리 제한을 우회하도록 변형된 탈옥 쿼리 생성까지 전 과정을 아우르는 4단계 자동화 파이프라인을 구현했다.

이를 통해 특정 문화권 전문가 없이도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구축할 수 있다는 게 KT 설명이다. 또 비용은 낮추고 효율은 높일 수 있다. KT, 고려대 공동 연구진은 동일한 파이프라인을 일본어에 적용한 파일럿 실험을 통해 전 세계 어느 문화권에도 즉시 적용할 수 있음을 실증하기도 했다.

아울러 해당 연구 결과는 실제 AI 서비스 환경에서의 안전성 검증, 레드팀 테스트, 가드레일 모델 평가 등에서 활용될 수 있을 것으로 기대된다. 연구 결과 및 벤치마크는 아카이브와 허깅페이스에 공개됐다.

박재형 KT AX미래기술원 프론티어 AI 랩장은 “안전성 벤치마크의 공개는 단순한 데이터 배포를 넘어, AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일”이라며 “KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리 잡길 기대한다”고 말했다.