KAIST, ‘멀티모달 AI’ 기술 개발 사람처럼 글자·이미지 동시 이해 |

황의종 전기및전자공학부 교수팀

KAIST 전기및전자공학부 최소영(왼쪽부터) 석사과정생, 황성현 박사과정생, 황의종(원 안) 교수 [KAIST 제공]

일반적으로 그림과 글자가 함께 있을 때 사람의 시선이 그림에 먼저 가는 것처럼, 여러 감각을 동시에 활용하는 ‘멀티모달 인공지능’도 특정 데이터에 더 크게 의존하는 경향이 있다. 국내 연구진이 이러한 상황에서도 그림과 글자를 모두 고르게 인식해 훨씬 더 정확한 예측을 가능케 하는 멀티모달 인공지능(AI) 학습 기술을 개발했다.

KAIST는 황의종 전기및전자공학부 교수 연구팀이 다양한 데이터 유형을 한 번에 처리해야 하는 멀티모달 인공지능이 모든 데이터를 고르게 활용할 수 있도록 돕는 새로운 학습 데이터 증강 기술을 개발했다고 14일 밝혔다.

멀티모달 인공지능은 텍스트, 영상 등 여러 데이터를 동시에 활용해 판단하고 있다. 하지만 인공지능은 여러 정보를 받아들일 때, 한쪽 데이터에 치우쳐 판단하는 경향을 보여 예측 성능이 떨어지는 문제가 있었다.

연구팀은 이 문제를 해결하기 위해, 일부러 서로 어울리지 않는 데이터를 섞어서 학습에 사용했다. 그러면 인공지능은 어떤 경우에도 한쪽 데이터에만 의존하지 않고, 글, 그림, 소리 등 모든 데이터를 균형 있게 활용하는 방법을 배우게 된다.

또 품질이 낮은 데이터는 보완하고, 어려운 데이터는 더 강조해서 훈련하는 방식까지 더해 다양한 상황에서도 안정적으로 성능을 높일 수 있음을 보여줬다. 이 방법은 특별한 모델 구조에 묶이지 않고, 어떤 종류의 데이터에도 쉽게 적용할 수 있어 확장성과 실용성이 크다는 점에서 의미가 있다.

황 교수는 “AI 성능을 높이려면 모델 구조(알고리즘)만 바꾸는 것보다, 어떤 데이터를 어떻게 학습에 쓰느냐가 훨씬 중요하다”며 “이번 연구는 멀티모달 인공지능이 특정 데이터(영상, 텍스트 등)에 치우치지 않고 균형 있게 정보를 활용할 수 있도록 데이터 자체를 설계하고 가공하는 접근법이 효과적일 수 있음을 보여줬다”고 말했다.

이번 연구는 KAIST 전기및전자공학부 황성현 박사과정생과 최소영 석사과정생이 공동 제1저자로, 황 교수가 교신저자로 참여했다.

연구 결과는 오는 12월 미국 샌디에이고와 멕시코 멕시코시티에서 열리는 인공지능 분야 최고 권위 국제 학술대회 ‘신경정보처리시스템학회(NeurIPS)’에서 발표될 예정이다.

구본혁 기자