“압축 시각정보 고해상도 복원”…GPU 메모리 효율 16배 높인다

- KAIST-MIT-MS, GPU 메모리로 AI 시각 성능 높여
- 휴머노이드 로봇·온디바이스 AI 상용화 기대


기존 방식과의 성능 차이를 나타낸 비교 모식도(AI 생성 이미지).[KAIST 제공]


[헤럴드경제=구본혁 기자] 적은 메모리만으로 사람과 유사한 수준의 세밀한 시각정보를 구현할 수 있는 AI 기술이 개발됐다.

KAIST는 전기및전자공학부 김창익 교수 연구팀이 미국 MIT 및 마이크로소프트(MS) 연구진과의 공동 연구를 통해, 제한된 GPU 메모리만으로도 AI의 시각 성능을 높일 수 있는 범용 기술 ‘업샘플 애니띵(Upsample Anything)’을 개발했다고 17일 밝혔다.

이번 성과는 인공지능 및 컴퓨터 비전 분야 세계 최고 권위 학회 ‘CVPR 2026’에서 논문 채택에 이어, 수상의 영예을 않았다.

최근 휴머노이드 로봇과 자율주행 시스템, 세계모델(World Model·현실 세계의 물리적 환경과 변화를 학습·예측하는 AI 모델) 기반 인공지능은 연산 속도를 높이고 메모리 사용량을 줄이기 위해 입력 영상을 저해상도 특징 정보(Feature·AI가 이미지에서 추출한 핵심 정보)로 압축해 활용하고 있다.

그러나 압축 과정에서 작은 물체나 얇은 구조물, 미세한 결함과 같은 중요한 시각 정보가 손실되는 문제가 발생한다. 반대로 모든 영상을 처음부터 고해상도로 처리하면 막대한 GPU 메모리와 연산 자원이 필요해 실시간 처리가 어려워진다.

연구팀은 이러한 한계를 극복하기 위해 입력 이미지의 경계와 구조 정보를 활용해 저해상도 특징 정보를 고해상도로 복원하는 학습 없는(Training-free·추가 데이터 학습이 필요 없는) 업샘플링 기술을 개발했다.

CVPR 2026 포스터 세션. 서민석(왼쪽부터) KAIST 박사과정, 마크 해밀턴 MIT·마이크로소프트 박사, 김창익 교수.[KAIST 제공]


이 기술의 가장 큰 특징은 메모리 사용량을 크게 줄이면서도 고해상도 특징 정보를 유지할 수 있다는 점이다. 사람이 보는 고해상도 RGB 이미지와 AI가 인식하는 저해상도 특징맵을 정교하게 연결함으로써, AI가 사람과 유사한 수준의 세밀한 시각 정보를 활용할 수 있도록 했다.

또한 모든 시각 정보를 고해상도로 저장·처리하지 않고 핵심 정보만 압축해 활용함으로써 GPU 메모리 사용량을 크게 줄였다. 연구팀은 AI 연구에서 널리 활용되는 224×224 크기 이미지(약 5만 개 픽셀) 기준 약 0.4초의 짧은 계산만으로 원본에 가까운 시각 정보를 복원했으며, GPU 메모리 효율을 최대 16배까지 향상시키는 성과를 거뒀다.

김창익 교수는 “이번 기술은 적은 자원으로도 인공지능의 시각 정밀도를 크게 높일 수 있는 알고리즘으로, 휴머노이드 로봇과 온디바이스 AI의 실용화를 앞당길 것으로 기대한다”며 “반도체 제조 공정, 품질 검사, 정밀 로봇 제어 등 고해상도 시각 인식이 필요한 산업 현장에 활용될 가능성이 크다”고 말했다.

Print Friendly