“단 5초면 충분” 속도 400배↑…UNIST, 3D 공간인식 AI 개발

- 메모리 사용량 64배 절감


주경돈(왼쪽) UNIST 교수와 방재훈 연구원.[UNIST 제공]


[헤럴드경제=구본혁 기자] 단 5초만에 로봇이 보는 3차원 공간에서 사용자가 원하는 물체를 텍스트 입력으로 빠르고 정확하게 찾아내는 인공지능(AI) 기술이 개발됐다.

UNIST(울산과학기술원) 인공지능대학원 주경돈 교수팀은 사용자가 입력한 다양한 말이나 문장을 바탕으로 AI가 3D 복원 공간 속 대상을 찾아내는 ‘오픈어휘 기반 3D 공간 인식 기술’인 ‘LightSplat’을 개발했다고 8일 밝혔다.

최근 3D 공간을 사람의 언어와 연결하는 오픈어휘 3D 공간 인식 기술이 주목받고 있다. 이는 미리 정해진 물체 목록만 인식하는 방식이 아니라, 사용자가 입력한 다양한 단어와 문장을 바탕으로 3D 공간 속 대상을 찾는 기술이다.

그러나 기존 3D 공간 인식 기술은 속도와 메모리, 물체 경계 구분에서 한계를 보였다.

연구팀이 개발한 기술은 사용자가 입력한 자연어를 기반으로 3D 공간에서 대상을 찾아내는 오픈어휘 3D 공간 인식 기술이다. 의자, 책상, 문처럼 미리 정해진 범주의 물체만 찾는 방식과 달리, ‘흰색 소파’나 ‘라면 위 달걀’처럼 더 구체적이고 다양한 표현을 통해 원하는 대상을 찾을 수 있다.

이 기술은 기존 오픈어휘 3D 공간 인식 기술 대비 메모리 사용량을 64분의 1 수준으로 낮췄다. 또 3D 가우시안에 의미 정보를 연결해 사람이 쓰는 자연어로 검색할 수 있는 상태로 만드는 시간도 약 5초로 줄였는데, 이는 기존 최신 기술보다 50~400배 빠른 속도다.

ScanNet 데이터셋을 이용한 3D 의미 분할 실험 결과. 라면 위의 달걀, 찻잔, 주걱 등을 기존 보다 더 정확하게 인식함.[UNIST 제공]


메모리 사용량과 검색 준비 시간을 줄였음에도 인식 성능은 기존 기술보다 뛰어났다. LERF-OVS와 DL3DV-OVS 데이터셋을 각각 이용한 실험에서, 라면 위에 올라간 달걀이나 유리잔에 담긴 차처럼 작은 대상부터, 멀리 있는 자동차, 사무실 가구처럼 크기와 배치가 다른 물체까지 또렷하게 구분해 낼 수 있었다. 또 ScanNet의 3D 의미 분할 실험에서는 19개 분류 기준 mIoU 37.11을 기록했다. mIoU는 AI가 찾은 물체 영역이 실제 정답 영역과 얼마나 겹치는지를 보는 지표다.

주경돈 교수는 “사람의 말로 지시를 바로 수행할 수 있는 인간-기계 상호작용이 강화된 로봇 개발, 텍스트로 대상을 바로 지정해 편집을 돕는 AR·VR 콘텐츠 제작, 디지털 트윈 기술 등에 적용 가능할 것”이라고 말했다.

과학기술정보통신부와 정보통신기획평가원(IITP)의 인공지능대학원 지원사업 지원으로 수행된 이번 연구결과는 컴퓨터 비전 분야 국제학회인 ‘CVPR 2026’에 채택됐다.

Print Friendly