구글, 제미나이 1.5 프로 공개…“1시간짜리 동영상도 요약 가능”

구글 제미나이 1.5가 40분 분량의 영화 줄거리를 요약하는 모습 [구글 제공]

[헤럴드경제=정목희 기자] 구글이 자체 개발한 거대언어모델(LLM) 제미나이의 상위 버전인 제미나이 1.5를 15일(현지시간) 공개했다.

제미나이는 학습 규모에 따라 울트라·프로·나노로 나뉘는데, 이날 공개한 ‘제미나이 1.5 프로’는 구글의 최신 AI 모델인 ‘제미나이 1.0 울트라’와 비슷한 수준으로 텍스트·이미지·음성·영상을 생성하는 중형 멀티모달 모델이다.

구글은 제미나이 1.5 프로가 기존 1.0 프로보다 동시에 정보를 처리할 수 있는 능력이 크게 향상돼 긴 문맥을 이해하는 역량이 뛰어나다고 설명했다.

AI 모델이 한 번에 처리할 수 있는 정보의 양을 ‘콘텍스트 윈도(context window)’라고 하는데, 이는 단어·이미지·영상·오디오·코드 등의 의미를 가진 ‘토큰(token)’이라는 단위로 구성된다.

제미나이 1.5 프로는 최대 100만개의 토큰 처리 능력을 갖췄다. 한번에 입력할 수 있는 데이터의 크기가 늘었다는 의미다. 약 1시간 분량의 동영상, 11시간 분량의 음성, 3만줄의 코드, 70만개 이상의 텍스트에 해당하는 방대한 정보를 한번에 처리할 수 있다.

400페이지가 넘는 분량의 아폴로 11호 달 탐사 임무 관련 문서가 주어지면 문서 전체 내용과 이미지, 세부 정보를 추론한다.

미국 배우 버스터 키튼의 무성영화를 보여주면 영화 구성과 사건 등을 분석하고 놓치기 쉬운 세부 내용까지도 파악한다고 구글은 설명했다.

문맥 기반 학습 능력도 뛰어나 소멸 위기 언어인 칼라망(Kalamang)어의 문법서를 학습하면 사람과 비슷한 수준으로 영어-칼라망어 번역을 수행한다.

제미나이 1.5 프로는 구글 AI스튜디오와 버텍스AI를 통해서 사용할 수 있다. 기본 컨텍스트 윈도우는 12만8000개로 100만개를 사용하려면 추가 요금제를 사용해야 한다.

제미나이 1.5는 파인튜니잉 없어도 뛰어난 학습능력을 가지고 있다. 전 세계적으로 사용하는 사람이 200명이 채 안되는 칼라망(Kalamang)어 문법 매뉴얼을 입력하자 제미나이 1.5 프로는 동일한 내용을 사람이 학습하는 것과 비슷한 수준으로 번역할 수 있었다.

Print Friendly