AI평가, 더 엄격한 과학적 검증 필요 [루먼 초두리] |

이 칼럼은 헤럴드경제 회원 전용 콘텐츠 ‘HeralDeep’에 게재됐습니다. 회원으로 가입해 글로벌 석학들이 전하는 AI·국제정치경제·지경학에 대한 통찰을 ‘영어 원문’으로 만나세요.

2022년 한 팟캐스트 인터뷰에서 p(doom)을 예측해 달라는 요청을 받은 적이 있다. 표현에 익숙지 않은 독자들을 위해 덧붙이면, p(doom)은 AI 전문가들에게 인공지능이 인류의 멸종이나 영원한 인류의 권한 상실과 같은 재앙적 결과 (‘멸망’)를 초래할 가능성 (p, probability)을 묻는 질문이다.

필자는 당시에도 그랬고, 지금도 여전히 이 개념 자체가 말도 안 된다고 생각한다. 하지만 언론 보도가 사실이라면 AI는 10년 안에, 혹은 50년 내, 심지어는 5년 안에 인류 전체를 말살할 수도 있다. AI 개발 조직을 이끄는 가장 부유하고 권력 있는 자들, 또는 저명한 과학자들로부터 나오는 예측이다. 하지만 이들 중 그 누구도 예측에 도달한 과정이나 메커니즘, 또 결론을 내리게 된 시험 환경에 대해 정확히 설명하지 못하고 있다. 그저 막연한 추측과 과도한 의인화가 결합돼 AI가 ‘거짓말을 하고’ 사용자를 ‘조작한다’는 등의 뉴스 헤드라인이 쏟아진다. 결과적으로 AI가 자의식이 생기길 기다리고 있으며 그렇게 되면 곧바로 인간을 지배할 것이라는 믿음이 생겨난다. 이러한 주장은 종종 비현실적인 시나리오를 설정하고 선택적으로 ‘증거’를 제시하는, 스스로 수행한 평가에 근거한다.

과학적 엄밀성이 결여되면 AI 평가라는 분야는 단순히 개인 의견을 홍보하는 도구에 그치게 된다. 이 문제는 단순히 존재할 수도, 존재하지 않을 수도 있는 문제에 주목하거나, 자금, 인재, 자원을 분산시키는 데서 끝나지 않는다. 더욱 근원적인 문제점은 우리가 집단적으로 과학적 의사결정 과정 훼손에 동참하고 있다는 것이다. 과학적 과정은 과학자들 간 공통의 언어 역할을 한다. 이른바 ‘게임의 규칙’인 것인데, 규칙을 따르지 않으면 게임은 성립하지 않는다. 스포츠에서도 규칙을 어기면 경기 승리자에 대한 분쟁, 조직, 팀, 또는 개인의 신뢰 상실, 심지어는 스포츠 자체에 대한 흥미 감소로 이어질 수 있다. 지속적인 도핑 스캔들이 남성 사이클링 종목에 미친 영향을 생각해 보면 이해가 쉬울 것이다.

AI에서 규칙의 중요성은 스포츠와는 비교할 수 없이 더 크지만, 이 근본적인 문제는 여전히 해결되지 않고 있다. 공통의 언어와 규칙이 없으면 우리가 접하는 평가를 믿거나 신뢰할 수 없다. 필자는 직업상 오랜 기간 동안 다양한 모델을 감사, 평가, 검토할 수 있었다. AI와 머신러닝(ML), 그리고 최근에는 생성형 AI 간 언어가 모호해지며 접근법이 혼동되는 경우가 많지만, 이들 간에는 수학적, 프로그램적 구조에서 근본적인 차이가 존재한다. 먼저 ML 모델은 통계적이고 결정론적이다. 즉, ML 모델의 수학적 기반과 테스트 메커니즘은 오랜 세월 동안 존재해 온 기존 학문 분야에 맞춰져 있다. 반면 생성형 AI 모델은 ML 모델과 구성이 다르며, 모델의 결과가 확률적이기 때문에 상당한 경우 전통적인 통계적 평가 메커니즘이 적용되지 않는다.

그 결과 새로운 평가 방법들이 모색되고 있다. 특히 ‘레드티밍’ (red-teaming)과 ‘벤치마킹’의 개념이 AI 테스트 및 평가 분야에서 꽤나 인기를 끌고 있다. 완전히 새로운 개념들은 아니지만, 이를 생성형 AI 모델의 테스트 및 평가 메커니즘으로 적용하는 것은 전에 없던 시도다. 현대적인 레드티밍 접근법은 전문가 팀이 법률 혹은 서비스 약관을 의도적으로 위반하면서 소프트웨어 침투를 시도하는 사이버보안 행위에서 유래됐다. 다양한 분야에서 널리 사용되는 벤치마킹은 여러 모델의 성능 점수를 제공하기 위한 공통된 테스트 메커니즘을 제공한다. 다만 두 접근법 간 이 이상의 유사점은 찾기 어렵다.

생성형 AI 평가를 위한 보다 과학적인 프로세스가 어떤 모습일지 이해하려면, 먼저 현 평가 방식의 부족한 점을 파악해야 한다. 대부분의 사람들이 초등학교 때 처음으로 과학적 방법론을 구성하는 원칙을 배우게 된다. 수십 년에 걸쳐 확립된 과학의 규칙으로, 경험주의 (데이터 수집), 객관성, 왜곡 가능성 (falsifiability), 재현 가능성, 체계적이고 반복적인 접근법으로 구성돼 있다. 보다 심도 있는 과학적 분석에서는 유효성(테스트가 의도한 개념을 정확히 측정하는지 여부)와 견고성(다양한 조건에서 테스트 결과가 일관성을 유지하는지 여부) 입증을 위한 추가 평가가 필요하다.

AI 평가의 현 상태는 기본적인 과학적 원칙의 관점에서 볼 때 여러 측면에서 부족하다. 사실 과학의 근본 원칙 중 현재 AI 평가와 합치되는 것은 거의 없다고 봐도 무방할 정도다. 먼저 AI 모델들의 확률적 특성 때문에 왜곡 가능성과 재현 가능성은 달성이 거의 불가능하다. 다시 말해, 생성형 AI 모델은 같은 입력값을 제공해도 동일한 결과값을 제공하지 않으며, 모든 생성형 AI 모델은 원하는 결과값을 얻기 위해 충분히 조작이 가능하다는 것이다.

노트북 PC에 인공지능이 생성한 예시 이미지와 다양한 프로그래밍 언어의 코드가 나타나 있다.

또한, 대부분의 테스트는 시스템 수준이 아닌 모델 수준에 초점을 맞추고 있어 테스트의 유효성과 견고성에 의문이 제기된다. 예시로, 인위적으로 통제된 환경을 조성해 AI 모델이 핵무기를 발사할지 여부에 대한 가설적 질문을 던진다고 해보자. 그렇다 해도 실제 세계의 AI 시스템이 어떻게 다층적인 물리적, 디지털, 인간 안보와 의사결정 메커니즘의 단계를 우회해 핵무기에 접근하고 발사할 능력을 갖게 되는지 알려주지는 않는다. 마찬가지로 ‘CEO’라는 프롬프트에 대해 오로지 백인 남성의 모습만 생성하는 AI 이미지 생성 모델이 실제 세상에서 어떤 의미를 갖는지는 불분명하다. 현 상황의 편향을 반영한다고 인지할 수 있지만, AI 시스템이 현실 세계에 적용될 때 이 점이 의사결정이나 신념에 어떤 영향을 미치는지는 명확하지 않다. 이러한 이해가 결여된 상태에서 우리는 AI의 세계에 유의미하게 개입하기 어렵다.

마지막으로, 대다수의 AI 테스트는 해당 모델과 데이터를 개발한 조직에서 독점적인 모델과 데이터셋을 활용해 수행되며, 외부에서 방법론, 데이터, 접근법을 검증할 수 있는 기회는 거의 없다. 나아가 레드티밍이나 벤치마킹과 같은 평가를 수행하기 위한 공통의 접근법조차 마련돼 있지 않다. AI 평가의 근본적인 경험주의와 객관성, 체계적 구성 자체를 의심하게 만드는 대목으로, 결과적으로 우리는 과학의 언어만을 빌려 이념적 설득과 정책 수립 행위를 하는 셈이다.

해결책은 존재한다. 계량학(metrology)은 과학 및 기술의 전 분야에서 실험적, 이론적 계량을 포함해 모든 수준의 불확실성을 다루는 측정의 과학이다. 좁은 의미로는 계량의 단위를 설정하는 학문이지만, AI의 맥락에서는 그 정의의 범위를 넓혀 AI 평가를 ‘과학적 원칙’에 맞추는 데 활용할 수 있다. 계량학은 과학, 법, 산업 전반에 걸쳐 사용되며 과학적 발견과 실생활 구현 사이를 연결하는 가교 역할을 한다. 많은 과학 및 사회과학 분야에서 계량학과 정량적 방법은 평가와의 별개의 영역으로, 관련 전문가들은 과학적 원칙을 준수하는 테스트 및 평가 메커니즘을 수립하는 데 집중한다. 오늘날 AI 평가를 수행하는 많은 조직들이 평가법을 직접 개발하기도 하며, 필자가 운영하는 비영리단체인 휴메인 인텔리전스(Humane Intelligence)도 마찬가지다. 다만 평가 방법과 접근법 개발에만 온전히 전념할 수 있는 여유와 객관성을 확보한 조직은 거의 없다. AI 평가라는 독립적인 분야는 시민사회, 학계, 산업계, 정부 등 다양한 행위자들이 참여하는 생태계를 통해 형성되고 유지돼야 하며, 이를 통해 여러 관점과 접근법이 반영돼야 한다.

공통의 방법론, 기준, 원칙을 수립함으로써 우리는 추측적 ‘재앙 예견 놀이’와 이념적 과장에서 벗어나 보다 개방적이고 적극적인 탐구의 길을 열 수 있다. AI 시스템을 진정으로 이해하고 책임감 있게 개발하기 위한 기반을 구축할 수 있는 것이다. 뿐만 아니라 지금은 과학적 과정 자체의 신뢰성도 위기에 처한 상태다. 과학적 원칙을 따르지 않는 AI 평가법이 과학의 탈을 쓰고 활보하는 현 상태를 방치한다면, 기술과 과학 전반에 대한 대중의 신뢰가 훼손된다. 이미 여러 방면에서 과학적 전문성이 공격받고 있는 현 시점에서 AI 공동체는 보다 엄격한 기준을 준수할 책임이 있다.

루먼 초두리는 누구

인공지능(AI) 분야에서 영향력이 큰 데이터과학자이자 사회과학자다. 미국 하버드대 버크만 클라인 센터(Berkman Klein Center)에서 ‘책임 있는 AI(Resposible AI)’ 펠로우를 맡고 있다. 트위터에서 머신러닝 윤리팀 책임자를, 액센츄어어플라이드인텔리전스의 책임 있는 AI 글로벌 책임자를 역임했다. 시사 주간지 타임이 선정한 AI 분야 가장 영향력 있는 100인 중 한 명이다. 포브스는 초두리를 AI를 형성하는 5인 중 한 명으로 꼽았다. 미 매사추세츠공대(MIT)에서 두 개의 학사 학위를, 컬럼비아대에서 사회과학의 정량적 방법론 석사 학위를 취득했다. 샌디에이고 캘리포니아대에선 정치학 박사 학위를 받았다.