생물무기·악성코드도 답한다…AI 안전장치 제거 도구, 1300만번 다운됐다

[게티이미지]


[헤럴드경제=장윤우 기자] AI 모델의 안전장치를 10분 만에 제거하는 도구가 온라인에서 확산하고 있다. 이 도구로 만들어진 변형 모델은 생물학 무기 제조법과 악성코드 작성 요청에도 제한 없이 답변했다.

25일(현지시간) 영국 매체 파이낸셜타임스(FT)에 따르면 AI 안전성 연구단체 앨리스(Alice)가 실험한 결과, 안전장치가 제거된 오픈소스 AI 모델들은 기존 시스템에서 차단되던 질문에도 응했다.

앨리스 공동창업자 겸 최고경영자(CEO) 노암 슈워츠는 FT에 “지니가 병 밖으로 나왔다”며 “SF처럼 여겨졌던 것들이 더 이상 SF가 아니다. 사회 전체가 대비해야 한다”고 경고했다.

문제의 도구는 깃허브(GitHub)에 공개된 ‘헤레틱(Heretic)’이다. ‘어블리터레이션(abliteration)’이라 불리는 기술 원리를 자동화한 소프트웨어로, 별도 전문 장비 없이 명령어 한 줄로 실행된다.

작동 방식은 이렇다. AI가 문제가 되는 내용(약물, 성인물, 폭력 등)의 요청을 거부하는 것은 신경망 내부에 ‘거부 방향’이라는 특정 활성화 패턴이 존재하기 때문이다. 헤레틱은 이 방향을 수학적으로 찾아내 거부 메커니즘 자체를 지운다. 추가 학습 없이 모델 원본에 직접 개입한다.

헤레틱의 성능 벤치마크는 구체적이다. 기존에 구글의 ‘젬마(Gemma) 3 12B’ 원본 모델은 유해 프롬프트 100개 중 97개를 거부했다. 그러나 헤레틱을 사용하자 거부 횟수가 3개로 줄었다. 기존 수작업 어블리터레이션 도구들과 비교하면 헤레틱은 AI 모델의 손상을 최소화하면서 안전장치를 제거했다.

연구진이 이 도구로 메타의 ‘라마(Llama) 3.3’ 안전장치를 제거하는 데 걸린 시간은 10분이었다. 구글의 최신 모델 ‘젬마 4’는 출시 90분 만에 같은 방식으로 뚫렸다.

안전장치가 제거된 젬마 3 변형 버전은 염소가스를 밀폐 공간에 퍼뜨리는 방법, 신용카드 정보 탈취 코드 생성 등 각종 요청에 응했다.

헤레틱 개발자 필리프 에마누엘 바이트만은 FT에 “지난해 공개 이후 이 도구를 활용해 3500개 이상의 ‘검열 해제’ 모델이 만들어졌다”며 “관련 모델 다운로드 수는 1300만 건에 달한다”고 밝혔다.

오픈AI는 최근 공개한 GPT-OSS 모델에서 위험 정보를 제거한 데이터 세트로 학습시키는 방식을 도입하고 있다. 깃허브와 허깅페이스에는 GPT-OSS, 젬마 3, 콴(Qwen) 3 등의 변형 버전을 포함해 헤레틱 기반 모델 1000개 이상이 이미 올라와 있다.

변형 모델 확산으로 각국 정부의 규제 시도도 복잡해지고 있다. 모델이 일단 다운로드되면 개발사의 통제 밖에서 복사·수정·공유가 가능하기 때문이다.

깃허브는 “불법 공격이나 악성코드 활동을 직접 지원하는 콘텐츠는 금지하고 있다”면서도 “보안 연구와 교육 목적의 소스코드는 허용 대상”이라고 밝혔다.

Print Friendly