현재의 자동번역 기능도 동음 이의어나 미묘한 표현을 제대로 처리하지 못해, 다양한 오류를 만들어내고 있다.
인공지능 자연어 처리 시스템(NLP)을 손쉽게 무력화시킬 수 있는 소프트웨어가 개발됐다. 문장의 단어 하나를 동의어로 대체할 경우 사람은 동일한 의미로 읽어내지만 인공지능은 전혀 다른 의미로 파악하게 하는, 일종의 인공지능 무력화 방법이다.
<엠아이티(MIT) 테크놀로지 리뷰>와 <벤처비트>의 지난 7일 보도에 따르면, 미국 매사추세츠공대(MIT) 컴퓨터인공지능연구실(CSAIL)은 홍콩대학, 싱가포르 과학기술청과 공동으로 인공지능 자연어 처리 시스템을 무력화시키는 프로그램 ‘텍스트풀러(TextFooler)’를 개발했다.
텍스트풀러는 테스트 문장에서 주요 단어를 동의어로 대체했는데, 사람은 동일한 의미로 받아들였지만 자연어 처리 시스템은 전혀 다른 의미로 받아들여 오류율이 극적으로 높아졌다. 10% 미만의 오류율을 보이던 자연어 처리시스템에 텍스트풀러를 적용하자 2배 가까운 20% 이하의 오류율을 보였다. 현재 가장 정확도 높은 자연어 처리 시스템인 구글의 버트(BERT) 또한 이러한 방식의 테스트에 매우 취약함이 드러났다. 버트의 오류율이 5~7배 높아진 것으로 테스트 결과 밝혔졌다.
예를 들면 소프트웨어는 테스트에서
“불가능하게 꾸며진 상황 속으로 캐스팅된 등장인물들은 완전히 현실과 동떨어져 있다”(The characters, cast in impossibly contrived situations, are totally estranged from reality) 문장에서 단어 둘을 같은 의미로 바꾸었다. ‘contrived situations’을 ‘engineered circumstances’으로 대체했다.(“The characters, cast in impossibly engineered circumstances, are fully estranged from reality”). 사람들은 이 두 문장을 동일한 의미로 이해했지만, 자연어 처리 시스템은 완전히 다르게 해석하며 오류를 일으켰다.
사람이 알아 차리는 방식에는 거의 동일한 것으로 보이지만, 기계인식에는 둘을 완전히 다른 것으로 처리되는 이 구조를 인공지능의 ‘적대적 사례(adversarial examples)’라고 부른다. 그동안 인공지능의 적대적 사례가 주로 시각 이미지를 대상으로 연구되어왔는데 ‘텍스트풀러’는 자연어 처리 시스템에서도 거의 유사한 방식으로 문제가 발생함을 밝혀낸 연구다.
도로교통 표지판(왼쪽)에 스프레이 흔적이 있어도 사람은 이를 다른 신호로 인식하지 않는다. 하지만 인공지능 이미지 인식모델은 표지판에 오인을 유도할 수 있는 스티커(오른쪽)를 붙이면 ‘정지’ 표지판을 ‘속도제한 45마일’로 인식하는 오류를 나타냈다. 이를 인공지능의 ‘적대적 사례’라고 말한다. arXiv.org 제공.
이 연구는 시리, 알렉사, 구글 홈 등 인공지능의 음성 기반 자연어 처리 시스템 적용이 확산되고 있는 상황에서 시스템이 내세우는 높은 정확도에도 불구하고 사소한 공격에도 매우 취약하다는 것을 보여준다는 점에서 의미가 있다. 현재 대부분의 소셜미디어와 이메일 등 인터넷 콘텐츠 서비스에서는 스팸, 불법광고, 음란물, 혐오표현 등 문제 내용을 인공지능 자연어 처리 시스템에 의존해 걸러내고 있는 상황이다. 자연어 처리시스템을 먹통으로 만들 수 있는 ‘적대적 사례’의 개발은 두 가지 가능성을 동시에 제시한다. 하나는 적대적 사례 공격에 취약한 인공지능 자연어 처리 시스템이 신뢰도를 잃어버릴 가능성이다. 다른 하나는 자연어 처리 시스템을 적대적 사례를 이용한 공격에 대비하도록 훈련시켜, 더 정확도 높고 안정적인 시스템을 구축할 수 있다는 점이다.
구본권 선임기자 starry9@hani.co.kr