거대한 데이터를 집어삼켜 학습한 뒤 결과물을 생성하는 생성 인공지능 시대에 데이터는 ‘시작’이자 ‘전부’다. 이전 버전까지는 데이터 크기를 공개했던 오픈에이아이(OpenAI)의 ‘챗지피티(ChatGPT)도 최근 버전인 ‘지피티(GPT)-4’의 학습 데이터 크기(매개변수 갯수)는 비밀에 부치고 있다. 네이버가 올여름 출시를 목표로 준비중인 대화형 생성 인공지능 검색서비스 ‘큐:’의 경쟁력도 네이버가 한국어 데이터를 가장 많이 소유한 기업이라는 데서 나온다.
이 때문에 전세계는 인공지능의 데이터 문제를 둘러싼 고민과 갈등에 직면해있다. 인공지능이 쓸어담는 데이터에 대한 문제제기나 소송을 하는 이들이 등장했고 데이터를 규제하는 국제 질서를 만드는 데 주도권을 가져가려는 국가간 경쟁도 치열하다.
지난 4월 일론 머스크 트위터 최고경영자는 “마이크로소프트가 트위터 데이터를 불법으로 사용해 인공지능을 훈련시키고 있다”며 “소송할 시간”이라는 글을 올렸다. 세계 최대 이미지 제공업체 게티이미지는 영국의 인공지능 이미지 생성 기업 ‘스태빌리티 에이아이’를 상대로, 미국 캘리포니아 창작자들은 ‘미드저니’를 상대로 소송을 제기했다. <월스트리트저널>(WSJ)과 <시엔엔>(CNN)도 소송을 검토한다는 소식이 전해지자 최근 오픈에이아이는 언론사들을 만나 인공지능 학습을 위한 뉴스 데이터 사용 문제를 논의하고 있는 것으로 알려졌다.
이런 ‘데이터 전쟁’ 속에 국제적인 공동 질서를 마련해야 한다는 목소리도 커지는 중이다. 유럽연합이 오픈에이아이를 조사하고 규범 마련에 나설 움직임을 보이는 가운데 최근 리시 수낵 영국 총리가 영국에서 ‘인공지능 정상회의’를 개최하겠다고 밝히기도 했다. 수낵 총리는 지난 7일 조 바이든 미국 대통령과 만나기 위해 찾은 워싱턴에서 기자들에게 인공지능 통제 기준을 다루는 국제 기구를 런던에 유치하겠다고 언급했다.
유럽과 미국이 주도하는 인공지능 규제 논의 속에 한국의 위상은 독특하다. 정보기술 인프라가 튼튼한 데다 인공지능 기술도 빠른 속도로 성숙하고 있기 때문이다. 오는 23일 개인정보보호위원회가 주체하는 ‘인공지능 데이터 프라이버시 국제 컨퍼런스’에 메타, 구글, 마이크로소프트, 삼성전자 등 주요 기업과 영국·독일·일본 등 주요 국가의 감독기관 수장들이 모두 모여드는 까닭이다.
임지선 기자
sun21@hani.co.kr