지난 글(
한글의 토픽모델링 실험기[링크])에서 ‘동성애’란 낱말이 들어간 기사 1만2873개를 대상으로 토픽 모델링을 실행해 본 결과를 소개해 드린 바 있다.
여기[링크]에 해당 코드를 공개했다. 부끄러운 수준이지만 실험하면서 국내 관련 자료가 부족하단 점을 느낀 터라 혹시 관심 있는 분들을 위해 참고자료로서 공개하였다. 코드에 문제점이나 궁금한 점 등은 아래 전자우편 주소로 편하게 연락해주시기 바란다.
오늘은 각 연도별로 어떤 토픽이 우세했는지 살펴본 결과를 전해 드리고자 한다. 리뷰 차원에서 지난 개요를 새로 선보이는
인터랙티브 시각화[링크]와 함께 설명 드리면 다음과 같다. 지난 기사에선 갈무리한 그림 파일[아래]로 설명을 드린 바 있다.
위 그림 왼쪽 차트의 방울들이 1만2873개 기사(텍스트)에서 추출한 토픽들이다. 모두 25개 토픽으로 나누었다. 이는 분석자가 임의로 정한 것으로서 나름 산출 공식을 이용해 뽑아본 숫자다. 방울의 크기는 그 토픽이 얼마나 텍스트에 비중 있게 나타나는지를 뜻한다. 19번 토픽이 가장 큰 것을 알 수 있다.
해당 토픽을 클릭하면 오른쪽 차트에 단어가 바뀌는 것을 알 수 있다. 이 단어들이 해당 토픽을 구성하는 단어들이다. 지난 번에 토픽이란 ‘텍스트가 어떤 주제를 다루고 있는지 단어의 묶음으로 살펴 본 것’이라 한 바 있다. 예를 들어 ‘개’에 대해 다루고 있는 문서들이라면 “멍멍”, “반려견”과 같은 단어들이 자주 등장할 것이다. 토픽 모델링 학습 인공지능은 이런 함께 자주 등장하는 단어들을 하나의 토픽으로 묶어서 보여주는 데, 분석자는 이 묶음에서 ‘아 이 문서들이 개에 대해서 다루고 있구나’하고 유추할 수 있는 것이다.
19번 토픽은 ‘동성애’, ‘사랑’, ‘사람’, ‘자신’, ‘여성’, ‘사회’, … 등의 단어로 구성된다. 위에서부터 해당 토픽 안에서 비중이 높은 단어다. 그런데 첫 번째 단어 ‘동성애’의 경우, 텍스트 자체가 ‘동성애’란 낱말을 포함한 기사들이므로 비중이 높은 것은 당연해 보인다. 즉, 분석에 별 도움이 안 되는 단어인 것이다. 마우스를 ‘동성애’ 낱말 위로 가져가 보자. 그러면 해당 단어가 어느 토픽에 어느 정도 비중으로 들어가 있는지 왼쪽 방울 차트가 변화한다. 보시다시피 ‘동성애’ 단어는 거의 모든 토픽에 들어가 있으며, 특히 18번 토픽과 관계가 높다는 점을 알 수 있다.
다시 19번 토픽으로 돌아와서, ‘동성애’를 제외하면 ‘사랑’, ‘자신’, ‘여성’ 등의 단어가 이 토픽을 대표하는 단어라고 생각할 수 있다. 즉, 지난 29년 동성애 기사 가운데 가장 높은 비중을 차지한 토픽은 사랑과 여성에 대한 내용인 셈이다. 이상이 지난 칼럼의 주요 내용이었다.
‘사랑’과 ‘여성’은 좀 모호한 편이지만 9번 토픽 같은 것을 눌러보면 특징이 보다 뚜렷한 토픽이란 어떤지 알 수 있다. 해당 토픽의 상위 단어는 ‘후보’, ‘부시’, ‘민주당’, ‘대통령’, ‘대선’, … 등의 단어다. 즉, 미국 대통령 선거에 대한 토픽이라는 게 쉽게 드러난다. 24번 토픽 역시 비슷한 내용이다. 토픽 사이 거리가 가까울수록 두 토픽이 관계가 더 밀접하다.
그러면 이런 토픽들이 시기에 따라 어떻게 변동하는지 살펴볼 수 있을까? 텍스트를 연도별로 끊어서 토픽 모델링을 적용하면 알 수 있다. 위 코드[링크]에 해당 부분까지 함께 담았는데, 기본 원리는 이렇다. 기계 학습에서 ‘모델’이란 주어진 데이터를 가지고 컴퓨터가 학습을 해서 얻은 지식을 지도화(매핑)한 무엇이다. 즉, 이 사례에서 ‘모델’이란 기사 1만2873개를 가지고 기계가 학습한 결과, 무슨 단어가 나오면 몇 번 토픽에 얼마의 비중으로 변환되는지를 연결하는 지도인 셈이다. 예를 들어 문서에 ‘부시’란 단어가 나오면 모델은 ‘음, 이 단어는 9번 토픽 78%, 24번 토픽 22%를 담고 있는 단어입니다’라고 변환해 준다.
1990년~2018년 전체 문서에 대해 이 지도를 적용해 본 결과가 위의 그림으로 나타난 것이다. 그렇다면 각 연도별로 단어들을 잘라서 위 지도를 적용해 본다면? 각 연도별 어떤 토픽이 얼마나 나타나는지를 구할 수 있을 것이다. 그렇게 연도별로 살펴본 결과가 다음[그림]과 같다.
동성애 관련 기사의 연도별 토픽 변화 추이. 권오성.
25개 토픽 가운데 3개 토픽의 연도별 비중 변화만 나타냈다. 단 상대적 비중을 보기 위해 평준화 작업을 했다. 무슨 뜻이냐면, 1990년에는 ‘동성애’ 관련 기사라고 해봐야 모두 합쳐 13개에 불과했다. 반면 2018년에는 920개에 달한다. 그만큼 2018년에는 1990년에 비해 단어가 훨씬 많기 때문에 단순히 토픽 비중을 합치면 2018년의 모든 토픽이 1990년에 비해 압도적으로 높기 마련이다. 이를 서로 비교하기 위해, 토픽 비중을 각 연도별 총합으로 나누어서 비슷한 수준으로 맞추어 주었다는 의미다.
그 결과, 1990년 가장 높게 나타난 토픽 ‘1번’(주황색), 2018년 가장 높은 토픽 ‘18번’(회색), 전체적으로 가장 높았던 토픽 ‘19번’(파란색)을 그린 결과가 위 그림이다. 1990년 가장 높게 나타난 1번 토픽의 단어들은 이렇다. ‘에이즈’, ‘감염’, ‘감염자’, ‘환자’, … 단어의 특징이 뚜렷한 ‘에이즈’에 대한 토픽이란 점을 쉽게 알 수 있다. 반면 18번 토픽의 단어는 이렇다. ‘인권’, ‘차별’, ‘반대’, ‘단체’, … 인권과 차별에 대한 토픽임을 알 수 있다. 즉 동성애 관련 기사의 텍스트는 1990년 에이즈 토픽이 압도적이었던 수준에서(그림에서 나타나듯 전체 25개 토픽 가운데 30% 가까운 비중이 ‘에이즈’에 대한 내용이었다), 2018년 인권과 차별에 대한 토픽으로 크게 변한 양상을 보여준 것이다. 에이즈에 대한 토픽은 1990년이 지나면서 금세 사그라들어 기사에 그다지 나타나진 않았다. 그렇다고 인권과 같은 토픽이 금방 득세한 것도 아니어서 2012년까지도 동성애 관련 기사에서 인권 토픽은 별로 높은 비중을 차지하지 못한 것을 알 수 있다.
지금까지 동성애 텍스트를 예시로 토픽 모델링과 연도별 변화 추이를 분석한 결과를 보여 드렸다. 다음에는 같은 모델링이 ‘난민’, ‘장애인’, ‘여성’ 등 다른 소수자 기사의 경우 어떤 양상으로 나타났는지 결과를 전해 드리겠다. 그런데 그에 앞서 하나 먼저 고백을 하나 먼저 드릴 것이다. 이상의 분석 결과가 사실은 ‘결정적’이지 않고 분석 때마다 바뀔(!) 수 있다는 점이다. 왜 그러하며 그런 불안한 결과를 어떻게 쓸 수 있는지에 대해 먼저 논할 것이다.
♣H6s권오성 기자 sage5th@hani.co.kr
본 보도는 한국언론진흥재단 빅카인즈의 지원을 받았습니다.