본문 바로가기

광고

광고닫기

광고

본문

광고

경제 IT

“생성AI 학습용 데이터, 저작권 침해에서 자유롭기 어려워”

등록 2023-08-27 16:00수정 2023-08-28 02:16

KISDI ‘생성형 인공지능과 저작권 현안’ 보고서
게티이미지뱅크
게티이미지뱅크

생성형 인공지능(AI) 언어모델을 학습시키기 위한 데이터가 저작권 침해로부터 자유로울 수 없다는 지적이 나왔다.

27일 정보통신정책연구원(KISDI)이 최근 발간한 ‘생성형 인공지능과 저작권 현안’ 보고서는 “인공지능 모델을 위해 만들어지는 데이터셋은 인터넷에 공개된 정보를 크롤링(긁어모으기)해 제작되고 있다”면서, “인터넷에 공개된 정보는 이용 허락 조건에 맞지 않을 경우 저작권 침해로부터 자유로울 수 없고, 개인정보가 포함된 경우에는 개인정보보호법 위반에 해당할 수 있다”고 지적했다.

보고서는 이어 “저작권이 없거나 허락된 경우라면 침해로부터 자유로울 수 있기 때문에 가급적 저작권 이슈에서 자유로울 수 있는 데이터를 사용해야 한다”면서도 “사실상 이를 확인하는 것은 어려운 작업”이라고 짚었다. 예를 들어 구글이 올해 초 인공지능을 활용한 음악 제작도구를 출시하려다가 표절율이 높아 저작권 침해 우려가 제기되자 출시를 취소한 바 있다.

보고서는 빅테크 기업들이 학습 데이터를 공개하지 않는 것도 저작권 문제를 완전히 해결하지 못했기 때문일 것이라고 지적했다. 보고서는 “개인정보 침해물, 저작권 침해물, 경쟁 사업자가 제공하는 정보에서 크롤링한 데이터 등을 기반으로 학습 데이터가 제작됐을 가능성이 높다”면서, “영업비밀을 이유로 하는 것이 아니라면, (공개)하지 못하는 경우가 대부분일 것”이라고 짚었다.

보고서는 학습 데이터가 공개되지 않은 상황에서 저작권 침해 여부를 명확히 따지는 게 현실적으로 불가능하지만, 몇 가지 요소를 바탕으로 추론해볼 수는 있다고 설명했다. 예를 들어 “챗지피티(ChatGPT)를 포함한 생성형 인공지능 모델이 만들어낸 결과물이 학습 데이터를 통째로 복제하는 수준이 반복되는 경우 실질적 유사성을 확인할 수 있다”는 것이다. 보고서는 “특히 미드저니 등 이미지 생성 인공지능이 만들어낸 이미지가 (학습데이터의 것과) 유사한 경우가 많은데, 이는 데이터의 특징이 아닌 일부 학습데이터 자체를 암기해버려 발생하는 현상”이라고 설명했다.

보고서는 “인공지능 모델이 기계학습 과정에서 저작물 그 자체가 아닌 저작물에 담긴 특성, 패턴, 스토리, 구조 등을 이해해 추상화하는 경우 저작권 위반의 예외로 인정되는 ‘공정이용 행위’에 해당할 수 있다”고 분석했다.

정인선 기자 ren@hani.co.kr
항상 시민과 함께하겠습니다. 한겨레 구독신청 하기
언론 자유를 위해, 국민의 알 권리를 위해
한겨레 저널리즘을 후원해주세요

광고

광고

광고

경제 많이 보는 기사

삼성전자 반도체 성과급이 겨우…모바일은 연봉 44% 주는데 1.

삼성전자 반도체 성과급이 겨우…모바일은 연봉 44% 주는데

지난달 ‘그냥 쉬었음’ 청년 41만명…불완전 취업도 37% 뛰어 2.

지난달 ‘그냥 쉬었음’ 청년 41만명…불완전 취업도 37% 뛰어

“트럼프, 취임 첫날 행정명령 25개 사인할 것” 3.

“트럼프, 취임 첫날 행정명령 25개 사인할 것”

금융당국, 업비트 일부 영업정지 처분 통보…“최종 제재안은 아냐” 4.

금융당국, 업비트 일부 영업정지 처분 통보…“최종 제재안은 아냐”

새해에도 펄펄 나는 하이닉스, 날개 못펴는 삼성전자 5.

새해에도 펄펄 나는 하이닉스, 날개 못펴는 삼성전자

한겨레와 친구하기

1/ 2/ 3


서비스 전체보기

전체
정치
사회
전국
경제
국제
문화
스포츠
미래과학
애니멀피플
기후변화&
휴심정
오피니언
만화 | ESC | 한겨레S | 연재 | 이슈 | 함께하는교육 | HERI 이슈 | 서울&
포토
한겨레TV
뉴스서비스
매거진

맨위로
뉴스레터, 올해 가장 잘한 일 구독신청