본문 바로가기

광고

광고닫기

광고

본문

광고

문화 문화일반

그 많던 웹문서는 다 어디로 갔을까

등록 2006-08-31 20:19수정 2006-09-01 14:49

표층웹 40억 페이지·심층 5500억 페이지
전세계 웹규모 미 의회도서관의 50배인데
웹페이지 수명 44일·디지털자료는 70일 불과
성장만큼이나 폭발적으로 소멸한다

커버스토리

#사례 1=총리실 산하 수질개선기획단에서 2000년 5월에 펴낸 ‘영월댐(일명 동강댐) 건설 타당성 종합검토 보고서’가 분실됐다. 보고서 원본과 컴퓨터로 된 데이터가 없고 다만 30쪽짜리 요약본만 총리실에 보관돼 있는 것.

이는 <한겨레>의 정보공개 청구에 따라 총리실에서 이를 확인하는 과정에서 2006년 8월 비로소 밝혀졌다. 만일 정보공개 청구가 없었더라면 보고서의 유무는 영원히 확인되지 않았을 것이다.

이 보고서는 전문가들이 1999년 9월부터 7개월에 걸쳐 작성한 것으로, 물 수급, 홍수, 댐 안전, 환경, 문화 등 다섯 분야의 조사·연구 내용과 10차례에 걸친 토론 끝에 ‘영월댐 건설 중단’이라는 결론을 담고 있다. 이 보고서는 10여년에 걸친 사회적 갈등을 민·관 공동조사 방식으로 해결한 첫 결과물로 학술적 의미가 크다.

#사례 2=94년에 문을 열어 여러 차례 개편을 거친 청와대 홈페이지의 자료는 과연 보존돼 있을까. 있다. 현재 홈페이지격인 <청와대브리핑>을 보면 지난자료 보기에 노무현 정부 초기의 청와대 홈페이지 <청와대 매거진>이 1호(2003년3월11일치)에서 130호(2005년4월18일치)까지 보존돼 있다. 하지만 원래의 것이 아니라 자료적인 것만 ‘청와대브리핑’에 링크돼 있을 뿐이며 초기의 것은 망실되어 첫페이지만 남아있다. 그 이전 것은? 미국사이트 ‘인터넷 아카이브’(www.archive.org)에 있다. 여기에는 96년 10월19일부터 2005년 3월15일까지 10여년에 걸쳐 정기적으로 퍼간 웹사이트가 107쪽 보관돼 있다. 하지만 2뎁스(직렬 기준 두번 클릭)까지 보관한 탓에 실질적인 자료는 거의 들어있지 않다.

정부의 디지털 자료와 웹사이트 자료들이 망실되는 일이 과연 사례로 든 두 가지뿐이겠는가. 사이버 자료는 폭발적으로 증가하는 데 비해 일반인들의 관심은 턱없이 낮아, 무수한 디지털 유산들이 중요성이 채 인지되기도 전에 사라지고 있다. 혹자는 현대를 ‘디지털 암흑시대’라고 말한다.


웹문서 실태
현재 전 세계 웹의 규모는 표층웹이 40억페이지, 심층 5500억 페이지로 미 의회도서관 장서의 50배에 이른다. 하룻밤을 자고 나면 700만페이지가 늘어난다. 국내에서는 매일 1500만페이지 이상이 새로 만들어진다고 한다. 인터넷 인구가 3천만명을 넘을 만큼 인터넷 강국인 우리나라의 시대적 표정이고 오프라인 공간에서 사이버공간으로 옮겨온 우리네 일상활동의 반영인 셈이다. 하지만 웹페이지의 평균수명은 44일. 1998년에 나온 웹페이지 가운데 1년 뒤인 99년에는 44%가 사라졌으며(강명구, 2006년 2월), 디지털 자료의 평균수명은 70일에 불과하다고 전한다(민경배, 2005년 9월).

웹 및 디지털 자료의 소멸은 성장의 폭발성 못지 않게 폭발적이다. 그 까닭은 그 자체의 성격에 기인한다. 웹은 종이와 달리 무한대의 공간에 무한대의 기록이 가능하며 무제한적인 전파가 가능하다. 또 사용자에 의해 얼마든지 변형이 가능해 하나의 ‘기록’은 완결된 구조가 아닌 흐름으로 존재한다. 하나로 특화하기 어려울 뿐더러 흐름 전체를 보관하기란 보통 일이 아니다. 게다가 웹공간의 황폐화, 즉 지나친 상업화와 폭력, 음란물이 넘쳐 정작 보존할 가치가 있는 웹페이지가 세간의 주목을 받지 못한 채 어느 순간 사라지는 예가 잦다. 기술환경의 급변도 이에 한몫을 한다. 넷스케이프에 적합하게 구현되었던 웹공간은 익스플로러 환경에서 무력하고 프로그래밍기술의 변화에 따라 유행이 지난 기술에 의한 자료는 버려지거나 시각화할 수 없는 상황에 이르게 된다.

디지털 알렉산드리아도서관이 생긴다면
인터넷 폭발과 함께 우리는 대니 힐리스의 말처럼 ‘디지털 암흑기’에 살고 있는지도 모른다. 만일 디지털 유산이 고스란히 보관된다면 우리 문명의 성공과 실패를 배울 수 있지 않을까. (물론 분석기술과 틀이 마련되어야 한다.)

첫째, 공공 및 일상사가 종이에서 디지털로 옮겨가는 과도기의 표정과 실상을 알 수 있을 것이다. 우리의 ‘알 권리’와 ‘기억할 권리’는 디지털도서관에서 찾을 수밖에 없기 때문이다. 둘째, 생활과 언어의 변천사를 재구할 수 있는, 선사시대의 조개묻이와 흡사한 구실을 할 것이며 당대의 관심사와 여론형성 구조를 보여줄 것이다. 셋째, 치유할 여유를 얻지 못한 채 묻혀진 디지털 공간의 문제에 대한 해결책을 뒤늦게나마 찾을 수 있을지도 모른다. 처음에는 발생과 치료의 시간차가 크겠지만 점차 줄어들지 않겠는가. 혹은 나이가 들어 턱을 괴고 회고에 잠길 수 있는 과거로 향한 창문 구실도 할 터이다.

외국에서는
미국에서는 비교적 이른 시기인 1996년에 인터넷 아카이브(www.archive.org)를 만들어 전세계 웹페이지를 수집해오고 있다. 디지털 기술 시대에 교육 및 연구를 지속하기 위해서는 필수적이라고 판단했기 때문. 디지털 유산을 집적하여 리서처나 학자들에게 영구히 제공하고자 하는 이곳의 자료는 텍스트, 오디오, 동영상, 소프트웨어, 웹페이지를 포괄한다. 샌프란시스코에 자리한 이 기관은 네티즌의 기부금에 의해 유지되는데, 컴팩, 미국립과학재단, 스미소니언박물관 등의 도움으로 웹페이지 검색로봇인 ‘웨이백머신’을 활용해 100억개 이상의 웹페이지를 보관하고 있다. 미 국회도서관 장서의 5배, 대략 100 테라바이트에 이르는 분량이다. 오스트레일리아에서는 그곳 국립도서관 주관으로 판도라프로젝트를 추진해 3500개 이상의 호주 관련 타이틀을 수집해 서비스하고 있다. 이밖에 뉴질랜드 국립도서관의 NDHL(National Digital Heritage Archive) 프로그램, 유럽의 IIPC(International Internet Preservation Consortium) 프로그램이 있다.

우리나라 1
서울 서초구 국립중앙도서관 앞뜰에는 지하 5층, 지상 3층의 국립디지털도서관(NDL)이 공사중이다. 2008년말 완공목표. 이곳에서는 정보수집을 웹포털, 개인블로그까지 확대한다는 계획이다. 그 핵심이 오아시스(Online Archiving Searching Internet Sources) 프로젝트다. 2005년부터 2006년까지 2년간 100만달러 규모 예산을 들여 시스템을 구축하고 자료를 구축하고 있다.

현재 수집한 자원의 수는 12만여개. 개별자원이 10만4000여개, 웹사이트는 1만6000여개다. 국회의원 선거공간의 홈페이지나 행정수도 이전 관련한 사이트, 지역축제 등 시대의 표정을 보여줄 수 있으며 한시적으로 존재해 자칫 사라질 수 있는 사이트를 선택적으로 수집하고 있다. 개별사이트는 신규자원, 삭제자원, 변경자원 등을 고려한 변화율를 따져 3뎁스까지 주기적으로 수집·저장한다. 3뎁스까지면 데이터의 80% 이상을 끌어온다.

대상 사이트에서는 데이터 수집보관만 허용 또는 저작권까지 위임하는 등 두 가지 수준으로 끌어오는데 저작권 위임동의율이 낮아 고민이다. 저작권 동의서를 보낸 결과 2005년에 1002곳 중 209곳이, 2006년에는 440곳 가운데 45곳이 응해와 10~20%의 낮은 동의율을 보이고 있다. 개인보다는 기관의 동의가 낮은 편이다. 도서관의 판단과 필요에 따라 끌어와 보관할 수 있도록 하는 납본규정을 검토하고 있다.

현재 정규직 3명, 비정규직 7명 등 10명이 간여하고 있는데 일손이 달리는 편이다. 궤도에 오르면 카테고리별로 한명씩 40여명 정도 필요하다고 본다. 중앙도서관 정보화담당관실 전달주 주무관은 “오아시스의 중요성에 비해 당국의 관심과 일반인의 호응이 낮다”며 곤혹스러워했다.

우리나라 2
민간차원에서는 2004년 함께하는시민행동, 다음세대재단 등 6개 단체공동으로 정보트러스트센터를 만들어 디지털유산 보전활동을 펴오고 있다. 그 활동의 하나로 1996년에 발행된 최초의 문화웹진 ‘스키조’를 복원해 서비스하고 있다. 이 웹진은 도발적인 주제를 경쾌한 논리와 촌철살인의 미학으로 다루어 기존의 종이신문에 문화적인 반격을 해 하루 방문자 10만명에 이를 정도로 인기를 끌었다. 다음세대재단 이지연 미디어문화실장은 이 웹진이 최남선이 만든 <소년>과 같은 가치를 가진다고 평가한다. 이 외에 빠르게 변하는 인터넷을 1년중 하루만이라도 함께 기록하여 보관하자는 취지에서 그해 6월16일을 ‘인터넷의 하루’로 정해 2005, 2006년 두차례 자료를 수집해 보관하고 있다. 보존가치가 있는 사이트를 선별해 지정·발표하는 ‘정보트러스트어워드’도 운영한다. 비용은 시민단체의 기부가 아닌 다음세대재단의 지원으로 충당하는 형편이다. 조양호 함께하는시민행동 기획실장은 “정보트러스트는 디지털자산의 중요성을 일깨우는 캠페인 수준”이라면서 “별도의 예산없이 민간차원에서 본격추진하기는 힘든 일”이라고 말했다.

임종업 선임기자 blitz@hani.co.kr

항상 시민과 함께하겠습니다. 한겨레 구독신청 하기
언론 자유를 위해, 국민의 알 권리를 위해
한겨레 저널리즘을 후원해주세요

광고

광고

광고

문화 많이 보는 기사

[꽁트] 마지막 변신 1.

[꽁트] 마지막 변신

로제 ‘아파트’ 뮤직비디오 10억뷰 돌파…케이팝 최단 기간 2.

로제 ‘아파트’ 뮤직비디오 10억뷰 돌파…케이팝 최단 기간

아이들 ‘두번째 집’ 포기 못한 엄마들 “다시 공립 될 때까지 버텨야죠” [.txt] 3.

아이들 ‘두번째 집’ 포기 못한 엄마들 “다시 공립 될 때까지 버텨야죠” [.txt]

우주에 간 공효진·이민호도 고전…K-드라마가 우주에서 ‘쓴맛’ 본 이유 4.

우주에 간 공효진·이민호도 고전…K-드라마가 우주에서 ‘쓴맛’ 본 이유

‘믿음’이 당신을 구원, 아니 파멸케 하리라 [.txt] 5.

‘믿음’이 당신을 구원, 아니 파멸케 하리라 [.txt]

한겨레와 친구하기

1/ 2/ 3


서비스 전체보기

전체
정치
사회
전국
경제
국제
문화
스포츠
미래과학
애니멀피플
기후변화&
휴심정
오피니언
만화 | ESC | 한겨레S | 연재 | 이슈 | 함께하는교육 | HERI 이슈 | 서울&
포토
한겨레TV
뉴스서비스
매거진

맨위로
뉴스레터, 올해 가장 잘한 일 구독신청