웹아카이빙 자료수집과 동작방식 설명
현안과이슈 / by Jussi / 작성일 : 2017.05.28 / 수정일 : 2023.04.03




이전 아카이브글에서 디지털아카이빙의 소개와 주요 사이트를 설명하였습니다.

이번 글에서는 한국의 오아시스(Online Archiving & Searching Internet Sources, OASIS) 와 구글을 예로 들어 디지털, 웹 자료를 검색하고 저장하고 아카이빙 하는 방식을 설명하고자 합니다. (이는 네이버나 다른 웹아카이빙 사이트도 거의 유사한 방식)

1.웹 자료 수집 방법

구글이나 네이버 등의 검색서비스등은 웹사이트를 돌아다니면서 문서의 내용을 카피하고 색인하고 있다가 사용자가 검색을 하게 되면 해당 사이트를 안내해주는 방식과 유사하게 동작합니다. 사람이 수작업으로 웹사이트, 디지털 자료를 검색하는 것은 불가능하기 때문에 자동화된 검색시스템을 개발하여 이용하는데 이를 웹크롤링, 웹스크래핑이라고도 합니다.

웹 크롤러(Web Crawler)는 방대한 웹 페이지를 두루두루 방문하여, 각종 정보를 자동적으로 수집하는 일을 하는 프로그램으로서 검색 엔진의 근간이 됩니다. 크롤러(crawler)란 기어가는 사람 혹은 포복동물 이라는 의미로, 조직적, 자동적인 방법으로 각종 웹 페이지들을 돌아다니며 웹 문서의 URL, 링크정보, 문서내용 등 다량의 정보들을 수집해 오는 기능으로 인해 이런 이름이 붙여졌습니다.

웹 크롤러에 대한 다른 용어로는 앤트(Ants), 자동인덱서(automatic indexers), 봇(bots), 웜(worms), 웹 스파이더 (web spider), 웹 로봇(web robot) 등으로 불리기도 합니다.

네이버의 웹크롤러 이름은 naverbot, yeti

구글은 Googlebot, googlebot-image 이며

오아시스 프로그램의 로봇이름은 heritrix 입니다. 이와 같이 웹사이트 자료 검색을 위해서는 업체나 프로젝트별로 다양한 로봇명이 있습니다.

크롤러를 통해 수집한 데이터는 리포지터리에 저장되며 이는 인덱스라 불립니다.

이 인덱스를 기반으로 검색에 맞는 웹사이트를 검색결과에 표시 되며 검색엔진은 방문과 복사를 통해 생성된 페이지를 보다 빠른 검색을 위해 인덱싱이라는 것을 합니다. 인덱싱은 중요하거나 사용자의 질의와 일치도가 높은 웹페이지는 상위에 배치하도록 되어 있습니다.

2. 웹아키이빙 서비스 구성도 ​


국립중앙도서관 웹자원 아카이브 보러가기 (링크 클릭)


3.웹 자료 수집시 배제 방법

만약에 회사가 구축한 웹서버가 서비스 영역과 내부의 문서나 내부 인트라넷으로 같이 사용한다면 회사 도메인에 로봇배제를 하여 검색이 되지 않도록 할수 있습니다. 우리 기관이나 단체의 검색 결과를 상위에 놓고자 한다면 수집을 위한 가이드를 준수할 필요가 있으며 검색을 원하지 않는 경우는 robots.txt를 활용해야 합니다. 로봇 배제를 위해서 모든 웹서버의 루트 폴더에는 robots.txt 라는 파일이 있으며

robots.txt 파일은 사이트의 루트에 위치하며 사이트에서 검색 엔진 크롤러가 액세스하지 않기를 바라는 부분을 표시하게 됩니다.

---------------------------------

user-agent : * or 로봇이름

allow : /

-----------------------------------

▶ ​ user-agent : 로봇이름

네이버​ : naverbot, yeti / 구글: Googlebot, googlebot-image / 오아시스 프로그램의 로봇이름 : heritrix

좀 더 자세한 내용은 다음 사이트를 참고합니다 >> 링크 클릭


4.웹 자료 수집을 높이는 방법

전제 - 수집로봇의 접근을 허용한다

1) URL정보를 변경 할 때, HTML 헤더에 메타 태그를 사용한다

2) 모든 페이지의 제목을 동일하게 표현하지 않는다

4) 마우스 오버 동작 이미지는 두 개 이미지 mouseover, mouseout 이미지를 전부 작성해야 한다

5) 페이지에 플래시를 사용하지 않는다(플래시는 저장, 검색되지 않음)

6) https(웹서버 보안 프로토콜로 모든 접속 데이터 암호화)로 강제 접속을 사용하지 않는다

7) 화면에서 iFrame(숨겨진 프레임이라 하여 페이지에선 보이나 소스에서는 링크가 걸려 보이지 않음) 을 사용하지 않는다

8) activeX를 사용하지 않는다(.wayback(데이터 열람 로봇)은 액티브 X지원하지 않음)

9) 콘텐츠 문자셋을 한 가지로(euc-kr, UTF-8 ) 일치시켜 준다

기사 참고 : 오아시스 구축가이드 http://www.oasis.go.kr/about/guide.do​

글쓴이 _ jussi

서울시NPO지원센터 아카이브 큐레이터.

IT분야에서 엔지니어로 근무하다가 책과 도서관이 좋아

비영리기관에서 독서문화, 작은도서관 활성과 홍보 등의 업무를 하고 있습니다​





작성자 : Jussi / 작성일 : 2017.05.28 / 수정일 : 2023.04.03 / 조회수 : 16052

코멘트를 달아주세요!



 목록으로