시간을 기록하다

블로그 이미지
by 기록자
  • 18,126Total hit
  • 2Today hit
  • 30Yesterday hit

'구현 요약'에 해당되는 글 1건

  1. 2009/06/29
    Web Crawler 를 만들기 위해 필요한 사항 정리

우선 Crawler 에서 저장해야할 데이터들을 생각해보면...

기본적으로 url 은 당연히 필요하고, 주소는 Domain Name 으로 된거랑 IP Address 로 된거 둘다 있어야 할것같고...
수집한 날짜도 필요하고..
서버측에서 제공하는 헤더에서 제공되는 파일의 생성된 날짜도 있으면..나중에 비교할 때 좋고
기사같은거면..수집한 기사를 다시 업데이트하거나 그러진 않을거고 새로운건지 아닌건지만 확인하면 될듯..
다만..
기사들의 내용이 여러 사이트가 동일한 경우가 많기때문에..Content만 뽑아서..비교하는기능은 있어야 할듯...A사와 B사에서 동일한 뉴스 제공하는 경우 많으므로 그냥 한 사이트만 긁으면 문제 없고...뭐...둘다 긁더라도 크게 상관은 없을것도 같고...Content 비교하는데서 오버헤드가 심하면...안하는게 나을지도...

크롤러는 깊게 생각하면 무지하게 복잡하니까..목적에 맞는 최소한의 기능만 구현하는게 좋을듯

흠...위의 내용을 정리하자면...우선 필요한 것들은...
url (Domain Name & IP Address)
페이지 생성 날짜
페이지 수집 날짜
Content (텍스트 추출)

검색 방법은...흠...일단 기본적으로 페이지에 나타난 링크를 큐에 밀어 넣고 계속 탐색하는걸로 해야할려나...
서버에서 페이지 정보를 받아 올 수 있으면 좋을텐데...
wget 에서 -r 옵션 주면 계속 탐색하던데...흠...그건 어떻게 하는거지...설마 링크를 따라 계속 돌아서 모은건가...이 부분은 좀 더 살펴봐야겠군...-_-;;

이올린에 북마크하기(0) 이올린에 추천하기(0)
크리에이티브 커먼즈 라이선스
Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이선스에 따라 이용하실 수 있습니다.
TRACKBACK 0 AND COMMENT 0

ARTICLE CATEGORY

분류 전체보기 (42)
개발 노트 (1)
초보의 알고리즘 (17)
프로그래밍 팁 (13)
기타 등등등등등 (11)

CALENDAR

«   2010/03   »
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      

ARCHIVE

LINK