시간을 기록하다

블로그 이미지
by 기록자
  • 18,092Total hit
  • 26Today hit
  • 33Yesterday hit

'2009/06'에 해당되는 글 3건

  1. 2009/06/29
    Web Crawler 를 만들기 위해 필요한 사항 정리
  2. 2009/06/12
    이메일 아이콘 만들기
  3. 2009/06/06
    정규표현식(Regular Expression)을 이용한 Parsing Tip

우선 Crawler 에서 저장해야할 데이터들을 생각해보면...

기본적으로 url 은 당연히 필요하고, 주소는 Domain Name 으로 된거랑 IP Address 로 된거 둘다 있어야 할것같고...
수집한 날짜도 필요하고..
서버측에서 제공하는 헤더에서 제공되는 파일의 생성된 날짜도 있으면..나중에 비교할 때 좋고
기사같은거면..수집한 기사를 다시 업데이트하거나 그러진 않을거고 새로운건지 아닌건지만 확인하면 될듯..
다만..
기사들의 내용이 여러 사이트가 동일한 경우가 많기때문에..Content만 뽑아서..비교하는기능은 있어야 할듯...A사와 B사에서 동일한 뉴스 제공하는 경우 많으므로 그냥 한 사이트만 긁으면 문제 없고...뭐...둘다 긁더라도 크게 상관은 없을것도 같고...Content 비교하는데서 오버헤드가 심하면...안하는게 나을지도...

크롤러는 깊게 생각하면 무지하게 복잡하니까..목적에 맞는 최소한의 기능만 구현하는게 좋을듯

흠...위의 내용을 정리하자면...우선 필요한 것들은...
url (Domain Name & IP Address)
페이지 생성 날짜
페이지 수집 날짜
Content (텍스트 추출)

검색 방법은...흠...일단 기본적으로 페이지에 나타난 링크를 큐에 밀어 넣고 계속 탐색하는걸로 해야할려나...
서버에서 페이지 정보를 받아 올 수 있으면 좋을텐데...
wget 에서 -r 옵션 주면 계속 탐색하던데...흠...그건 어떻게 하는거지...설마 링크를 따라 계속 돌아서 모은건가...이 부분은 좀 더 살펴봐야겠군...-_-;;

이올린에 북마크하기(0) 이올린에 추천하기(0)
크리에이티브 커먼즈 라이선스
Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이선스에 따라 이용하실 수 있습니다.
TRACKBACK 0 AND COMMENT 0

블로그를 하다보면 자꾸만 하나씩 더 꾸미고 싶어진다.
나 역시 마찬가지이다.
뭐라도 좀 더 이쁘게 보이고 싶다.
자신의 블로그, 혹은 웹 사이트에 애착을 가지고 있는 사람이라면 아마도 모두들 같은 생각일 것이다.
그래서 오늘은 자신의 이메일 주소를 아이콘으로 만들어주는 사이트를 소개한다.
지금 내 블로그의 사이드바 하단에 보면 TimeNoteMail@GMail.com 이라는 아이콘(이미지)이 보일 것이다.

이렇게 이메일 주소를 이미지 형태로 만들어 주는 사이트가 있다.

해당 사이트의 주소는 이곳, 혹은 아래 링크를 따라가면 확인할 수 있다.
http://services.nexodyne.com/email/index.php


사이트에 들어가면 아래와 같은 내용을 볼 수 있는데 메일의 종류를 다양하다.
단, 국내에서 제공하는 이메일은 없다는게 단점이다.

국내 메일의 경우 아래의 이곳이나 아래의 링크를 따라가면 생성할 수 있는 사이트가 있다.
http://justhurd.net/email/

이곳에서는 국내에서 사용하는 대부분의 이메일 도메인이 있으므로 자신의 메일주소에 맞게 생성할 수 있을것이다.

개인적으로 GMail 의 경우 국외 사이트에서는 '@'의 색상이 노란색이라서 국내 사이트보다 이뻐보여서 나는 국외사이트에서 만들었다.
이올린에 북마크하기(0) 이올린에 추천하기(0)
크리에이티브 커먼즈 라이선스
Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이선스에 따라 이용하실 수 있습니다.
TRACKBACK 0 AND COMMENT 0
요즘 나는 업무상 필요에 의해서 perl을 공부하고 있다.
내가 생각하는 perl 의 장점은 간단한 코딩 몇 줄만으로도 상당한 위력을 발휘한다는 것이다.
그런 생각의 중심에는 바로 정규표현식이 있다.
사실 정규표현식을 사용할 수 있는 프로그래밍 언어는 여러가지 있지만, perl처럼 스크립트의 형식으로 사용하는 것에는 여러가지 장점이 있다고 생각한다.

오늘은 perl을 이용한 텍스트의 Parsing 에서 유용하게 활용할 수 있는 팁을 기록한다.

인터넷에는 수많은 문서들이 존재하며 그런 문서들을 수집하다보면 html 파일처럼 태그가 붙어 있는 문서들이 많이 있다.
오늘은 그러한 태그를 이용해 필요한 데이터를 추출할 때 사용할 수 있는 팁으로써 중첩된 동일한 태그에서 가장 안쪽의 데이터를 추출하는 방법이다.
사실 별것 아닌 방법이지만 어느날인가 KLDP에서 이 부분에 대해 해법을 찾지못하고 여러사람들이 방법들을 얘기하던 기억이 나서 적어두고자한다.

우선 아래의 예를 보면 두 개의 div 태그 안에 쌓여 있는 형태를 볼 수 있을 것이다.

aaa<div>bbb<div>123</div>ccc</div>ddd

위와 같은 경우 <div> 와 </div> 사이의 데이터를 찾고자 했을 때 다음과 같은 정규표현식을 사용할 수 있을 것이다.

/\<div\>.*?\<\/div\>/


하지만 위와 같은 형태로 데이터를 추출하면 아래와 같은 결과가 나온다

<div>bbb<div>123</div>

정규표현식의 처리 특성상 먼저 나타난 <div> 에 대해 위치를 찾아버리므로 당연한 결과이다.
하지만 우리가 원하는 데이터가 <div>123</div> 로써 태그의 형태상 가장 안쪽에 있는 것을 찾기 원한다면 어떻게 해야 할 것인가를 생각하지 않을 수 없다.

이런 경우 아래와 같은 형태의 reverse 함수와 그에 맞는 역패턴을 이용하는 방법이 쓸만하다.


이런 고민을 하고 있을법한 사람이라면 위의 코드내용에 대해서는 크게 어려운것이 없으니 쉽게 이해 할 것이라 생각하고 특별히 코드에 대한 설명은 하지 않겠다.

위의 코드를 실행하면 아래 그림과 같은 결과를 확인할 수 있을 것이다.


간단하면서도 단순하고, 또한 html 이나 xml 문서와 같이 구조가 있는 문서를 처리할 때 유용하게 사용할 수 있는 방법이라고 생각한다.

PS: 내가 기억하기로는 C#에서의 정규표현식에서는 최단일치를 할 수 있는 방법이 있었던것 같은데 안쓴지 오래되서 가물가물..;;

이올린에 북마크하기(0) 이올린에 추천하기(0)
크리에이티브 커먼즈 라이선스
Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이선스에 따라 이용하실 수 있습니다.
TRACKBACK 0 AND COMMENT 0

ARTICLE CATEGORY

분류 전체보기 (42)
개발 노트 (1)
초보의 알고리즘 (17)
프로그래밍 팁 (13)
기타 등등등등등 (11)

CALENDAR

«   2009/06   »
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30        

ARCHIVE

LINK