1 |
1
인터넷의 웹 상에 있는 온라인 신문 또는 잡지 사이트로부터 HTML 문서의 형태로 지원되는 신문의 각 면을 HTTP 통신에 의해 수집하는 HTTP 통신부와, 상기 HTTP 통신부에 의해 수집된 신문기사 문서에 존재하는 잡음을 제거하는 잡음제거부와, 개발자 또는 사용자가 요구하는 정규식 패턴을 입력하는 패턴입력부와, 상기 잡음제거부에 의해 잡음이 제거된 웹 문서를 정규식 스트링으로 변환하고, 변환된 정규식 스트링과 상기 패턴입력부를 통해 개발자 또는 사용자에 의해 입력된 정규식 패턴을 정합하여 신문기사 레코드를 추출하는 패턴정합부를 구비한 것을 특징으로 하는 뉴스 정보 수집 시스템
|
2 |
2
제 1 항에 있어서, 상기 추출된 신문기사들을 사용자에게 제시하고 사용자가 선택한 기사를 PDA에 자동 설치하는 PDA 설치부를 더 구비한 것을 특징으로 하는 뉴스 정보 수집 시스템
|
3 |
3
제 1 항에 있어서, 상기 잡음제거부는, 상기 HTTP 통신부에 의해 수집된 신문기사 문서의 목록을 구성하는 각각의 레코드들은 둘러싼 앵커 태그를 상기한 패턴정합부가 처리하기 용이한 형태로 변환하는 앵커태크 변환모듈과, 상기 앵커태그가 변환된 신문기사 문서에서 불필요한 태그를 삭제하는 태그 제거모듈을 구비한 것을 특징으로 하는 뉴스 정보 수집 시스템
|
4 |
4
제 1 항에 있어서, 상기 패턴정합부는, 상기 잡음제거부에 의해 잡음이 제거된 웹 문서를 정규식 스트링으로 변환하는 정규식 스트링 생성기와, 상기 정규식 스트링 생성기에 의해 변환된 정규식 스트링과 상기 패턴입력부를 통해 개발자 또는 사용자에 의해 입력된 정규식 패턴을 정합하여, 정합에 성공한 부문자열에 대응하는 웹 문서 부분을 기사 목록의 한 레코드로서 추출하는 정규식 스트링 정합기를 구비한 것을 특징으로 하는 뉴스 정보 수집 시스템
|
5 |
5
인터넷의 웹 상에 있는 온라인 신문 또는 잡지 사이트로부터 HTML 문서의 형태로 지원되는 신문의 각 면을 HTTP 통신에 의해 수집하는 단계와, 상기 수집된 신문기사 문서에 존재하는 잡음을 제거하는 단계와, 개발자 또는 사용자가 요구하는 정규식 패턴을 입력하는 단계와, 상기 잡음이 제거된 웹 문서를 정규식 스트링으로 변환하고, 변환된 정규식 스트링과 상기 입력된 정규식 패턴을 정합하여 신문기사 레코드를 추출하는 단계를 포함하는 것을 특징으로 하는 뉴스 정보 수집방법
|
6 |
6
제 5 항에 있어서, 상기 추출된 신문기사들을 사용자에게 제시하고 사용자가 선택한 기사를 PDA에 자동 설치하는 단계를 더 포함하는 것을 특징으로 하는 뉴스 정보 수집방법
|