1 |
1
웹사이트별로 정보 종류에 따른 태그정보를 저장하기 위한 태그정보DB;정보 추출 대상 웹페이지의 HTML 분석을 통해 웹페이지 정보를 확인하기 위한 HTML 분석부;상기 웹페이지 정보를 이용하여 상기 저장된 태그정보와 사용자에 의해 지정된 추출 정보 종류에 매칭되는지를 확인하기 위한 매칭부;상기 저장된 태그정보의 정보 종류와 상기 추출 정보 종류가 매칭되지 않은 경우에, 상기 저장된 태그정보의 태그 식별자(Tag ID)를 이용하여 상기 정보 추출 대상 웹페이지의 태그정보를 추론하기 위한 추론부; 및상기 추론된 태그정보에 따라 상기 정보 추출 대상 웹페이지의 추출 정보를 추출하기 위한 정보추출부;를 포함하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 장치
|
2 |
2
제 1 항에 있어서,상기 정보 추출 대상 웹페이지에 접속하고, 상기 추출 정보 종류를 입력할 수 있는 인터페이스 환경을 사용자에게 제공하는 사용자 인터페이스부; 및상기 정보 추출 대상 웹페이지에 대해, 상기 사용자 인터페이스부를 통해 사용자에 의해 상기 정보 추출 대상 웹페이지에 나타난 내용을 입력받는 수동 학습을 통해 생성된 태그정보를 상기 태그정보DB에 등록하기 위한 학습부;를 더 포함하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 장치
|
3 |
3
제 1 항에 있어서,상기 추출된 정보를 시간순서에 따라 저장하기 위한 추출정보DB;를 더 포함하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 장치
|
4 |
4
제 1 항에 있어서,상기 태그정보DB는,상기 태그정보를 Xpath(XML Path Language)를 이용하여 정규 표현 형식으로 저장 및 관리하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 장치
|
5 |
5
제 1 항에 있어서,상기 웹페이지 정보는, 웹사이트 식별자 및 HTML 소스코드가 포함되는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 장치
|
6 |
6
제 1 항에 있어서,상기 추론부는,상기 저장된 태그정보의 태그 식별자를 최소 단위 문자열로 구분하여 빈도수에 따라 상기 정보 추출 대상 웹페이지의 태그정보를 추론하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 장치
|
7 |
7
제 2 항에 있어서,상기 학습부는,상기 태그정보DB에 초기 태그정보를 생성하거나, 상기 추론부가 상기 정보 추출 대상 웹페이지의 태그정보를 찾아내지 못한 경우에 동작하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 장치
|
8 |
8
사용자에 의해 접속된 정보 추출 대상 웹페이지의 추출 정보 종류를 확인하는 단계;상기 정보 추출 대상 웹페이지의 HTML 분석을 통해 웹페이지 정보를 확인하는 단계;상기 웹페이지 정보가 저장된 태그정보와 상기 추출 정보 종류에 매칭되는지를 확인하는 단계;상기 저장된 태그정보의 정보 종류와 상기 추출 정보 종류가 매칭되지 않은 경우에, 상기 저장된 태그정보의 태그 식별자(Tag ID)를 이용하여 상기 정보 추출 대상 웹페이지의 태그정보를 추론하는 단계; 및상기 추론된 태그정보에 따라 상기 정보 추출 대상 웹페이지의 추출 정보를 추출하여 저장하는 단계;를 포함하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 방법
|
9 |
9
제 8 항에 있어서,상기 추론하는 단계에서 상기 정보 추출 대상 웹페이지의 태그정보에 대한 추론이 실패하는 경우에, 사용자에 의해 상기 정보 추출 대상 웹페이지에 나타난 내용을 입력받는 수동 학습을 통해 생성된 태그정보를 등록하고, 상기 등록된 태그정보에 따라 상기 정보 추출 대상 웹페이지의 추출 정보를 추출하여 저장하는 단계;를 더 포함하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 방법
|
10 |
10
제 8 항에 있어서,상기 태그정보는, Xpath(XML Path Language)를 이용하여 정규 표현 형식으로 나타나는 것인 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 방법
|
11 |
11
제 8 항에 있어서,상기 웹페이지 정보는, 웹사이트 식별자 및 HTML 소스코드가 포함되는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 방법
|
12 |
12
제 8 항에 있어서,상기 추론 단계는,상기 저장된 태그정보의 태그 식별자를 최소 단위 문자열로 구분하여 빈도수에 따라 상기 정보 추출 대상 웹페이지의 태그정보를 추론하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 방법
|
13 |
13
정보 추출 대상 웹페이지의 HTML 분석을 통해 확인된 웹페이지 정보를 기 저장된 태그정보와 사용자에 의해 지정된 추출 정보 종류에 매칭함에 따라, 상기 저장된 태그정보를 이용하여 상기 정보 추출 대상 웹페이지의 태그정보를 추론하여 상기 정보 추출 대상 웹페이지의 추출 정보를 추출하기 위한 태그 추론부; 및상기 정보 추출 대상 웹페이지의 태그정보에 대한 추론이 실패하는 경우에, 상기 정보 추출 대상 웹페이지에 대해, 사용자에 의해 상기 정보 추출 대상 웹페이지에 나타난 내용을 입력받는 수동 학습을 통해 생성된 태그정보를 상기 태그 추론부에 제공하기 위한 태그 학습부;를 포함하는 HTML 태그정보의 추론 및 학습을 통한 웹페이지 정보 추출 장치
|