1 |
1
크롤링 관리 시스템을 이용하여 어느 하나의 타겟 웹사이트에 대한 크롤링을 관리하는 방법으로서, 1) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하는 단계- 상기 크롤링 조건 정보는 크롤러 버전과 파라미터를 포함함-; 2) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있지 않은 것으로 확인된 경우, 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하는 단계- 상기 일시적 메타데이터는 상기 타겟 웹사이트의 크롤링 응답 특성에 관한 데이터임-; 3) 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 단계; 4) 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하는 단계; 및 5) 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 저장하는 단계;를 포함하며, 상기 3)단계는, 31) 수집된 일시적 메타데이터에 기반하여 사전 크롤링을 위한 크롤러 버전과 파라미터의 초기 설정값을 설정하는 단계; 및 32) 상기 초기 설정값 및 설정값 변경 룰에 의해 변경이 이뤄지는 하나 이상의 변경 설정값에 기초하여 상기 타겟 웹사이트에 대한 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 단계;를 포함하며, 상기 크롤링 효율성 조건은, 상기 사전 크롤링에 적용된 하나 이상의 크롤러 버전 및 하나 이상의 파라미터 중에서, 상기 타겟 웹사이트에 대해 가장 높은 크롤링 효율성을 제공하는 크롤러 버전과 파라미터를 선택하는 것이고, 상기 크롤링 효율성은 하기 수학식1에 의해 산출하는 것을 특징으로 하는 크롤링 관리 방법
|
2 |
2
크롤링 관리 시스템을 이용하여 어느 하나의 타겟 웹사이트에 대한 크롤링을 관리하는 방법으로서, 1) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하는 단계- 상기 크롤링 조건 정보는 크롤러 버전과 파라미터를 포함함-; 2) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있지 않은 것으로 확인된 경우, 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하는 단계- 상기 일시적 메타데이터는 상기 타겟 웹사이트의 크롤링 응답 특성에 관한 데이터임-; 3) 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 단계; 4) 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하는 단계; 및 5) 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 저장하는 단계;를 포함하며, 상기 3)단계는, 31) 수집된 일시적 메타데이터에 기반하여 사전 크롤링을 위한 크롤러 버전과 파라미터의 초기 설정값을 설정하는 단계; 및 32) 상기 초기 설정값 및 설정값 변경 룰에 의해 변경이 이뤄지는 하나 이상의 변경 설정값에 기초하여 상기 타겟 웹사이트에 대한 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 단계;를 포함하며, 상기 1) 단계 이후, 11) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있는 것으로 확인된 경우, 상기 데이터베이스에 기초하여 상기 타겟 웹사이트의 크롤링 주기를 확인하는 단계; 12) 상기 크롤링 주기를 확인한 시점이 상기 데이터베이스에 저장된 크롤링 주기에 상응하는 경우, 상기 데이터베이스에 저장된 크롤링 조건 정보에 기초하여 상기 타겟 웹사이트를 크롤링하는 단계; 13) 상기 타겟 웹사이트에 대한 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터의 수집에 소요된 시간에 기초하여 상기 크롤링에 대한 크롤링 효율성을 산출하는 단계; 14) 상기 문서 데이터의 수집량 및 산출된 크롤링 효율성을 로그 정보로서 저장하는 단계; 및 15) 상기 문서 데이터의 수집량이 이전 주기에 실행한 크롤링에 비해 감소하거나 또는 상기 크롤링 효율성이 이전 주기에 실행한 크롤링에 비해 하락한 경우, 상기 크롤링 조건 정보를 갱신하기 위한 사전 크롤링을 재실행하는 단계;를 포함하며, 상기 크롤링 효율성은 하기 수학식1에 의해 산출하는 것을 특징으로 하는 크롤링 관리 방법
|
3 |
3
제1항 또는 제2항에 있어서, 상기 일시적 메타데이터는, 크롤링 응답시간, 웹사이트 구조 및 웹사이트 접속환경 중의 적어도 어느 하나를 포함하는 것을 특징으로 하는 크롤링 관리 방법
|
4 |
4
제1항 또는 제2항에 있어서, 상기 크롤러 버전은, 상기 타겟 웹사이트가 동적 웹사이트인지 또는 정적 웹사이트인지 여부에 기초하여 결정되는 것을 특징으로 하는 크롤링 관리 방법
|
5 |
5
제1항 또는 제2항에 있어서, 상기 크롤러 버전은, 상기 타겟 웹사이트의 문서 객체 모델의 구조에 기초하여 결정되는 것을 특징으로 하는 크롤링 관리 방법
|
6 |
6
제1항 또는 제2항에 있어서, 상기 파라미터는 크롤링 속도, 크롤링 주기 및 크롤러 노드의 개수 중의 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는 크롤링 관리 방법
|
7 |
7
제1항 또는 제2항에 있어서, 상기 1)단계 이전에, p1) 관리자 클라이언트의 입력에 기초하여, 크롤링 요청이 입력된 타겟 웹사이트의 URL을 상기 데이터베이스에 저장하는 단계;를 더욱 포함하여 구성된 것을 특징으로 하는 크롤링 관리 방법
|
8 |
8
삭제
|
9 |
9
제2항에 있어서, 상기 15)단계의 사전 크롤링의 재실행은, 151) 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하는 단계; 152) 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 갱신하기 위한 사전 크롤링을 실행하는 단계; 153) 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하는 단계; 및 154) 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 갱신 저장하는 단계;를 포함하여 구성된 크롤링 관리 방법
|
10 |
10
삭제
|
11 |
11
제2항에 있어서, 112) 상기 12)단계에서 상기 타겟 웹사이트에 대한 크롤링의 결과로 수집된 문서 데이터로부터 메타데이터, 도표 이미지, 참고문헌 정보를 추출하고 저장하는 단계- 상기 참고문헌 정보는 참고문헌의 출처 URL(Uniform Resource Locator)을 포함함-; 및 113) 관리자 클라이언트의 크롤링 요청 입력에 기초하여, 상기 참고문헌의 출처 URL을 새로이 추가된 타겟 웹사이트의 URL로서 상기 데이터베이스에 저장하는 단계;를 더욱 포함하여 구성된 크롤링 관리 방법
|
12 |
12
제11항에 있어서, 상기 112)단계에서 추출 저장된 도표 이미지를 타겟 웹사이트별로 색인화하여 저장하며, 1112) 타겟 웹사이트별로 색인화하여 저장된 도표 이미지의 통계 정보를 산출하여 관리자 클라이언트로 제공하는 단계; 및 1113) 관리자 클라이언트의 요청 입력에 기초하여, 타겟 웹사이트별로 크롤링 지속 여부를 설정 처리하는 단계;를 더욱 포함하여 구성된 크롤링 관리 방법
|
13 |
13
제1항 또는 제2항에 있어서, 상기 1)단계에서, 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하는 것은, 미리 설정된 시간에 따라 실행되는 데이터베이스 확인 기능에 의해 이뤄지는 것을 특징으로 하는 크롤링 관리 방법
|
14 |
14
하나 이상의 명령을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 명령을 실행하는 프로세서를 포함하고, 상기 프로세서는, 어느 하나의 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하고- 상기 크롤링 조건 정보는 크롤러 버전과 파라미터를 포함함-; 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있지 않은 것으로 확인된 경우, 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하며- 상기 일시적 메타데이터는 상기 타겟 웹사이트의 크롤링 응답 특성에 관한 데이터임-; 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하고; 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하며; 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 저장하는 것;을 포함하여 실행하며, 상기 사전 크롤링의 실행은, 수집된 일시적 메타데이터에 기반하여 사전 크롤링을 위한 크롤러 버전과 파라미터의 초기 설정값을 설정하고; 상기 초기 설정값 및 설정값 변경 룰에 의해 변경이 이뤄지는 하나 이상의 변경 설정값에 기초하여 상기 타겟 웹사이트에 대한 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 것;을 특징으로 하며, 상기 크롤링 효율성 조건은, 상기 사전 크롤링에 적용된 하나 이상의 크롤러 버전 및 하나 이상의 파라미터 중에서, 상기 타겟 웹사이트에 대해 가장 높은 크롤링 효율성을 제공하는 크롤러 버전과 파라미터를 선택하는 것이고, 상기 크롤링 효율성은 하기 수학식1에 의해 산출하는 것을 특징으로 하는 크롤링 관리 시스템
|
15 |
15
삭제
|
16 |
16
하나 이상의 명령을 저장하는 메모리; 및상기 메모리에 저장된 상기 하나 이상의 명령을 실행하는 프로세서를 포함하고, 상기 프로세서는, 어느 하나의 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하고- 상기 크롤링 조건 정보는 크롤러 버전과 파라미터를 포함함-; 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있지 않은 것으로 확인된 경우, 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하며- 상기 일시적 메타데이터는 상기 타겟 웹사이트의 크롤링 응답 특성에 관한 데이터임-; 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하고; 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하며; 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 저장하는 것;을 포함하여 실행하며, 상기 사전 크롤링의 실행은, 수집된 일시적 메타데이터에 기반하여 사전 크롤링을 위한 크롤러 버전과 파라미터의 초기 설정값을 설정하고; 상기 초기 설정값 및 설정값 변경 룰에 의해 변경이 이뤄지는 하나 이상의 변경 설정값에 기초하여 상기 타겟 웹사이트에 대한 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 것;을 특징으로 하며, 어느 하나의 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인한 이후, 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있는 것으로 확인된 경우, 상기 데이터베이스에 기초하여 상기 타겟 웹사이트의 크롤링 주기를 확인하고; 상기 크롤링 주기를 확인한 시점이 상기 데이터베이스에 저장된 크롤링 주기에 상응하는 경우, 상기 데이터베이스에 저장된 크롤링 조건 정보에 기초하여 상기 타겟 웹사이트를 크롤링하며; 상기 타겟 웹사이트에 대한 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터의 수집에 소요된 시간에 기초하여 상기 크롤링에 대한 크롤링 효율성을 산출하고; 상기 문서 데이터의 수집량 및 산출된 크롤링 효율성을 로그 정보로서 저장하며; 상기 문서 데이터의 수집량이 이전 주기에 실행한 크롤링에 비해 감소하거나 또는 상기 크롤링 효율성이 이전 주기에 실행한 크롤링에 비해 하락한 경우, 상기 크롤링 조건 정보를 갱신하기 위한 사전 크롤링을 재실행하는 것;을 특징으로 하며, 상기 크롤링 효율성은 하기 수학식1에 의해 산출하는 것을 특징으로 하는 크롤링 관리 시스템
|
17 |
17
어느 하나의 타겟 웹사이트에 대한 크롤링을 관리하는 크롤링 관리 시스템에서 제1항 또는 제2항의 크롤링 관리 방법을 실행하도록 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램
|