맞춤기술찾기

이전대상기술

크롤링 관리 방법, 크롤링 관리 시스템, 이를 위한 컴퓨터 프로그램

  • 기술번호 : KST2022018614
  • 담당센터 : 대구기술혁신센터
  • 전화번호 : 053-550-1450
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 크롤링 관리 방법, 크롤링 관리 시스템, 이를 위한 컴퓨터 프로그램에 관한 것이다. 본 발명의 실시예에 따르면, 타겟 웹사이트의 크롤링 응답 특성에 기초하여 크롤링을 위한 크롤러 조건 정보를 설정 관리하고, 크롤링 실행 후의 로그 정보에 기초하여 크롤링 조건 정보를 갱신 관리함으로써, 크롤링의 효율성을 향상시키도록 구성된 크롤링 관리 방법, 크롤링 관리 시스템, 이를 위한 컴퓨터 프로그램이 개시된다.
Int. CL G06F 16/951 (2019.01.01) G06F 16/901 (2019.01.01) G06F 16/955 (2019.01.01) G06F 16/904 (2019.01.01) G06F 11/34 (2006.01.01)
CPC G06F 16/951(2013.01) G06F 16/901(2013.01) G06F 16/955(2013.01) G06F 16/904(2013.01) G06F 11/3442(2013.01)
출원번호/일자 1020210194408 (2021.12.31)
출원인 (주)케이엔랩, 금오공과대학교 산학협력단
등록번호/일자 10-2442535-0000 (2022.09.06)
공개번호/일자
공고번호/일자 (20220913) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2021.12.31)
심사청구항수 14

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 (주)케이엔랩 대한민국 대전광역시 유성구
2 금오공과대학교 산학협력단 대한민국 경상북도 구미시

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 정유철 경상북도 구미시
2 김현태 경상북도 포항시 북구
3 박소영 대구광역시 달성
4 김종운 서울특별시 서초구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 홍지명 대한민국 서울특별시 금천구 가산디지털*로 **, *동 ***호 (가산동, IT캐슬)(브레인국제특허)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 (주)케이엔랩 대전광역시 유성구
2 금오공과대학교 산학협력단 경상북도 구미시
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2021.12.31 수리 (Accepted) 1-1-2021-1534748-09
2 [우선심사신청]심사청구서·우선심사신청서
2022.01.05 수리 (Accepted) 1-1-2022-0013382-72
3 의견제출통지서
Notification of reason for refusal
2022.03.04 발송처리완료 (Completion of Transmission) 9-5-2022-0177057-96
4 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2022.05.04 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2022-0480708-94
5 [거절이유 등 통지에 따른 의견]의견서·답변서·소명서
2022.05.04 수리 (Accepted) 1-1-2022-0480796-91
6 거절결정서
Decision to Refuse a Patent
2022.07.14 발송처리완료 (Completion of Transmission) 9-5-2022-0525564-41
7 [명세서등 보정]보정서(재심사)
Amendment to Description, etc(Reexamination)
2022.08.08 보정승인 (Acceptance of amendment) 1-1-2022-0827149-65
8 [거절이유 등 통지에 따른 의견]의견서·답변서·소명서
2022.08.08 수리 (Accepted) 1-1-2022-0827165-96
9 등록결정서
Decision to Grant Registration
2022.08.26 발송처리완료 (Completion of Transmission) 9-5-2022-0647027-73
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
크롤링 관리 시스템을 이용하여 어느 하나의 타겟 웹사이트에 대한 크롤링을 관리하는 방법으로서, 1) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하는 단계- 상기 크롤링 조건 정보는 크롤러 버전과 파라미터를 포함함-; 2) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있지 않은 것으로 확인된 경우, 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하는 단계- 상기 일시적 메타데이터는 상기 타겟 웹사이트의 크롤링 응답 특성에 관한 데이터임-; 3) 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 단계; 4) 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하는 단계; 및 5) 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 저장하는 단계;를 포함하며, 상기 3)단계는, 31) 수집된 일시적 메타데이터에 기반하여 사전 크롤링을 위한 크롤러 버전과 파라미터의 초기 설정값을 설정하는 단계; 및 32) 상기 초기 설정값 및 설정값 변경 룰에 의해 변경이 이뤄지는 하나 이상의 변경 설정값에 기초하여 상기 타겟 웹사이트에 대한 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 단계;를 포함하며, 상기 크롤링 효율성 조건은, 상기 사전 크롤링에 적용된 하나 이상의 크롤러 버전 및 하나 이상의 파라미터 중에서, 상기 타겟 웹사이트에 대해 가장 높은 크롤링 효율성을 제공하는 크롤러 버전과 파라미터를 선택하는 것이고, 상기 크롤링 효율성은 하기 수학식1에 의해 산출하는 것을 특징으로 하는 크롤링 관리 방법
2 2
크롤링 관리 시스템을 이용하여 어느 하나의 타겟 웹사이트에 대한 크롤링을 관리하는 방법으로서, 1) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하는 단계- 상기 크롤링 조건 정보는 크롤러 버전과 파라미터를 포함함-; 2) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있지 않은 것으로 확인된 경우, 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하는 단계- 상기 일시적 메타데이터는 상기 타겟 웹사이트의 크롤링 응답 특성에 관한 데이터임-; 3) 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 단계; 4) 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하는 단계; 및 5) 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 저장하는 단계;를 포함하며, 상기 3)단계는, 31) 수집된 일시적 메타데이터에 기반하여 사전 크롤링을 위한 크롤러 버전과 파라미터의 초기 설정값을 설정하는 단계; 및 32) 상기 초기 설정값 및 설정값 변경 룰에 의해 변경이 이뤄지는 하나 이상의 변경 설정값에 기초하여 상기 타겟 웹사이트에 대한 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 단계;를 포함하며, 상기 1) 단계 이후, 11) 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있는 것으로 확인된 경우, 상기 데이터베이스에 기초하여 상기 타겟 웹사이트의 크롤링 주기를 확인하는 단계; 12) 상기 크롤링 주기를 확인한 시점이 상기 데이터베이스에 저장된 크롤링 주기에 상응하는 경우, 상기 데이터베이스에 저장된 크롤링 조건 정보에 기초하여 상기 타겟 웹사이트를 크롤링하는 단계; 13) 상기 타겟 웹사이트에 대한 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터의 수집에 소요된 시간에 기초하여 상기 크롤링에 대한 크롤링 효율성을 산출하는 단계; 14) 상기 문서 데이터의 수집량 및 산출된 크롤링 효율성을 로그 정보로서 저장하는 단계; 및 15) 상기 문서 데이터의 수집량이 이전 주기에 실행한 크롤링에 비해 감소하거나 또는 상기 크롤링 효율성이 이전 주기에 실행한 크롤링에 비해 하락한 경우, 상기 크롤링 조건 정보를 갱신하기 위한 사전 크롤링을 재실행하는 단계;를 포함하며, 상기 크롤링 효율성은 하기 수학식1에 의해 산출하는 것을 특징으로 하는 크롤링 관리 방법
3 3
제1항 또는 제2항에 있어서, 상기 일시적 메타데이터는, 크롤링 응답시간, 웹사이트 구조 및 웹사이트 접속환경 중의 적어도 어느 하나를 포함하는 것을 특징으로 하는 크롤링 관리 방법
4 4
제1항 또는 제2항에 있어서, 상기 크롤러 버전은, 상기 타겟 웹사이트가 동적 웹사이트인지 또는 정적 웹사이트인지 여부에 기초하여 결정되는 것을 특징으로 하는 크롤링 관리 방법
5 5
제1항 또는 제2항에 있어서, 상기 크롤러 버전은, 상기 타겟 웹사이트의 문서 객체 모델의 구조에 기초하여 결정되는 것을 특징으로 하는 크롤링 관리 방법
6 6
제1항 또는 제2항에 있어서, 상기 파라미터는 크롤링 속도, 크롤링 주기 및 크롤러 노드의 개수 중의 적어도 어느 하나 이상을 포함하는 것을 특징으로 하는 크롤링 관리 방법
7 7
제1항 또는 제2항에 있어서, 상기 1)단계 이전에, p1) 관리자 클라이언트의 입력에 기초하여, 크롤링 요청이 입력된 타겟 웹사이트의 URL을 상기 데이터베이스에 저장하는 단계;를 더욱 포함하여 구성된 것을 특징으로 하는 크롤링 관리 방법
8 8
삭제
9 9
제2항에 있어서, 상기 15)단계의 사전 크롤링의 재실행은, 151) 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하는 단계; 152) 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 갱신하기 위한 사전 크롤링을 실행하는 단계; 153) 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하는 단계; 및 154) 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 갱신 저장하는 단계;를 포함하여 구성된 크롤링 관리 방법
10 10
삭제
11 11
제2항에 있어서, 112) 상기 12)단계에서 상기 타겟 웹사이트에 대한 크롤링의 결과로 수집된 문서 데이터로부터 메타데이터, 도표 이미지, 참고문헌 정보를 추출하고 저장하는 단계- 상기 참고문헌 정보는 참고문헌의 출처 URL(Uniform Resource Locator)을 포함함-; 및 113) 관리자 클라이언트의 크롤링 요청 입력에 기초하여, 상기 참고문헌의 출처 URL을 새로이 추가된 타겟 웹사이트의 URL로서 상기 데이터베이스에 저장하는 단계;를 더욱 포함하여 구성된 크롤링 관리 방법
12 12
제11항에 있어서, 상기 112)단계에서 추출 저장된 도표 이미지를 타겟 웹사이트별로 색인화하여 저장하며, 1112) 타겟 웹사이트별로 색인화하여 저장된 도표 이미지의 통계 정보를 산출하여 관리자 클라이언트로 제공하는 단계; 및 1113) 관리자 클라이언트의 요청 입력에 기초하여, 타겟 웹사이트별로 크롤링 지속 여부를 설정 처리하는 단계;를 더욱 포함하여 구성된 크롤링 관리 방법
13 13
제1항 또는 제2항에 있어서, 상기 1)단계에서, 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하는 것은, 미리 설정된 시간에 따라 실행되는 데이터베이스 확인 기능에 의해 이뤄지는 것을 특징으로 하는 크롤링 관리 방법
14 14
하나 이상의 명령을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 명령을 실행하는 프로세서를 포함하고, 상기 프로세서는, 어느 하나의 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하고- 상기 크롤링 조건 정보는 크롤러 버전과 파라미터를 포함함-; 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있지 않은 것으로 확인된 경우, 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하며- 상기 일시적 메타데이터는 상기 타겟 웹사이트의 크롤링 응답 특성에 관한 데이터임-; 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하고; 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하며; 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 저장하는 것;을 포함하여 실행하며, 상기 사전 크롤링의 실행은, 수집된 일시적 메타데이터에 기반하여 사전 크롤링을 위한 크롤러 버전과 파라미터의 초기 설정값을 설정하고; 상기 초기 설정값 및 설정값 변경 룰에 의해 변경이 이뤄지는 하나 이상의 변경 설정값에 기초하여 상기 타겟 웹사이트에 대한 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 것;을 특징으로 하며, 상기 크롤링 효율성 조건은, 상기 사전 크롤링에 적용된 하나 이상의 크롤러 버전 및 하나 이상의 파라미터 중에서, 상기 타겟 웹사이트에 대해 가장 높은 크롤링 효율성을 제공하는 크롤러 버전과 파라미터를 선택하는 것이고, 상기 크롤링 효율성은 하기 수학식1에 의해 산출하는 것을 특징으로 하는 크롤링 관리 시스템
15 15
삭제
16 16
하나 이상의 명령을 저장하는 메모리; 및상기 메모리에 저장된 상기 하나 이상의 명령을 실행하는 프로세서를 포함하고, 상기 프로세서는, 어느 하나의 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인하고- 상기 크롤링 조건 정보는 크롤러 버전과 파라미터를 포함함-; 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있지 않은 것으로 확인된 경우, 상기 타겟 웹사이트에 대한 일시적 메타데이터를 수집하며- 상기 일시적 메타데이터는 상기 타겟 웹사이트의 크롤링 응답 특성에 관한 데이터임-; 수집된 일시적 메타데이터에 기반하여, 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하고; 상기 사전 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터 수집에 소요된 시간에 적어도 기초하여 상기 타겟 웹사이트에 대해 크롤링 효율성 조건을 충족하는 크롤러 버전과 파라미터를 결정하며; 상기 결정된 크롤러 버전과 파라미터를 상기 타겟 웹사이트에 대한 크롤링 조건 정보로서 데이터베이스에 저장하는 것;을 포함하여 실행하며, 상기 사전 크롤링의 실행은, 수집된 일시적 메타데이터에 기반하여 사전 크롤링을 위한 크롤러 버전과 파라미터의 초기 설정값을 설정하고; 상기 초기 설정값 및 설정값 변경 룰에 의해 변경이 이뤄지는 하나 이상의 변경 설정값에 기초하여 상기 타겟 웹사이트에 대한 크롤링 조건 정보를 결정하기 위한 사전 크롤링을 실행하는 것;을 특징으로 하며, 어느 하나의 타겟 웹사이트에 대한 크롤링 조건 정보가 데이터베이스에 저장되어 있는지를 확인한 이후, 상기 타겟 웹사이트에 대한 크롤링 조건 정보가 상기 데이터베이스에 저장되어 있는 것으로 확인된 경우, 상기 데이터베이스에 기초하여 상기 타겟 웹사이트의 크롤링 주기를 확인하고; 상기 크롤링 주기를 확인한 시점이 상기 데이터베이스에 저장된 크롤링 주기에 상응하는 경우, 상기 데이터베이스에 저장된 크롤링 조건 정보에 기초하여 상기 타겟 웹사이트를 크롤링하며; 상기 타겟 웹사이트에 대한 크롤링의 결과로 수집된 문서 데이터의 수집량, 문서 데이터의 수집에 소요된 시간에 기초하여 상기 크롤링에 대한 크롤링 효율성을 산출하고; 상기 문서 데이터의 수집량 및 산출된 크롤링 효율성을 로그 정보로서 저장하며; 상기 문서 데이터의 수집량이 이전 주기에 실행한 크롤링에 비해 감소하거나 또는 상기 크롤링 효율성이 이전 주기에 실행한 크롤링에 비해 하락한 경우, 상기 크롤링 조건 정보를 갱신하기 위한 사전 크롤링을 재실행하는 것;을 특징으로 하며, 상기 크롤링 효율성은 하기 수학식1에 의해 산출하는 것을 특징으로 하는 크롤링 관리 시스템
17 17
어느 하나의 타겟 웹사이트에 대한 크롤링을 관리하는 크롤링 관리 시스템에서 제1항 또는 제2항의 크롤링 관리 방법을 실행하도록 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.