맞춤기술찾기

이전대상기술

이미지 기반 크롤링 방법 및 그 시스템

  • 기술번호 : KST2022020094
  • 담당센터 : 부산기술혁신센터
  • 전화번호 : 051-606-6561
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명의 실시예에 따른 이미지 기반 크롤링 방법은, 컴퓨팅 장치의 적어도 하나의 프로세서에 의하여 실행되는 크롤링 애플리케이션이 이미지 기반의 크롤링(crawling)을 수행하는 방법으로서, 크롤링하고자 하는 목표 웹 페이지(target webpage)로 이동하기 위한 접근 경로정보를 포함하는 타겟 웹 페이지 정보를 설정하는 단계; 상기 설정된 타겟 웹 페이지 정보를 기초로 상기 목표 웹 페이지를 제공하는 제1 웹 사이트(website)의 메인 웹 페이지에 접속하는 단계; 상기 타겟 웹 페이지의 화면을 캡처(screen capture)하는 단계; 상기 접속한 제1 웹 사이트의 웹 페이지 화면에서 상기 접근 경로정보에 대응하는 이미지 어포던스(affordance)의 심벌 텍스트 정보를 이미지 딥러닝에 기초하여 검출하는 단계; 상기 접근 경로정보에 상기 이미지 어포던스와 상기 검출된 심벌 텍스트 정보를 매칭하여 저장하는 단계; 상기 접근 경로정보에 따라서 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하는 단계; 및 상기 접속한 목표 웹 페이지를 크롤링하여 획득한 데이터 셋을 데이터베이스에 저장하는 단계를 포함한다.
Int. CL G06F 16/951 (2019.01.01) G06F 16/955 (2019.01.01) G06F 16/901 (2019.01.01) G06F 16/583 (2019.01.01) G06N 3/08 (2006.01.01) G06F 3/0483 (2022.01.01) G06F 3/0488 (2022.01.01)
CPC G06F 16/951(2013.01) G06F 16/955(2013.01) G06F 16/901(2013.01) G06F 16/5846(2013.01) G06N 3/08(2013.01) G06F 3/0483(2013.01) G06F 3/0488(2013.01) G06F 3/0489(2013.01)
출원번호/일자 1020210048143 (2021.04.14)
출원인 한국해양대학교 산학협력단, 주식회사 족민의달배
등록번호/일자
공개번호/일자 10-2022-0141975 (2022.10.21) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2021.04.14)
심사청구항수 14

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국해양대학교 산학협력단 대한민국 부산광역시 영도구
2 주식회사 족민의달배 대한민국 부산광역시 중구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 도덕희 부산광역시 영도구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 이정훈 대한민국 서울특별시 강남구 학동로**길 **(논현동) 하나빌딩 *층(특허법률사무소리플러스)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2021.04.14 수리 (Accepted) 1-1-2021-0431976-30
2 특허고객번호 정보변경(경정)신고서·정정신고서
2021.12.17 수리 (Accepted) 4-1-2021-5329381-45
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
컴퓨팅 장치의 적어도 하나의 프로세서에 의하여 실행되는 크롤링 애플리케이션이 이미지 기반의 크롤링(crawling)을 수행하는 방법으로서, 크롤링하고자 하는 목표 웹 페이지(target webpage)로 이동하기 위한 접근 경로정보를 포함하는 타겟 웹 페이지 정보를 설정하는 단계; 상기 설정된 타겟 웹 페이지 정보를 기초로 상기 목표 웹 페이지를 제공하는 제1 웹 사이트(website)의 메인 웹 페이지에 접속하는 단계; 상기 타겟 웹 페이지의 화면을 캡처(screen capture)하는 단계;상기 접속한 제1 웹 사이트의 웹 페이지 화면에서 상기 접근 경로정보에 대응하는 이미지 어포던스(affordance)의 심벌 텍스트 정보를 이미지 딥러닝에 기초하여 검출하는 단계; 상기 접근 경로정보에 상기 이미지 어포던스와 상기 검출된 심벌 텍스트 정보를 매칭하여 저장하는 단계;상기 접근 경로정보에 따라서 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하는 단계; 및 상기 접속한 목표 웹 페이지를 크롤링하여 획득한 데이터 셋을 데이터베이스에 저장하는 단계를 포함하는 이미지 기반 크롤링 방법
2 2
제1 항에 있어서, 상기 타겟 웹 페이지의 화면을 캡처하는 단계는, 상기 타겟 웹 페이지의 크기와 위치 정보를 설정하는 단계를 포함하는 이미지 기반 크롤링 방법
3 3
제1 항에 있어서, 상기 타겟 웹 페이지 정보는, 상기 제1 웹 사이트의 메인 웹 페이지 주소와, 상기 메인 웹 페이지로부터 상기 목표 웹 페이지까지 도달하기 위해 접속해야 하는 적어도 하나 이상의 웹 페이지에 대한 접근 경로정보를 포함하는 이미지 기반 크롤링 방법
4 4
제3 항에 있어서, 상기 어포던스는, 상기 제1 웹 사이트에 포함된 웹 페이지 간의 이동 기능을 구현하는 소정의 버튼인이미지 기반 크롤링 방법
5 5
제4 항에 있어서, 상기 이미지 어포던스(affordance)의 심벌 텍스트 정보를 이미지 딥러닝에 기초하여 검출하는 단계는,상기 검출된 어포던스가 이미지에 기반하여 구현된 이미지 어포던스이면, 상기 이미지 어포던스에 기반한 딥러닝을 수행하여 상기 이미지 어포던스 내 텍스트를 픽킹(Picking)하는 단계와, 상기 픽킹된 텍스트를 상기 이미지 어포던스에 매칭되는 심벌 텍스트 정보로 설정하는 단계를 포함하는 이미지 기반 크롤링 방법
6 6
제5 항에 있어서, 상기 접근 경로정보에 따라서 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하는 단계는,상기 제1 웹 사이트의 메인 웹 페이지를 이미지 딥러닝 하여 복수의 어포던스를 검출하는 단계와,상기 검출된 복수의 어포던스 중 상기 접근 경로정보에 매칭되는 적어도 하나 이상의 어포던스를 추출하는 단계와, 상기 추출된 적어도 하나 이상의 어포던스를 상기 접근 경로정보에 따른 순차적으로 포함하는 솔팅(sorting) 어포던스를 획득하는 단계를 포함하는 이미지 기반 크롤링 방법
7 7
제6 항에 있어서, 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하는 단계는, 상기 솔팅 어포던스 내 적어도 하나 이상의 어포던스에 마우스 포인터를 이동한 후 선택하여 상기 목표 웹 페이지에 접속하는 단계를 포함하는 이미지 기반 크롤링 방법
8 8
제1 항에 있어서, 상기 검출된 어포던스를 기초로 복수의 목표 웹 페이지에 대한 크롤링을 반복 수행하는 단계를 포함하고, 상기 크롤링을 반복 수행하는 단계는, 상기 제1 웹 사이트에 소정의 변경을 검출하는 단계와,상기 변경된 제1 웹 사이트에서 상기 접근 경로정보를 이미지 딥러닝에 기초하여 업데이트하는 단계를 포함하는이미지 기반 크롤링 방법
9 9
제8 항에 있어서, 상기 변경된 제1 웹 사이트에서 상기 접근 경로정보를 이미지 딥러닝에 기초하여 업데이트하는 단계는,상기 변경된 제1 웹 사이트의 적어도 하나의 웹 페이지를 이미지 딥러닝하여 복수의 어포던스를 검출하는 단계와,상기 검출된 복수의 어포던스 중 상기 접근 경로정보의 기존 어포던스에 대한 대체 어포던스를 결정하는 단계를 포함하는 이미지 기반 크롤링 방법
10 10
제9 항에 있어서, 상기 검출된 복수의 어포던스 중 상기 접근 경로정보의 기존 어포던스에 대한 대체 어포던스를 결정하는 단계는, 상기 기존 어포던스의 심벌 텍스트 정보와 상기 검출된 복수의 어포던스의 심벌 텍스트 정보 간의 유사도를 산출하는 단계와, 상기 산출된 유사도를 기초로 상기 검출된 복수의 어포던스에서 상기 대체 어포던스를 결정하는 단계를 포함하는 이미지 기반 크롤링 방법
11 11
제10 항에 있어서, 상기 산출된 유사도를 기초로 상기 검출된 복수의 어포던스에서 상기 대체 어포던스를 결정하는 단계는,상기 기존 어포던스의 심벌 텍스트 정보와 동일한 텍스트를 포함하는 심벌 텍스트 정보의 어포던스를 상기 대체 어포던스로 결정하는 단계를 포함하는이미지 기반 크롤링 방법
12 12
제10 항에 있어서, 상기 산출된 유사도를 기초로 상기 검출된 복수의 어포던스에서 상기 대체 어포던스를 결정하는 단계는,상기 기존 어포던스의 심벌 텍스트 정보와 유의어를 포함하는 심벌 텍스트 정보의 어포던스를 상기 대체 어포던스로 결정하는 단계를 포함하는이미지 기반 크롤링 방법
13 13
제11 항 또는 제12 항에 있어서, 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하는 단계는,상기 대체 어포던스를 기초로 업데이트된 접근 경로정보를 기초로 상기 메인 웹 페이지에서 상기 목표 웹 페이지로 이동하는 단계를 포함하는이미지 기반 크롤링 방법
14 14
소정의 웹 페이지를 출력하는 적어도 하나 이상의 디스플레이; 적어도 하나 이상의 프로세서; 및 적어도 하나 이상의 메모리; 를 포함하고, 상기 메모리에 저장되고 상기 프로세서에 의해 실행되어 이미지 기반의 크롤링(crawling)을 수행하는 적어도 하나의 애플리케이션으로서 상기 적어도 하나의 애플리케이션은, 크롤링하고자 하는 목표 웹 페이지(target webpage)로 이동하기 위한 접근 경로정보를 포함하는 타겟 웹 페이지 정보를 설정하고, 상기 설정된 타겟 웹 페이지 정보를 기초로 상기 목표 웹 페이지를 제공하는 제1 웹 사이트(website)의 메인 웹 페이지에 접속하고, 상기 접속한 제1 웹 사이트의 웹 페이지 화면에서 상기 접근 경로정보에 대응하는 이미지 어포던스(affordance)의 심벌 텍스트 정보를 이미지 딥러닝에 기초하여 검출하고, 상기 접근 경로정보에 상기 이미지 어포던스와 상기 검출된 심벌 텍스트 정보를 매칭하여 저장하고, 상기 접근 경로정보에 따라서 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하고, 상기 접속한 목표 웹 페이지를 크롤링하여 획득한 데이터 셋을 데이터베이스에 저장하는 이미지 기반 크롤링 시스템
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.