1 |
1
컴퓨팅 장치의 적어도 하나의 프로세서에 의하여 실행되는 크롤링 애플리케이션이 이미지 기반의 크롤링(crawling)을 수행하는 방법으로서, 크롤링하고자 하는 목표 웹 페이지(target webpage)로 이동하기 위한 접근 경로정보를 포함하는 타겟 웹 페이지 정보를 설정하는 단계; 상기 설정된 타겟 웹 페이지 정보를 기초로 상기 목표 웹 페이지를 제공하는 제1 웹 사이트(website)의 메인 웹 페이지에 접속하는 단계; 상기 타겟 웹 페이지의 화면을 캡처(screen capture)하는 단계;상기 접속한 제1 웹 사이트의 웹 페이지 화면에서 상기 접근 경로정보에 대응하는 이미지 어포던스(affordance)의 심벌 텍스트 정보를 이미지 딥러닝에 기초하여 검출하는 단계; 상기 접근 경로정보에 상기 이미지 어포던스와 상기 검출된 심벌 텍스트 정보를 매칭하여 저장하는 단계;상기 접근 경로정보에 따라서 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하는 단계; 및 상기 접속한 목표 웹 페이지를 크롤링하여 획득한 데이터 셋을 데이터베이스에 저장하는 단계를 포함하는 이미지 기반 크롤링 방법
|
2 |
2
제1 항에 있어서, 상기 타겟 웹 페이지의 화면을 캡처하는 단계는, 상기 타겟 웹 페이지의 크기와 위치 정보를 설정하는 단계를 포함하는 이미지 기반 크롤링 방법
|
3 |
3
제1 항에 있어서, 상기 타겟 웹 페이지 정보는, 상기 제1 웹 사이트의 메인 웹 페이지 주소와, 상기 메인 웹 페이지로부터 상기 목표 웹 페이지까지 도달하기 위해 접속해야 하는 적어도 하나 이상의 웹 페이지에 대한 접근 경로정보를 포함하는 이미지 기반 크롤링 방법
|
4 |
4
제3 항에 있어서, 상기 어포던스는, 상기 제1 웹 사이트에 포함된 웹 페이지 간의 이동 기능을 구현하는 소정의 버튼인이미지 기반 크롤링 방법
|
5 |
5
제4 항에 있어서, 상기 이미지 어포던스(affordance)의 심벌 텍스트 정보를 이미지 딥러닝에 기초하여 검출하는 단계는,상기 검출된 어포던스가 이미지에 기반하여 구현된 이미지 어포던스이면, 상기 이미지 어포던스에 기반한 딥러닝을 수행하여 상기 이미지 어포던스 내 텍스트를 픽킹(Picking)하는 단계와, 상기 픽킹된 텍스트를 상기 이미지 어포던스에 매칭되는 심벌 텍스트 정보로 설정하는 단계를 포함하는 이미지 기반 크롤링 방법
|
6 |
6
제5 항에 있어서, 상기 접근 경로정보에 따라서 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하는 단계는,상기 제1 웹 사이트의 메인 웹 페이지를 이미지 딥러닝 하여 복수의 어포던스를 검출하는 단계와,상기 검출된 복수의 어포던스 중 상기 접근 경로정보에 매칭되는 적어도 하나 이상의 어포던스를 추출하는 단계와, 상기 추출된 적어도 하나 이상의 어포던스를 상기 접근 경로정보에 따른 순차적으로 포함하는 솔팅(sorting) 어포던스를 획득하는 단계를 포함하는 이미지 기반 크롤링 방법
|
7 |
7
제6 항에 있어서, 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하는 단계는, 상기 솔팅 어포던스 내 적어도 하나 이상의 어포던스에 마우스 포인터를 이동한 후 선택하여 상기 목표 웹 페이지에 접속하는 단계를 포함하는 이미지 기반 크롤링 방법
|
8 |
8
제1 항에 있어서, 상기 검출된 어포던스를 기초로 복수의 목표 웹 페이지에 대한 크롤링을 반복 수행하는 단계를 포함하고, 상기 크롤링을 반복 수행하는 단계는, 상기 제1 웹 사이트에 소정의 변경을 검출하는 단계와,상기 변경된 제1 웹 사이트에서 상기 접근 경로정보를 이미지 딥러닝에 기초하여 업데이트하는 단계를 포함하는이미지 기반 크롤링 방법
|
9 |
9
제8 항에 있어서, 상기 변경된 제1 웹 사이트에서 상기 접근 경로정보를 이미지 딥러닝에 기초하여 업데이트하는 단계는,상기 변경된 제1 웹 사이트의 적어도 하나의 웹 페이지를 이미지 딥러닝하여 복수의 어포던스를 검출하는 단계와,상기 검출된 복수의 어포던스 중 상기 접근 경로정보의 기존 어포던스에 대한 대체 어포던스를 결정하는 단계를 포함하는 이미지 기반 크롤링 방법
|
10 |
10
제9 항에 있어서, 상기 검출된 복수의 어포던스 중 상기 접근 경로정보의 기존 어포던스에 대한 대체 어포던스를 결정하는 단계는, 상기 기존 어포던스의 심벌 텍스트 정보와 상기 검출된 복수의 어포던스의 심벌 텍스트 정보 간의 유사도를 산출하는 단계와, 상기 산출된 유사도를 기초로 상기 검출된 복수의 어포던스에서 상기 대체 어포던스를 결정하는 단계를 포함하는 이미지 기반 크롤링 방법
|
11 |
11
제10 항에 있어서, 상기 산출된 유사도를 기초로 상기 검출된 복수의 어포던스에서 상기 대체 어포던스를 결정하는 단계는,상기 기존 어포던스의 심벌 텍스트 정보와 동일한 텍스트를 포함하는 심벌 텍스트 정보의 어포던스를 상기 대체 어포던스로 결정하는 단계를 포함하는이미지 기반 크롤링 방법
|
12 |
12
제10 항에 있어서, 상기 산출된 유사도를 기초로 상기 검출된 복수의 어포던스에서 상기 대체 어포던스를 결정하는 단계는,상기 기존 어포던스의 심벌 텍스트 정보와 유의어를 포함하는 심벌 텍스트 정보의 어포던스를 상기 대체 어포던스로 결정하는 단계를 포함하는이미지 기반 크롤링 방법
|
13 |
13
제11 항 또는 제12 항에 있어서, 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하는 단계는,상기 대체 어포던스를 기초로 업데이트된 접근 경로정보를 기초로 상기 메인 웹 페이지에서 상기 목표 웹 페이지로 이동하는 단계를 포함하는이미지 기반 크롤링 방법
|
14 |
14
소정의 웹 페이지를 출력하는 적어도 하나 이상의 디스플레이; 적어도 하나 이상의 프로세서; 및 적어도 하나 이상의 메모리; 를 포함하고, 상기 메모리에 저장되고 상기 프로세서에 의해 실행되어 이미지 기반의 크롤링(crawling)을 수행하는 적어도 하나의 애플리케이션으로서 상기 적어도 하나의 애플리케이션은, 크롤링하고자 하는 목표 웹 페이지(target webpage)로 이동하기 위한 접근 경로정보를 포함하는 타겟 웹 페이지 정보를 설정하고, 상기 설정된 타겟 웹 페이지 정보를 기초로 상기 목표 웹 페이지를 제공하는 제1 웹 사이트(website)의 메인 웹 페이지에 접속하고, 상기 접속한 제1 웹 사이트의 웹 페이지 화면에서 상기 접근 경로정보에 대응하는 이미지 어포던스(affordance)의 심벌 텍스트 정보를 이미지 딥러닝에 기초하여 검출하고, 상기 접근 경로정보에 상기 이미지 어포던스와 상기 검출된 심벌 텍스트 정보를 매칭하여 저장하고, 상기 접근 경로정보에 따라서 상기 메인 웹 페이지로부터 상기 목표 웹 페이지로 접속하고, 상기 접속한 목표 웹 페이지를 크롤링하여 획득한 데이터 셋을 데이터베이스에 저장하는 이미지 기반 크롤링 시스템
|