1 |
1
핵심어를 포함한 제1 웹 페이지에 포함된 제2 웹 페이지의 위치를 나타내는 제2 URL 및 상기 제2 웹 페이지에 포함된 텍스트를 추출하는 단계;상기 제2 웹 페이지에 포함된 제3 웹 페이지의 위치를 나타내는 제3 URL을 추출하는 단계; 상기 제1 웹페이지의 위치를 나타내는 제1 URL과 상기 제2 URL이 유사한지에 대한 URL 유사도 또는 상기 핵심어와 상기 제2 웹 페이지에 포함된 텍스트가 유사한지에 대한 페이지 유사도를 측정하는 단계;측정한 상기 URL 유사도 또는 상기 페이지 유사도를 기초로 제3 URL들의 유효 여부를 결정하는 단계; 및결정된 상기 유효 여부에 기초하여 상기 제3 웹 페이지를 수집하는 단계를 포함하는, 유사 텍스트를 포함한 웹 페이지 수집을 위한 포털 사이트 기반 웹 크롤링 방법
|
2 |
2
제1항에 있어서,상기 제2 웹페이지에 포함된 텍스트를 추출하는 단계 이전에 웹페이지에 존재하는 유사한 텍스트를 검색하기 위해 사용자로부터 수신된 텍스트의 상기 핵심어를 추출하는 단계를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
|
3 |
3
제2항에 있어서,상기 핵심어를 추출하는 단계는,상기 텍스트에 포함된 단어 또는 적어도 두 개의 단어를 포함하는 구절을 추출하는 단계인, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
|
4 |
4
제1항에 있어서,상기 페이지 유사도를 측정하는 단계는,상기 제2 웹 페이지에 포함된 텍스트에 상기 핵심어가 포함된 비율을 측정하는 단계를 포함하고,상기 제3 URL들의 유효 여부를 결정하는 단계는,측정된 상기 비율과 미리 결정된 비율을 기초로 상기 제3 URL들의 유효 여부를 결정하는 단계를 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
|
5 |
5
제1항에 있어서,수집된 상기 제3 웹 페이지의 위치를 나타내는 상기 제3 URL을 포함하고 상기 제2 URL을 더 포함한 상기 제2 URL의 유사도 순위 관리를 위한 URL 세트를 생성하는 단계를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
|
6 |
6
제5항에 있어서,상기 순위 중 가장 높은 순위의 상기 URL 세트를 다음 수집을 위해 제공하는 단계를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
|
7 |
7
제5항에 있어서,측정된 상기 페이지 유사도 및 상기 URL 유사도를 상기 URL 세트에 포함하는 단계를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
|
8 |
8
제1항에 있어서,상기 URL 유사도를 측정하는 단계는,상기 제1 URL 및 상기 제2 URL을 토큰화하는 단계; 및동일한 상기 제1 URL의 토큰과 상기 제2 URL의 토큰의 개수의 비율을 측정하는 단계를 포함하고,상기 제3 URL들의 유효 여부를 결정하는 단계는,측정된 상기 비율과 미리 결정된 비율을 기초로 상기 제1 URL 및 상기 제2 URL이 유사한지를 결정하여 상기 제3 URL들의 유효 여부를 결정하는 단계를 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 방법
|
9 |
9
핵심어를 포함한 제1 웹 페이지에 포함된 제2 웹 페이지의 위치를 나타내는 제2 URL 및 상기 제2 웹 페이지에 포함된 텍스트를 추출하는 URL 및 텍스트 추출부;상기 제2 웹 페이지에 포함된 제3 웹 페이지의 위치를 나타내는 제3 URL을 추출하는 URL 추출부; 상기 제1 웹페이지의 위치를 나타내는 제1 URL과 상기 제2 URL이 유사한지에 대한 URL 유사도 또는 상기 핵심어와 상기 제2 웹 페이지에 포함된 텍스트가 유사한지에 대한 페이지 유사도를 측정하고,측정한 상기 URL 유사도 또는 상기 페이지 유사도를 기초로 제3 URL들의 유효 여부를 결정하는 유사도 측정부; 및결정된 상기 유효 여부에 기초하여 상기 제3 웹 페이지를 수집하는 페이지 수집부를 포함하는, 유사 텍스트를 포함한 웹 페이지 수집을 위한 포털 사이트 기반 웹 크롤링 장치
|
10 |
10
제9항에 있어서,상기 URL 및 텍스트 추출부가 상기 제2 웹페이지에 포함된 텍스트를 추출하기 전에 웹페이지에 존재하는 유사한 텍스트를 검색하기 위해 사용자로부터 수신된 텍스트의 상기 핵심어를 추출하는 핵심어 추출부를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
|
11 |
11
제10항에 있어서,상기 핵심어 추출부는,상기 텍스트에 포함된 단어 또는 적어도 두 개의 단어를 포함하는 구절을 추출하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
|
12 |
12
제9항에 있어서,상기 유사도 측정부는,상기 제2 웹 페이지에 포함된 텍스트에 상기 핵심어가 포함된 비율을 측정하고,측정된 상기 비율과 미리 결정된 비율을 기초로 상기 제3 URL들의 유효 여부를 결정하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
|
13 |
13
제9항에 있어서,수집된 상기 제3 웹 페이지의 위치를 나타내는 상기 제3 URL을 포함하고 상기 제2 URL을 더 포함한 상기 제2 URL의 유사도 순위 관리를 위한 URL 세트를 생성하는 URL 세트 생성부를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
|
14 |
14
제13항에 있어서,상기 유사도 순위 중 가장 높은 순위의 상기 URL 세트를 다음 수집을 위해 제공하는 URL 세트 제공부를 더 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
|
15 |
15
제13항에 있어서,상기 URL 세트 생성부는,측정된 상기 페이지 유사도 및 상기 URL 유사도를 상기 URL 세트에 포함하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
|
16 |
16
제9항에 있어서,상기 유사도 측정부는,상기 제1 URL 및 상기 제2 URL을 토큰화하고,동일한 상기 제1 URL의 토큰과 상기 제2 URL의 토큰의 개수의 비율을 측정하고,상기 제3 URL들의 유효 여부를 결정하는 경우,측정된 상기 비율과 미리 결정된 비율을 기초로 상기 제1 URL 및 상기 제2 URL이 유사한지를 결정하여 상기 제3 URL들의 유효 여부를 결정하는, 유사 텍스트 수집을 위한 포털 사이트 기반 웹 크롤링 장치
|