1 |
1
유해한 웹 페이지의 URL들을 저장하는 시작 URL DB;상기 시작 URL DB에 저장된 URL들 중 URL은 다르지만 동일 웹 페이지를 가리키는 중복된 URL들을 제거하고, 상기 중복성 제거된 URL들에서 기 수집된 웹 사이트에 해당하는 URL을 제외한 URL들을 특정 호스트와 관련된 URL별로 묶어 제공하는 URL 검사 및 분배부;상기 URL 검사 및 분배부로부터 제공받은 URL에 해당하는 웹 사이트들의 웹 컨텐츠를 수집하는 웹 사이트 수집부; 상기 웹 사이트 수집부가 수집하는 웹 페이지의 컨텐츠가 이미지일 경우에 상기 이미지의 특징과 미리 설정된 무해 이미지 특징 프로파일을 비교하여 무해한 이미지의 수집을 차단하는 무해 이미지 필터; 및상기 웹 사이트 수집부에서 수집한 웹 컨텐츠에 포함된 링크에서 URL을 추출하고, 상기 추출된 URL 중 최상위 도메인 네임 및 무해 URL 목록을 기초로 무해 URL들을 파악하여 수집 대상 URL에서 제외하는 URL 추출부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치
|
2 |
2
제 1항에 있어서, 상기 웹 사이트 수집부는,상기 웹 사이트 접근시 발생하는 특징 패턴이 유해 사이트 접근시 발생하는 특징 패턴과 유사한지 판단하는 것을 특징으로 하는 유해 사이트 수집 장치
|
3 |
3
제 1항에 있어서, 상기 URL 추출부는,상기 추출한 URL들 중 외부 유해 사이트 자동 분류부에 의해 파악된 무해 URL로부터 링크된 URL들을 무해 URL로 파악하는 것을 특징으로 유해 사이트 수집 장치
|
4 |
4
제 1항에 있어서,유해 키워드를 메타 검색의 입력으로 사용하여 상기 유해 가능성이 높은 웹 사이트의 URL을 파악하는 유해 URL 메타 검색부;를 더 포함하는 것을 특징으로 하는 유해 사이트 수집 장치
|
5 |
5
제 4항에 있어서, 상기 유해 URL 메타 검색부는,유해 사이트에 자주 등장하는 유해 키워드를 포함하는 유해 키워드 목록;상기 유해 키워드를 미리 설정된 검색 엔진들의 입력으로 사용하여 상기 검색 엔진들에 의한 검색 결과에 포함된 URL들을 추출하는 메타 검색부; 및상기 검색 결과에 포함된 URL들 중 무해 URL을 제외한 URL들만 상기 URL DB에 저장하는 URL 검사부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치
|
6 |
6
삭제
|
7 |
7
제 1항에 있어서, 상기 URL 검사 및 분배부는,상기 시작 URL DB에 저장된 URL에서 URL은 다르지만 동일한 웹 페이지를 가리키는 중복된 URL들을 제거하고, 기 수집한 웹 페이지에 해당하는 URL을 제외한 수집 대상 URL을 정리하는 URL 검사부;상기 수집 대상 URL에서 상기 URL 추출부에 의해 무해 URL로 판별된 URL을 삭제하는 URL 관리부; 및상기 수집 대상 URL 중 특정 호스트에 포함된 URL들을 묶어 전달하는 URL 분배부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치
|
8 |
8
제 1항에 있어서, 상기 웹 사이트 수집부는,상기 URL 검사 및 분배부로부터 특정 호스트에 포함된 URL 목록을 수신하고, 상기 수신한 URL 목록에 해당하는 웹 컨텐츠를 수집하는 웹 컨텐츠 수집부; 및상기 웹 컨텐츠 수집시에 유해 웹 사이트 접근시에 발생하는 특징 패턴이 나타나는지 파악하는 웹 사이트 분석부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치
|
9 |
9
제 1항에 있어서, 상기 URL 추출부는,상기 웹 사이트 수집부에 의해 수집된 웹 컨텐츠에 포함된 링크에서 URL을 추출하는 URL 획득부;상기 추출된 URL 중 최상위 도메인 네임 및 무해 URL 목록을 기초로 무해 URL을 파악하는 무해 URL 필터; 및외부 유해 사이트 자동 분류부에 의해 파악된 무해 URL로부터 링크된 사이트의 URL을 무해한 URL로 파악한 후, 상기 무해한 것으로 파악된 URL의 삭제를 상기 URL 검사 및 분배부에 요청하는 링크 관계 관리부;를 포함하는 것을 특징으로 하는 유해 사이트 수집 장치
|
10 |
10
(a) 상기 시작 URL DB에 저장된 URL들 중 URL은 다르지만 동일 웹 페이지를 가리키는 중복된 URL들을 제거하고, 상기 중복성 제거된 URL들에서 기 수집된 웹 사이트에 해당하는 URL을 제외한 URL들을 특정 호스트와 관련된 URL별로 묶어 제공하는 단계;(b) 상기 정리된 URL에 해당하는 웹 사이트들의 웹 컨텐츠를 수집하고, 유해 웹 사이트의 접근시 발생하는 특징 패턴을 기초로 상기 웹 사이트의 유해 여부를 분석하고, 상기 수집하는 웹 페이지의 컨텐츠가 이미지일 경우에 상기 이미지의 특징과 미리 설정된 무해 이미지 특징 프로파일을 비교하여 무해한 이미지의 수집을 차단하는 단계; 및(c) 상기 수집한 웹 컨텐츠에 포함된 링크에서 URL을 추출하고, 상기 추출된 URL 중 최상위 도메인 네임 및 무해 URL 목록을 기초로 무해 URL을 파악하여 수집 대상 URL에서 제외하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 수집 방법
|
11 |
11
제 10항에 있어서, 상기 (b) 단계는,상기 웹 사이트 접근시 발생하는 특징 패턴이 유해 사이트 접근시 발생하는 특징 패턴과 유사한지 판단하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 수집 방법
|
12 |
12
제 10항에 있어서, 상기 (c) 단계는, 소정의 무해 URL에서 링크된 사이트의 URL을 무해 URL로 파악하는 단계;를 포함하는 것을 특징으로 하는 유해 사이트 수집 방법
|
13 |
13
제 10항에 있어서, 상기 (a) 단계 전에,유해 키워드를 메타 검색의 입력으로 사용하여 상기 유해 가능성이 높은 웹 사이트의 URL을 파악하여 상기 URL DB에 저장하는 단계;를 더 포함하는 것을 특징으로 유해 사이트 수집 방법
|
14 |
14
삭제
|