1 |
1
적어도 하나의 컴퓨팅 장치를 이용한 불법 의심 사이트의 탐지 방법에 있어서,분석 대상 사이트의 HTML 코드를 획득하는 단계;획득된 HTML 코드에 포함된 적어도 하나의 분석 대상 이미지 각각의 URL을 추출하는 단계;추출된 적어도 하나의 URL에 기초하여 상기 적어도 하나의 분석 대상 이미지를 획득하는 단계;획득된 적어도 하나의 분석 대상 이미지에 포함된 텍스트를 추출하는 단계; 및추출된 텍스트에 기초하여, 상기 분석 대상 사이트가 불법 의심 사이트인지 여부를 탐지하는 단계를 포함하는,방법
|
2 |
2
제1항에 있어서, 상기 HTML 코드를 획득하는 단계는,상기 분석 대상 사이트의 메인 페이지에 대응하는 HTML 코드를 획득하는 단계를 포함하는,방법
|
3 |
3
제1항에 있어서, 상기 HTML 코드를 획득하는 단계는,상기 분석 대상 사이트의 복수의 페이지들 중 적어도 하나의 페이지에 대응하는 HTML 코드를 획득하는 단계를 포함하는, 방법
|
4 |
4
제1항에 있어서, 상기 적어도 하나의 분석 대상 이미지 각각의 URL을 추출하는 단계는,상기 HTML 코드로부터, 상기 분석 대상 사이트에 배경 이미지의 형태로 제공되는 분석 대상 이미지의 URL을 추출하는 단계를 포함하는,방법
|
5 |
5
제1항에 있어서, 상기 적어도 하나의 분석 대상 이미지 각각의 URL을 추출하는 단계는,상기 HTML 코드로부터, 상기 분석 대상 사이트에 이미지 링크의 형태로 제공되는 분석 대상 이미지의 URL을 추출하는 단계를 포함하는,방법
|
6 |
6
제1항에 있어서, 상기 추출된 적어도 하나의 URL 각각은 절대 경로 또는 상대 경로를 포함하고,상기 방법은,상기 분석 대상 사이트의 URL로부터 상기 분석 대상 사이트의 도메인을 획득하는 단계; 및획득된 도메인을 상기 상대 경로를 포함하는 URL에 결합하는 단계를 더 포함하는,방법
|
7 |
7
제1항에 있어서,상기 방법은,추출된 적어도 하나의 URL 내에 치환된 특수문자가 포함된 경우, 상기 특수문자를 재치환하는 단계를 더 포함하는,방법
|
8 |
8
제1항에 있어서, 상기 텍스트를 추출하는 단계는,상기 획득된 적어도 하나의 분석 대상 이미지에 대한 OCR 기법을 통해 상기 텍스트를 추출하는 단계를 포함하는,방법
|
9 |
9
제8항에 있어서, 분석 대상 이미지가 복수의 프레임을 포함하는 경우, 상기 텍스트를 추출하는 단계는,첫 프레임에 대한 OCR 기법을 통해 상기 텍스트를 추출하는 단계; 또는상기 복수의 프레임 중 적어도 일부의 프레임 각각에 대한 OCR 기법을 통해 상기 텍스트를 추출하는 단계를 포함하는,방법
|
10 |
10
제1항에 있어서,상기 탐지하는 단계는,상기 추출된 텍스트에 기 설정된 키워드가 포함된 경우, 상기 분석 대상 사이트가 불법 의심 사이트인 것으로 탐지하는 단계를 포함하는,방법
|
11 |
11
적어도 하나의 컴퓨팅 장치를 포함하는 시스템에 있어서,분석 대상 사이트의 HTML 코드를 획득하는 사이트 크롤링부;획득된 HTML 코드에 포함된 적어도 하나의 분석 대상 이미지 각각의 URL을 추출하는 분석 대상 이미지 URL 추출부;추출된 적어도 하나의 URL에 기초하여 획득되는 상기 적어도 하나의 분석 대상 이미지에 포함된 텍스트를 추출하는 텍스트 추출부; 및추출된 텍스트에 기초하여 상기 분석 대상 사이트가 불법 의심 사이트인지 여부를 탐지하는 사이트 탐지부를 포함하는,시스템
|
12 |
12
제11항에 있어서,상기 분석 대상 이미지 URL 추출부는,상기 HTML 코드로부터, 상기 분석 대상 사이트에 배경 이미지의 형태로 제공되는 분석 대상 이미지의 URL을 추출하는,시스템
|
13 |
13
제11항에 있어서, 상기 분석 대상 이미지 URL 추출부는,상기 HTML 코드로부터, 상기 분석 대상 사이트에 이미지 링크의 형태로 제공되는 분석 대상 이미지의 URL을 추출하는,시스템
|
14 |
14
제11항에 있어서, 상기 추출된 적어도 하나의 URL 각각은 절대 경로 또는 상대 경로를 포함하고,상기 시스템은,상기 분석 대상 사이트의 URL로부터 상기 분석 대상 사이트의 도메인을 획득하는 도메인 추출부; 및획득된 도메인을 상기 상대 경로를 포함하는 URL에 결합하는 분석 대상 이미지 URL 처리부를 더 포함하는,시스템
|
15 |
15
제11항에 있어서,상기 사이트 탐지부는,상기 추출된 텍스트에 기 설정된 복수의 키워드 중 적어도 일부가 포함된 경우, 상기 분석 대상 사이트가 불법 의심 사이트인 것으로 탐지하는,시스템
|