1 |
1
Root URL 정보를 제1 데이터베이스에 저장하는 인젝터(injector) 모듈;상기 제1 데이터베이스로부터 상기 Root URL 정보를 제공받아 수집 대상 URL 리스트를 생성하고, 상기 수집 대상 URL 리스트를 제2 데이터베이스에 저장하는 제너레이터(generator) 모듈;상기 제2 데이터베이스로부터 상기 수집 대상 URL 리스트를 제공받아 상기 수집 대상 URL 리스트에 대응되는 웹 페이지로부터 컨텐츠를 추출하고, 상기 컨텐츠를 상기 제2 데이터베이스에 저장하는 페처(fetcher) 모듈; 상기 제2 데이터베이스로부터 상기 컨텐츠를 제공받아 상기 컨텐츠의 내용을 파싱하여 파싱 결과 정보를 생성하고, 상기 파싱 결과 정보를 상기 제2 데이터베이스에 저장하는 파싱(parsing) 모듈;상기 파싱 모듈로부터 상기 파싱 결과 정보를 제공받아 상기 웹 페이지의 문서 타입이 HTML5인지 판단하는 필터(filter) 모듈; 및상기 웹 페이지의 문서 타입이 HTML5인 경우에만 상기 컨텐츠에 포함된 HTML 코드의 취약점(vulnerability)을 분석하는 취약점 분석 모듈을 포함하되,상기 취약점 분석 모듈은 상기 컨텐츠를 복수의 서브 컨텐츠로 스플릿(split)하고, 상기 서브 컨텐츠에 포함된 태그를 트리 구조로 정렬하여 키워드와 속성을 추출하고, 상기 키워드 및 상기 속성의 빈도수를 연산하여 상기 컨텐츠의 취약점을 분석하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
2 |
2
삭제
|
3 |
3
제 1항에 있어서,상기 제2 데이터베이스로부터 상기 파싱 결과 정보를 제공받아 상기 제1 데이터베이스에 저장된 정보를 업데이트하는 업데이터(updater) 모듈을 더 포함하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
4 |
4
제 3항에 있어서,상기 페처 모듈은, 상기 컨텐츠에 관한 컨텐츠 수집 정보를 생성하고, 상기 컨텐츠 수집 정보를 상기 제2 데이터베이스에 더 저장하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
5 |
5
제 4항에 있어서,상기 업데이터 모듈은, 상기 제2 데이터베이스로부터 상기 컨텐츠 수집 정보를 제공받아 상기 제1 데이터베이스에 저장된 정보를 업데이트하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
6 |
6
제 1항에 있어서,상기 제1 데이터베이스는, 상기 Root URL 정보를 제1 포맷으로 변환하여 저장하고,상기 제1 포맷은, URL, 수집 상태, 수집 시간, 수집된 이후 재시도 횟수, 및 문서 형식에 관한 정보를 포함하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
7 |
7
제 6항에 있어서,상기 제2 데이터베이스는, 상기 컨텐츠를 제2 포맷으로 변환하여 저장하고, 상기 제2 포맷은, 상기 제1 포맷에 포함된 정보와, 상기 웹 페이지의 HTML 내용을 포함하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
8 |
8
제 7항에 있어서,상기 제2 데이터베이스는, 상기 컨텐츠를 파싱한 형태의 아웃링크(outlink) 주소 및 상기 아웃링크를 텍스트 라인 단위로 저장한 형태를 더 저장하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
9 |
9
제 1항에 있어서,상기 취약점에 관한 정보를 저장하는 제3 데이터베이스를 더 포함하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
10 |
10
제 1항에 있어서,상기 Root URL 정보는, 수집 대상 URL을 포함하는 웹 페이지의 메인 URL 정보인 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
11 |
11
데이터베이스;제1 웹 페이지의 Root URL 정보를 추출하여 상기 데이터베이스에 저장하는 인젝터(injector) 모듈;상기 Root URL 정보를 제공받아 수집 대상 URL 리스트를 생성하고, 상기 수집 대상 URL 리스트를 상기 데이터베이스에 저장하는 제너레이터(generator) 모듈; 상기 수집 대상 URL 리스트를 제공받아 대응되는 제2 웹 페이지로부터 컨텐츠를 추출하고, 상기 컨텐츠를 상기 데이터베이스에 저장하는 페처(fetcher) 모듈;상기 컨텐츠를 제공받아 파싱하고, 파싱 결과 정보를 생성하고, 상기 파싱 결과 정보를 상기 데이터베이스에 저장하는 파싱(parsing) 모듈;상기 파싱 결과 정보를 제공받아 상기 제2 웹 페이지의 문서 타입이 HTML5인지 판단하는 필터(filter) 모듈; 및상기 제2 웹 페이지의 문서 타입이 HTML5인 경우에만 상기 컨텐츠에 포함된 HTML 코드의 취약점(vulnerability)을 분석하는 취약점 분석 모듈을 포함하되,상기 취약점 분석 모듈은 상기 컨텐츠를 복수의 서브 컨텐츠로 스플릿(split)하고, 상기 서브 컨텐츠에 포함된 태그를 트리 구조로 정렬하여 키워드와 속성을 추출하고, 상기 키워드 및 상기 속성의 빈도수를 연산하여 상기 컨텐츠의 취약점을 분석하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
12 |
12
삭제
|
13 |
13
제 11항에 있어서,상기 페처 모듈은, 상기 컨텐츠에 관한 컨텐츠 수집 정보를 생성하고, 상기 컨텐츠 수집 정보를 상기 데이터베이스에 더 저장하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
14 |
14
제 11항에 있어서,상기 데이터베이스는, 상기 Root URL 정보를 제1 포맷으로 변환하여 저장하고,상기 제1 포맷은, URL, 수집 상태, 수집 시간, 수집된 이후 재시도 횟수, 및 문서 형식에 관한 정보를 포함하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
15 |
15
제 14항에 있어서,상기 데이터베이스는, 상기 컨텐츠를 제2 포맷으로 변환하여 저장하고, 상기 제2 포맷은, 상기 제1 포맷에 포함된 정보와, 상기 제2 웹 페이지의 HTML 내용을 포함하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
16 |
16
제 15항에 있어서,상기 데이터베이스는, 상기 컨텐츠를 파싱한 형태의 아웃링크(outlink) 주소 및 상기 아웃링크를 텍스트 라인 단위로 저장한 형태를 더 저장하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
17 |
17
제 11항에 있어서,상기 Root URL 정보는, 수집 대상 URL을 포함하는 상기 제1 웹 페이지의 메인 URL 정보인 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 장치
|
18 |
18
Root URL 정보를 기초로 하여, 수집 대상 URL 리스트를 생성하고,상기 수집 대상 URL 리스트에 대응되는 웹 페이지로부터 컨텐츠를 추출하고,상기 컨텐츠의 내용을 파싱하여 파싱 결과 정보를 생성하고,상기 파싱 결과 정보를 기초로 하여, 상기 웹 페이지의 문서 타입이 HTML5인지 판단하고,상기 웹 페이지의 문서 타입이 HTML5인 경우에만 상기 컨텐츠에 포함된 HTML 코드의 취약점(vulnerability)을 분석하는 것을 포함하되, 상기 컨텐츠를 복수의 서브 컨텐츠로 스플릿(split)하고, 상기 서브 컨텐츠에 포함된 태그를 트리 구조로 정렬하여 키워드와 속성을 추출하고, 상기 키워드 및 상기 속성의 빈도수를 연산하여 상기 컨텐츠의 취약점을 분석하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 방법
|
19 |
19
삭제
|
20 |
20
제 18항에 있어서,상기 Root URL 정보를 데이터베이스에 저장하는 것을 더 포함하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 방법
|
21 |
21
제 20항에 있어서,상기 수집 대상 URL 리스트 및 상기 컨텐츠를 상기 데이터베이스에 저장하는 것을 더 포함하는 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 방법
|
22 |
22
제 18항에 있어서,상기 Root URL 정보는, 수집 대상 URL을 포함하는 웹 페이지의 메인 URL 정보인 분산 병렬 처리 기반의 HTML5 문서 수집 및 분석 방법
|