1 |
1
훈련 데이터 세트에서 문자열을 추출한 뒤, 문자열의 빈도를 고려해 선별된 문자열 집합으로 단어장을 구성하고, 단어장 기반으로 참조 단어 빈도-역 문서 빈도 벡터를 산출하는 참조 벡터 생성 모듈;분석대상 테스트 파일에서 문자열을 추출하고, 상기 참조 벡터 생성 모듈에서 사전에 생성된 단어장을 기준으로 테스트 단어 빈도-역 문서 빈도 벡터(TF-IDF Vector)를 산출하는 테스트 벡터 생성 모듈; 및 상기 테스트 단어 빈도-역 문서 빈도 벡터와 사전에 구성된 훈련 데이터 세트의 참조 단어 빈도-역 문서 빈도 벡터들을 비교하고 악성코드 탐지 및 변종 분석을 제공하는 악성 코드 탐지 모듈을 포함하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
|
2 |
2
청구항 1항에 있어서, 상기 참조 벡터 생성 모듈은, 훈련(Train) 데이터 세트에서 문자열을 추출하는 문자열 추출부;상기 문자열 추출부가 다수의 파일로 구성된 훈련 데이터 세트에서 문자열을 추출하면, 문자열의 빈도를 고려해 문자열을 선별하고, 선별된 문자열 집합으로 단어장을 구성하는 단어장 구성부; 및단어장 기반으로 각 파일의 단어 빈도값과 역 문서 빈도값을 통해 참조 단어 빈도-역 문서 빈도 벡터를 산출하는 벡터 생성부를 포함하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
|
3 |
3
청구항 2항에 있어서, 상기 문자열 추출부는 악성파일의 정적 분석을 이용해 문자열 추출이 가능하고 추출된 데이터는 ASCII와 Unicode로 표현되어 있으며, 그 중 특정 길이 이상의 연속된 ASCII문자로 구성된 문자열을 취하는 것을 특징으로 하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
|
4 |
4
청구항 2항에 있어서, 상기 문자열 추출부에 의해 추출된 문자열은 파일의 코드부분과 PE파일의 구조적인 특징을 나타내는 Header부분, 악성행위와 관련된 DLL명과 API명을 포함하고 있는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
|
5 |
5
청구항 1항에 있어서, 상기 악성 코드 탐지 모듈은 코사인 유사도 측정 기법을 이용하여 유사도를 측정하여 악성코드 탐지 및 변종 분석을 제공하는 TF-IDF 기반 벡터 변환 및 데이터 분석 장치
|
6 |
6
(A) 참조 벡터 생성 모듈이 훈련 데이터 세트에서 문자열을 추출한 뒤, 문자열의 빈도를 고려해 선별된 문자열 집합으로 단어장을 구성하고, 단어장 기반으로 참조 단어 빈도-역 문서 빈도 벡터를 산출하는 단계;(B) 테스트 벡터 생성 모듈이 분석대상 테스트 파일에서 문자열을 추출하고, 상기 참조 벡터 생성 모듈에서 사전에 생성된 단어장을 기준으로 테스트 단어 빈도-역 문서 빈도 벡터(TF-IDF Vector)를 산출하는 단계; 및 (C) 악성 코드 탐지 모듈이 상기 테스트 단어 빈도-역 문서 빈도 벡터와 사전에 구성된 훈련 데이터 세트의 참조 단어 빈도-역 문서 빈도 벡터들을 비교하고 악성코드 탐지 및 변종 분석을 제공하는 단계를 포함하는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
|
7 |
7
청구항 6항에 있어서, 상기 (A) 단계는(A-1) 상기 참조 벡터 생성 모듈이 훈련(Train) 데이터 세트에서 문자열을 추출하는 단계;(A-2) 상기 참조 벡터 생성 모듈이 다수의 파일로 구성된 훈련 데이터 세트에서 문자열을 추출하면, 문자열의 빈도를 고려해 문자열을 선별하고, 선별된 문자열 집합으로 단어장을 구성하는 단계; 및(A-3) 상기 참조 벡터 생성 모듈이 단어장 기반으로 각 파일의 단어 빈도값과 역 문서 빈도값을 통해 참조 단어 빈도-역 문서 빈도 벡터를 산출하는 단계를 포함하는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
|
8 |
8
청구항 7항에 있어서, 상기 (A-1) 단계에서 상기 참조 벡터 생성 모듈은 악성파일의 정적 분석을 이용해 문자열 추출이 가능하고 추출된 데이터는 ASCII와 Unicode로 표현되어 있으며, 그 중 특정 길이 이상의 연속된 ASCII문자로 구성된 문자열을 취하는 것을 특징으로 하는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
|
9 |
9
청구항 7항에 있어서, 상기 (A-1) 단계에서 상기 참조 벡터 생성 모듈에 의해 추출된 문자열은 파일의 코드부분과 PE파일의 구조적인 특징을 나타내는 Header부분, 악성행위와 관련된 DLL명과 API명을 포함하고 있는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
|
10 |
10
청구항 6항에 있어서,상기 (C) 단계에서 상기 악성 코드 탐지 모듈은 코사인 유사도 측정 기법을 이용하여 유사도를 측정하여 악성코드 탐지 및 변종 분석을 제공하는 TF-IDF 기반 벡터 변환 및 데이터 분석 방법
|