1 |
1
기계 학습 모델의 신뢰도를 판단하기 위한 방법으로서,(a) 복수의 학습 페이로드 데이터 - 상기 학습 페이로드 데이터 각각은, 해당되는 소정의 클래스에 대한 정보인 정답 레이블이 부여됨 - 를 사용하여 상기 기계 학습 모델의 학습이 완료된 후, 미확인 페이로드 데이터가 획득되면, 후처리 장치가, 상기 학습 페이로드 데이터 중 적어도 일부로부터 전체집합워드 - 상기 전체집합워드 각각은 상기 학습 페이로드 데이터에 포함된 숫자, 특수문자 및 문자열 중 하나 또는 둘 이상의 조합임 - 를 추출한 상태에서, 상기 미확인 페이로드 데이터로부터 비교대상워드 - 상기 비교대상워드 각각은 상기 미확인 페이로드 데이터에 포함된 숫자, 특수문자 및 문자열 중 하나 또는 둘 이상의 조합임 - 를 추출하는 단계; (b) 상기 후처리 장치가, (i) 상기 학습 페이로드 데이터에서 추출된 상기 전체집합워드의 개수에 대한 정보 및 상기 학습 페이로드 데이터에서 상기 전체집합워드 각각이 출현하는 횟수에 대한 정보를 참조로 하여, 상기 전체집합워드 각각에 대응되는 제1 가중치를 산출하는 프로세스, (ii) 상기 학습 페이로드 데이터 중 적어도 하나의 특정 학습 페이로드 데이터에서 추출된 부분집합워드의 개수에 대한 정보 및 상기 특정 학습 페이로드 데이터에서 상기 부분집합워드 각각이 출현하는 횟수에 대한 정보를 참조로 하여, 상기 부분집합워드 각각에 대응되는 제2 가중치를 산출하는 프로세스, 및 (iii) 상기 미확인 페이로드 데이터에서 추출된 상기 비교대상워드의 개수에 대한 정보 및 상기 미확인 페이로드 데이터에서 상기 비교대상워드 각각이 출현하는 출현 횟수에 대한 정보를 참조로 하여, 상기 비교대상워드 각각에 대응되는 제3 가중치를 산출하는 프로세스를 수행하는 단계;(c) 상기 후처리 장치가, 상기 미확인 페이로드 데이터에서 추출된 상기 비교대상워드와 상기 특정 학습 페이로드 데이터 각각에서 추출된 각각의 상기 부분집합워드를 비교하여, 중복되는 중복워드 각각에 대응되는 제1 가중치, 제2 가중치 및 제3 가중치를 참조로 하여 상기 미확인 페이로드 데이터와 상기 특정 학습 페이로드 데이터 각각의 유사도를 판단하는 단계;(d) 상기 후처리 장치가, (i) 상기 학습 페이로드 데이터 각각에 대응되는 상기 유사도 중 가장 큰 값을 가지는 최대유사도 및 이를 기준으로 하여 소정의 범위 이내에 포함되는 유사도에 해당되는 학습 페이로드 데이터 각각을 유사 페이로드 데이터로서 결정하는 프로세스, 및 (ii) 상기 유사 페이로드 각각에 부여된 정답 레이블 각각의 클래스 정보를 참조로 하여, 소정의 비율 이상의 특정 클래스에 해당되는 값을 상기 미확인 페이로드 데이터의 제1 클래스 정보로 결정하는 프로세스를 수행하는 단계; 및(e) 상기 후처리 장치가, 상기 기계 학습 모델에 의하여 도출된 상기 미확인 페이로드 데이터의 클래스에 대한 모델 예측값이 제2 클래스 정보로서 획득된 상태에서, 상기 제1 클래스 정보와 상기 제2 클래스 정보를 비교하여 상기 기계 학습 모델의 신뢰도를 판단하거나 판단할 수 있도록 지원하는 단계;를 포함하는, 방법
|
2 |
2
제1항에 있어서,상기 (c) 단계는, (c1) 상기 후처리 장치가, (i) 상기 중복워드 각각에 대응되는 제1 가중치로 상기 중복워드 각각에 대응되는 제2 가중치를 나눈 값인 학습데이터가중치를 산출하는 프로세스, (ii) 상기 중복워드 각각에 대응되는 제1 가중치로 상기 중복워드 각각에 대응되는 제3 가중치를 나눈 값인 미확인데이터가중치를 산출하는 프로세스, 및 (iii) 상기 학습데이터가중치와 상기 미확인데이터가중치를 참조로 하여 소정의 제1 연산을 수행하고, 그 결과로서 상기 중복워드 각각의 최종가중치를 산출하는 프로세스를 수행하는 단계; 및(c2) 상기 후처리 장치가, 상기 중복워드 각각에 대응되는 상기 최종가중치 각각에 대하여 소정의 제2 연산을 수행한 결과값을 상기 유사도로서 획득하는 단계;를 포함하는, 방법
|
3 |
3
제1항에 있어서,상기 (e) 단계에서, 상기 신뢰도의 판단은, 상기 후처리 장치가, 상기 제1 클래스 정보와 상기 제2 클래스 정보를 비교하여, (i) 상기 제1 클래스 정보와 상기 제2 클래스 정보가 일치하는 경우 상기 모델 예측값을 상기 미확인 페이로드 데이터에 대응되는 클래스 값으로 판단하는 프로세스, 및 (ii) (1) 상기 제1 클래스 정보와 상기 제2 클래스 정보가 일치하지 않거나 (2) 상기 제1 클래스 정보가 도출되지 않는 경우에는 상기 모델 예측값을 별도의 검사 대상으로 분류하는 프로세스 중 적어도 하나를 수행함으로써 이루어지는 것을 특징으로 하는, 방법
|
4 |
4
제3항에 있어서,상기 모델 예측값이 별도의 검사 대상으로 분류되는 경우, 상기 후처리 장치가, (i) 상기 제1 클래스 정보 및 상기 제2 클래스 정보를 제공함으로써 상기 기계 학습 모델의 신뢰도의 판단이 가능하도록 지원하는 프로세스, 및 (ii) 상기 후처리 장치에 연결된 별도의 사용자 단말로 하여금 상기 제1 클래스 정보 및 상기 제2 클래스 정보를 제공하도록 함으로써 상기 기계 학습 모델의 신뢰도의 판단이 가능하도록 지원하는 프로세스 중 적어도 하나를 수행하는 것을 특징으로 하는, 방법
|
5 |
5
제1항에 있어서,상기 (a) 단계에서, 상기 전체집합워드를 추출하면, 상기 후처리 장치가, 상기 전체집합워드에 대한 정보를 참조로 하여 상기 전체집합워드의 데이터를 포함하는 제1 딕셔너리를 생성하는 프로세스를 추가로 수행하고,상기 (b) 단계에서,상기 부분집합워드를 추출하면, 상기 후처리 장치가, 상기 부분집합워드에 대한 정보를 참조로 하여 상기 특정 학습 페이로드 데이터 각각에 대응되는 부분집합워드의 데이터를 포함하는 제2 딕셔너리 각각을 생성하는 프로세스를 추가로 수행하여,상기 후처리 장치가, 상기 제1 딕셔너리 및 상기 제2 딕셔너리를 참조로 하여 상기 제1 가중치 및 상기 제2 가중치를 산출하는 것을 특징으로 하는, 방법
|
6 |
6
제1항에 있어서,상기 (b) 단계에서,상기 후처리 장치가, 사전에 결정되어 있는 복수의 사전공격워드에 대한 정보를 추가로 참조하여, 상기 미확인 페이로드 데이터에서 추출된 상기 비교대상워드 중 상기 사전공격워드에 해당되는 비교대상워드에 대해서만 상기 제3 가중치를 산출하는 것을 특징으로 하는, 방법
|
7 |
7
제1항에 있어서,상기 학습 페이로드 데이터 각각은 그 각각에 복수개의 정답 레이블이 부여되되, 그 중 일부의 정답 레이블은 상기 학습 페이로드 데이터 각각에 대한 오탐 또는 정탐에 대한 정답 레이블 및 상기 학습 페이로드 데이터 각각이 해당되는 공격 유형 정보에 대한 정답 레이블 중 적어도 일부를 포함하는 상태에서, 상기 학습 페이로드 데이터 각각이 상기 기계 학습 모델의 학습에 제공되는 것을 특징으로 하는, 방법
|
8 |
8
제1항에 있어서,상기 학습 페이로드 데이터는, 소정의 보안 위협 탐지 시스템에 의하여 탐지된 복수의 탐지 로그 데이터 각각에 대응되는 페이로드 데이터로서, 상기 학습 페이로드 데이터 각각에, 이에 해당되는 소정의 클래스에 대한 상기 정답 레이블이 부여되어 연동되도록 지원되는 것을 특징으로 하는, 방법
|
9 |
9
제8항에 있어서,상기 학습 페이로드 데이터 각각은 그 각각에 복수개의 정답 레이블이 부여되되, 그 중 일부의 정답 레이블은 상기 학습 페이로드 데이터 각각에 대한 오탐 또는 정탐에 대한 정답 레이블 및 상기 학습 페이로드 데이터 각각이 해당되는 공격 유형에 대응되는 정답 레이블 중 적어도 일부를 포함하는 상태에서, 상기 학습 페이로드 데이터 각각이 상기 기계 학습 모델의 학습에 제공되는 것을 특징으로 하는, 방법
|
10 |
10
제9항에 있어서,상기 학습 페이로드 데이터 각각은, 상기 학습 페이로드 데이터에 포함된 숫자, 특수문자 및 문자열 중 하나 또는 둘 이상의 조합인 워드 중 상기 학습 페이로드 데이터 각각이 해당되는 공격 유형에 대응되는 워드를 공격 키워드로서 별도로 분류한 상태에서 상기 기계 학습 모델의 학습에 사용되는 것을 특징으로 하는, 방법
|
11 |
11
제1항에 있어서,상기 미확인 페이로드 데이터는, 상기 학습 페이로드 데이터를 사용하여 상기 기계 학습 모델의 학습이 완료된 상태에서 신규로 소정의 보안 위협 탐지 시스템에 입력되어 탐지되는 특정 탐지 로그 데이터에 대응되는 페이로드 데이터인 것을 특징으로 하는, 방법
|
12 |
12
제11항에 있어서,상기 미확인 페이로드 데이터는, 별도의 정답 레이블이 부여되지 않은 페이로드 데이터인 상태로 상기 기계 학습 모델 및 상기 후처리 장치 각각에 제공됨으로써, 상기 미확인 페이로드 데이터에 대응되는 상기 제1 클래스 정보 및 상기 제2 클래스 정보가 각각 획득되는 것을 특징으로 하는, 방법
|
13 |
13
제12항에 있어서,상기 (b) 단계에서,상기 후처리 장치가, 사전에 결정되어 있는 복수의 사전공격워드에 대한 정보를 추가로 참조하여, 상기 미확인 페이로드 데이터에서 추출된 상기 비교대상워드 중 상기 사전공격워드에 해당되는 비교대상워드에 대해서만 상기 제3 가중치를 산출하는 것을 특징으로 하는, 방법
|
14 |
14
제1항에 있어서,상기 (e) 단계 이후에,(f) 상기 제1 클래스 정보 및 상기 제2 클래스 정보가 일치하지 않거나, 상기 제1 클래스 정보가 도출되지 않는 경우, 상기 후처리 장치가, 상기 기계 학습 모델의 재학습이 가능하도록 지원하는 단계를 추가로 포함하는, 방법
|
15 |
15
기계 학습 모델의 신뢰도를 판단하기 위한 후처리 장치로서,인스트럭션들을 저장하는 적어도 하나의 메모리; 및상기 인스트럭션들을 실행하기 위해 구성된 적어도 하나의 프로세서; 를 포함하고,상기 프로세서가,(I) 복수의 학습 페이로드 데이터 - 상기 학습 페이로드 데이터 각각은, 해당되는 소정의 클래스에 대한 정보인 정답 레이블이 부여됨 - 를 사용하여 상기 기계 학습 모델의 학습이 완료된 후, 미확인 페이로드 데이터가 획득되면, 상기 학습 페이로드 데이터 중 적어도 일부로부터 전체집합워드 - 상기 전체집합워드 각각은 상기 학습 페이로드 데이터에 포함된 숫자, 특수문자 및 문자열 중 하나 또는 둘 이상의 조합임 - 를 추출한 상태에서, 상기 미확인 페이로드 데이터로부터 비교대상워드 - 상기 비교대상워드 각각은 상기 미확인 페이로드 데이터에 포함된 숫자, 특수문자 및 문자열 중 하나 또는 둘 이상의 조합임 - 를 추출하는 프로세스; (II) (i) 상기 학습 페이로드 데이터에서 추출된 상기 전체집합워드의 개수에 대한 정보 및 상기 학습 페이로드 데이터에서 상기 전체집합워드 각각이 출현하는 횟수에 대한 정보를 참조로 하여, 상기 전체집합워드 각각에 대응되는 제1 가중치를 산출하는 서브프로세스, (ii) 상기 학습 페이로드 데이터 중 적어도 하나의 특정 학습 페이로드 데이터에서 추출된 부분집합워드의 개수에 대한 정보 및 상기 특정 학습 페이로드 데이터에서 상기 부분집합워드 각각이 출현하는 횟수에 대한 정보를 참조로 하여, 상기 부분집합워드 각각에 대응되는 제2 가중치를 산출하는 서브프로세스, 및 (iii) 상기 미확인 페이로드 데이터에서 추출된 상기 비교대상워드의 개수에 대한 정보 및 상기 미확인 페이로드 데이터에서 상기 비교대상워드 각각이 출현하는 출현 횟수에 대한 정보를 참조로 하여, 상기 비교대상워드 각각에 대응되는 제3 가중치를 산출하는 서브프로세스를 수행하는 프로세스; (III) 상기 미확인 페이로드 데이터에서 추출된 상기 비교대상워드와 상기 특정 학습 페이로드 데이터 각각에서 추출된 각각의 상기 부분집합워드를 비교하여, 중복되는 중복워드 각각에 대응되는 제1 가중치, 제2 가중치 및 제3 가중치를 참조로 하여 상기 미확인 페이로드 데이터와 상기 특정 학습 페이로드 데이터 각각의 유사도를 판단하는 프로세스; (IV) (i) 상기 학습 페이로드 데이터 각각에 대응되는 상기 유사도 중 가장 큰 값을 가지는 최대유사도 및 이를 기준으로 하여 소정의 범위 이내에 포함되는 유사도에 해당되는 학습 페이로드 데이터 각각을 유사 페이로드 데이터로서 결정하는 서브프로세스, 및 (ii) 상기 유사 페이로드 각각에 부여된 정답 레이블 각각의 클래스 정보를 참조로 하여, 소정의 비율 이상의 특정 클래스에 해당되는 값을 상기 미확인 페이로드 데이터의 제1 클래스 정보로 결정하는 서브프로세스를 수행하는 프로세스; 및 (V) 상기 기계 학습 모델에 의하여 도출된 상기 미확인 페이로드 데이터의 클래스에 대한 모델 예측값이 제2 클래스 정보로서 획득된 상태에서, 상기 제1 클래스 정보와 상기 제2 클래스 정보를 비교하여 상기 기계 학습 모델의 신뢰도를 판단하거나 판단할 수 있도록 지원하는 프로세스; 를 수행하는, 후처리 장치
|
16 |
16
제15항에 있어서,상기 (III) 프로세스는, 상기 프로세서가, (III-1) (i) 상기 중복워드 각각에 대응되는 제1 가중치로 상기 중복워드 각각에 대응되는 제2 가중치를 나눈 값인 학습데이터가중치를 산출하는 서브프로세스, (ii) 상기 중복워드 각각에 대응되는 제1 가중치로 상기 중복워드 각각에 대응되는 제3 가중치를 나눈 값인 미확인데이터가중치를 산출하는 서브프로세스, 및 (iii) 상기 학습데이터가중치와 상기 미확인데이터가중치를 참조로 하여 소정의 제1 연산을 수행하고, 그 결과로서 상기 중복워드 각각의 최종가중치를 산출하는 서브프로세스를 수행하는 프로세스; 및 (III-2) 상기 중복워드 각각에 대응되는 상기 최종가중치 각각에 대하여 소정의 제2 연산을 수행한 결과값을 상기 유사도로서 획득하는 프로세스; 를 수행하는, 후처리 장치
|
17 |
17
제15항에 있어서,상기 (V) 프로세스에서, 상기 신뢰도의 판단은, 상기 프로세서가, 상기 제1 클래스 정보와 상기 제2 클래스 정보를 비교하여, (i) 상기 제1 클래스 정보와 상기 제2 클래스 정보가 일치하는 경우 상기 모델 예측값을 상기 미확인 페이로드 데이터에 대응되는 클래스 값으로 판단하는 프로세스, 및 (ii) (1) 상기 제1 클래스 정보와 상기 제2 클래스 정보가 일치하지 않거나 (2) 상기 제1 클래스 정보가 도출되지 않는 경우에는 상기 모델 예측값을 별도의 검사 대상으로 분류하는 프로세스 중 적어도 하나를 수행함으로써 이루어지는 것을 특징으로 하는, 후처리 장치
|
18 |
18
제17항에 있어서,상기 모델 예측값이 별도의 검사 대상으로 분류되는 경우, 상기 프로세서가, (i) 상기 제1 클래스 정보 및 상기 제2 클래스 정보를 제공함으로써 상기 기계 학습 모델의 신뢰도의 판단이 가능하도록 지원하는 프로세스, 및 (ii) 상기 후처리 장치에 연결된 별도의 사용자 단말로 하여금 상기 제1 클래스 정보 및 상기 제2 클래스 정보를 제공하도록 함으로써 상기 기계 학습 모델의 신뢰도의 판단이 가능하도록 지원하는 프로세스 중 적어도 하나를 수행하는 것을 특징으로 하는, 후처리 장치
|
19 |
19
제15항에 있어서,상기 (I) 프로세스에서, 상기 전체집합워드를 추출하면, 상기 프로세서가, 상기 전체집합워드에 대한 정보를 참조로 하여 상기 전체집합워드의 데이터를 포함하는 제1 딕셔너리를 생성하는 프로세스를 추가로 수행하고,상기 (II) 프로세스에서,상기 부분집합워드를 추출하면, 상기 프로세서가, 상기 부분집합워드에 대한 정보를 참조로 하여 상기 특정 학습 페이로드 데이터 각각에 대응되는 부분집합워드의 데이터를 포함하는 제2 딕셔너리 각각을 생성하는 프로세스를 추가로 수행하여,상기 프로세서가, 상기 제1 딕셔너리 및 상기 제2 딕셔너리를 참조로 하여 상기 제1 가중치 및 상기 제2 가중치를 산출하는 것을 특징으로 하는, 후처리 장치
|
20 |
20
제15항에 있어서,상기 (II) 프로세스에서,상기 프로세서가, 사전에 결정되어 있는 복수의 사전공격워드에 대한 정보를 추가로 참조하여, 상기 미확인 페이로드 데이터에서 추출된 상기 비교대상워드 중 상기 사전공격워드에 해당되는 비교대상워드에 대해서만 상기 제3 가중치를 산출하는 것을 특징으로 하는, 후처리 장치
|
21 |
21
제15항에 있어서,상기 학습 페이로드 데이터 각각은 그 각각에 복수개의 정답 레이블이 부여되되, 그 중 일부의 정답 레이블은 상기 학습 페이로드 데이터 각각에 대한 오탐 또는 정탐에 대한 정답 레이블 및 상기 학습 페이로드 데이터 각각이 해당되는 공격 유형 정보에 대한 정답 레이블 중 적어도 일부를 포함하는 상태에서, 상기 학습 페이로드 데이터 각각이 상기 기계 학습 모델의 학습에 제공되는 것을 특징으로 하는, 후처리 장치
|
22 |
22
제15항에 있어서,상기 학습 페이로드 데이터는, 소정의 보안 위협 탐지 시스템에 의하여 탐지된 복수의 탐지 로그 데이터 각각에 대응되는 페이로드 데이터로서, 상기 학습 페이로드 데이터 각각에, 이에 해당되는 소정의 클래스에 대한 상기 정답 레이블이 부여되어 연동되도록 지원되는 것을 특징으로 하는, 후처리 장치
|
23 |
23
제22항에 있어서,상기 학습 페이로드 데이터 각각은 그 각각에 복수개의 정답 레이블이 부여되되, 그 중 일부의 정답 레이블은 상기 학습 페이로드 데이터 각각에 대한 오탐 또는 정탐에 대한 정답 레이블 및 상기 학습 페이로드 데이터 각각이 해당되는 공격 유형에 대응되는 정답 레이블 중 적어도 일부를 포함하는 상태에서, 상기 학습 페이로드 데이터 각각이 상기 기계 학습 모델의 학습에 제공되는 것을 특징으로 하는, 후처리 장치
|
24 |
24
제23항에 있어서,상기 학습 페이로드 데이터 각각은, 상기 학습 페이로드 데이터에 포함된 숫자, 특수문자 및 문자열 중 하나 또는 둘 이상의 조합인 워드 중 상기 학습 페이로드 데이터 각각이 해당되는 공격 유형에 대응되는 워드를 공격 키워드로서 별도로 분류한 상태에서 상기 기계 학습 모델의 학습에 사용되는 것을 특징으로 하는, 후처리 장치
|
25 |
25
제15항에 있어서,상기 미확인 페이로드 데이터는, 상기 학습 페이로드 데이터를 사용하여 상기 기계 학습 모델의 학습이 완료된 상태에서 신규로 소정의 보안 위협 탐지 시스템에 입력되어 탐지되는 특정 탐지 로그 데이터에 대응되는 페이로드 데이터인 것을 특징으로 하는, 후처리 장치
|
26 |
26
제25항에 있어서,상기 미확인 페이로드 데이터는, 별도의 정답 레이블이 부여되지 않은 페이로드 데이터인 상태로 상기 기계 학습 모델 및 상기 후처리 장치 각각에 제공됨으로써, 상기 미확인 페이로드 데이터에 대응되는 상기 제1 클래스 정보 및 상기 제2 클래스 정보가 각각 획득되는 것을 특징으로 하는, 후처리 장치
|
27 |
27
제26항에 있어서,상기 (II) 프로세스에서,상기 프로세서가, 사전에 결정되어 있는 복수의 사전공격워드에 대한 정보를 추가로 참조하여, 상기 미확인 페이로드 데이터에서 추출된 상기 비교대상워드 중 상기 사전공격워드에 해당되는 비교대상워드에 대해서만 상기 제3 가중치를 산출하는 것을 특징으로 하는, 후처리 장치
|
28 |
28
제15항에 있어서,상기 (V) 프로세스 이후에,(VI) 상기 제1 클래스 정보 및 상기 제2 클래스 정보가 일치하지 않거나, 상기 제1 클래스 정보가 도출되지 않는 경우, 상기 프로세서가, 상기 기계 학습 모델의 재학습이 가능하도록 지원하는 프로세스를 추가로 수행하는, 후처리 장치
|