1 |
1
컴퓨팅 장치에서 수행되는 기계 학습 데이터셋에 대한 레이블링 방법에 있어서,클래스 레이블(class label)이 주어지지 않은 제1 데이터셋에 대한 클러스터링(clustering)을 수행하여, 복수의 클러스터를 구축하는 제1 단계;클러스터에 속한 데이터 간의 제1 유사도를 기초로 상기 복수의 클러스터 각각에 대한 평가를 수행하는 제2 단계;상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 레이블링 대상 클러스터를 지정하는 제3 단계; 및동일한 레이블링 대상 클러스터에 속한 데이터 각각에 대하여 동일한 클래스 레이블을 부여하는 제4 단계를 포함하되,상기 제3 단계는,상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 일부 클러스터를 제1 레이블링 대상 클러스터로 지정하는 단계;상기 제1 레이블링 대상 클러스터로 지정되지 않은 제1 클러스터에 대하여, 상기 제1 클러스터에 속한 데이터 중에서 일부 데이터를 제외하여 제2 클러스터를 형성하는 단계; 및상기 제2 클러스터에 속한 데이터 간의 제2 유사도를 산출하고, 상기 제2 유사도가 소정의 임계 수치 이상이라는 판정에 응답하여, 상기 제2 클러스터를 상기 레이블링 대상 클러스터로 추가 지정하는 단계를 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
2 |
2
제1 항에 있어서,상기 클러스터링은,K-평균 클러스터링(K-means clustering) 알고리즘을 이용하여 수행되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
3 |
3
제2 항에 있어서,상기 제1 단계는,K의 값을 제1 값으로 설정하여 제1 복수의 클러스터를 구축하고, 상기 제1 복수의 클러스터에 대한 제1 평가 결과를 산출하는 단계;상기 K의 값을 제2 값으로 설정하여 제2 복수의 클러스터를 구축하고, 상기 제2 복수의 클러스터에 대한 제2 평가 결과를 산출하는 단계; 및상기 제1 평가 결과와 상기 제2 평가 결과를 기초로, 상기 제1 복수의 클러스터 및 상기 제2 복수의 클러스터 중 어느 하나를 상기 복수의 클러스터로 결정하는 단계를 포함하되,상기 제1 평가 결과 및 상기 제2 평가 결과는,클러스터에 속한 데이터 간 유사도와 클러스터 간 비유사도에 기초하여 산출되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
4 |
4
제1 항에 있어서,상기 클러스터링에 이용되는 알고리즘은,클러스터의 개수를 하이퍼파라미터(hyper-parameter)로 갖는 알고리즘이되,상기 하이퍼파라미터의 값은 상기 제1 데이터셋의 데이터 개수에 기초하여 결정되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
5 |
5
제1 항에 있어서,상기 제3 단계는,상기 복수의 클러스터 중에서, 데이터의 개수가 임계 수치 이상인 클러스터를 레이블링 후보 클러스터로 선정하는 단계; 및상기 레이블링 후보 클러스터 중에서, 상기 평가의 결과에 기초하여 상기 레이블링 대상 클러스터를 지정하는 단계를 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
6 |
6
제1 항에 있어서,상기 제3 단계는,상기 복수의 클러스터 중에서, 상기 제1 유사도가 임계 수치 이상인 클러스터를 상기 레이블링 대상 클러스터로 지정하는 단계를 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
7 |
7
제1 항에 있어서,상기 제1 유사도는,클러스터의 중심(centroid)과 클러스터에 속한 데이터 간의 평균 거리에 기초하여 산출되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
8 |
8
삭제
|
9 |
9
제1 항에 있어서,상기 일부 데이터는,상기 제1 클러스터의 중심과 상기 제1 클러스터에 속한 데이터 간의 거리에 기초하여 결정되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
10 |
10
삭제
|
11 |
11
제1 항에 있어서,상기 제1 데이터셋 중에서 클래스 레이블이 부여된 데이터셋을 기계 학습하여, 분류 모델을 구축하는 단계;상기 분류 모델을 이용하여, 상기 클래스 레이블이 주어지지 않은 분류 대상 데이터의 클래스를 예측하는 단계;상기 레이블링 대상 클러스터 중에서, 상기 예측된 클래스에 대응되는 타깃 클러스터를 선정하는 단계; 및상기 타깃 클러스터와 상기 분류 대상 데이터 간의 유사도가 임계 수치 미만이라는 판정에 응답하여, 상기 분류 대상 데이터를 새로운 클래스로 분류하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
12 |
12
제11 항에 있어서,상기 제1 데이터셋은 상기 클래스 레이블이 부여된 제1-1 데이터셋과 상기 클래스 레이블이 부여되지 않은 제1-2 데이터셋으로 구성되고,상기 제1-2 데이터셋에 상기 분류 대상 데이터를 추가하여 제2 데이터셋을 구성하는 단계; 및상기 제2 데이터셋을 대상으로 상기 제1 단계 내지 상기 제4 단계를 수행하여, 상기 제2 데이터셋 중 적어도 일부의 데이터에 새로운 클래스 레이블을 부여하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
13 |
13
제12 항에 있어서,상기 적어도 일부의 데이터를 이용하여, 상기 분류 모델을 갱신하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
14 |
14
제12 항에 있어서,상기 적어도 일부의 데이터 및 상기 제1-1 데이터셋을 이용하여, 상기 분류 모델을 재구축하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
15 |
15
제1 항에 있어서,상기 제1 데이터셋에 포함된 각각의 데이터는 벡터 형식의 데이터이고,상기 벡터 형식의 데이터는,특정 시퀀스로부터 추출된 n-gram 단위의 특징에 기초하여 생성되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
16 |
16
제15 항에 있어서,상기 벡터 형식의 데이터는,상기 n-gram 단위의 특징에 대하여 피처 해싱(feature hashing)이 수행된 결과에 기초하여 생성되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
17 |
17
제15 항에 있어서,상기 클래스 레이블은 악성코드의 분류 정보를 가리키고,상기 벡터 형식의 데이터는 악성코드의 행위 벡터이며,상기 특정 시퀀스는 상기 악성코드의 API(application programming interface) 호출 시퀀스인 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
18 |
18
제17 항에 있어서,상기 악성코드의 API 호출 시퀀스는,샌드박스(sandbox) 내에서 수행되는 상기 악성코드의 행위 분석을 통해 획득되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
19 |
19
제1 항에 있어서,상기 클래스 레이블은 악성코드의 분류 정보를 가리키고,상기 레이블링 대상 클러스터에 속한 데이터는 제1 악성코드의 특징을 가리키는 제1 데이터 및 제2 악성코드의 특징을 가리키는 제2 데이터를 포함하며,상기 레이블링 대상 클러스터의 중심과 상기 제1 데이터 간의 제1 평균 유사도를 산출하는 단계;상기 레이블링 대상 클러스터의 중심과 상기 제2 데이터 간의 제2 평균 유사도를 산출하는 단계; 및상기 제1 평균 유사도와 상기 제2 평균 유사도의 비교 결과에 기초하여, 상기 제1 악성코드 및 상기 제2 악성코드 중 어느 하나의 악성코드를 상기 레이블링 대상 클러스터의 대표 악성코드로 지정하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
|
20 |
20
프로세서;상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리; 및클래스 레이블(class label)이 주어지지 않은 데이터셋 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,상기 컴퓨터 프로그램은,상기 데이터셋에 대한 클러스터링(clustering)을 수행하여, 복수의 클러스터를 구축하는 제1 인스트럭션;클러스터에 속한 데이터 간의 제1 유사도를 기초로 상기 복수의 클러스터 각각에 대한 평가를 수행하는 제2 인스트럭션;상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 레이블링 대상 클러스터를 지정하는 제3 인스트럭션; 및동일한 레이블링 대상 클러스터에 속한 데이터 각각에 대하여 동일한 클래스 레이블을 부여하는 제4 인스트럭션을 포함하되,상기 제3 인스트럭션은,상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 일부 클러스터를 제1 레이블링 대상 클러스터로 지정하는 인스트럭션;상기 제1 레이블링 대상 클러스터로 지정되지 않은 제1 클러스터에 대하여, 상기 제1 클러스터에 속한 데이터 중에서 일부 데이터를 제외하여 제2 클러스터를 형성하는 인스트럭션; 및상기 제2 클러스터에 속한 데이터 간의 제2 유사도를 산출하고, 상기 제2 유사도가 소정의 임계 수치 이상이라는 판정에 응답하여, 상기 제2 클러스터를 상기 레이블링 대상 클러스터로 추가 지정하는 인스트럭션을 포함하는 것을 특징으로 하는,레이블링 장치
|
21 |
21
컴퓨팅 장치와 결합되어,클래스 레이블(class label)이 주어지지 않은 제1 데이터셋에 대한 클러스터링(clustering)을 수행하여, 복수의 클러스터를 구축하는 제1 단계;클러스터에 속한 데이터 간의 제1 유사도를 기초로 상기 복수의 클러스터 각각에 대한 평가를 수행하는 제2 단계;상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 레이블링 대상 클러스터를 지정하는 제3 단계; 및동일한 레이블링 대상 클러스터에 속한 데이터 각각에 대하여 동일한 클래스 레이블을 부여하는 제4 단계를 실행시키되,상기 제3 단계는,상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 일부 클러스터를 제1 레이블링 대상 클러스터로 지정하는 단계;상기 제1 레이블링 대상 클러스터로 지정되지 않은 제1 클러스터에 대하여, 상기 제1 클러스터에 속한 데이터 중에서 일부 데이터를 제외하여 제2 클러스터를 형성하는 단계; 및상기 제2 클러스터에 속한 데이터 간의 제2 유사도를 산출하고, 상기 제2 유사도가 소정의 임계 수치 이상이라는 판정에 응답하여, 상기 제2 클러스터를 상기 레이블링 대상 클러스터로 추가 지정하는 단계를 수행하도록 구현된 컴퓨터로 판독 가능한 기록매체에 저장된,컴퓨터 프로그램
|