맞춤기술찾기

이전대상기술

기계 학습 데이터셋에 대한 레이블링 방법 및 그 장치

  • 기술번호 : KST2019036861
  • 담당센터 :
  • 전화번호 :
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 기계 학습 데이터셋에 대한 레이블링 방법이 제공된다. 컴퓨팅 장치에서 수행되는 본 발명의 일 실시예에 따른 기계 학습 데이터셋에 대한 레이블링 방법은, 클래스 레이블(class label)이 주어지지 않은 제1 데이터셋에 대한 클러스터링(clustering)을 수행하여, 복수의 클러스터를 구축하는 제1 단계, 상기 복수의 클러스터 각각에 대한 평가를 수행하는 제2 단계, 상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 대표 클러스터를 지정하는 제3 단계 및 동일한 대표 클러스터에 속한 데이터 각각에 대하여 동일한 클래스 레이블을 부여하는 제4 단계를 포함할 수 있다.
Int. CL G06F 21/56 (2013.01.01) G06F 16/00 (2019.01.01)
CPC G06F 21/56(2013.01) G06F 21/56(2013.01)
출원번호/일자 1020170159220 (2017.11.27)
출원인 한국인터넷진흥원
등록번호/일자 10-1880628-0000 (2018.07.16)
공개번호/일자
공고번호/일자 (20180816) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2017.11.27)
심사청구항수 19

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국인터넷진흥원 대한민국 전라남도 나주시

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 유대훈 전라남도 나주시 진흥길
2 박준형 전라남도 나주시 진흥길
3 강홍구 전라남도 나주시 진흥길
4 최보민 전라남도 나주시 진흥길
5 김경한 전라남도 나주시 진흥길

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인가산 대한민국 서울 서초구 남부순환로 ****, *층(서초동, 한원빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국인터넷진흥원 전라남도 나주시
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2017.11.27 수리 (Accepted) 1-1-2017-1177744-69
2 [우선심사신청]심사청구(우선심사신청)서
[Request for Preferential Examination] Request for Examination (Request for Preferential Examination)
2017.12.14 수리 (Accepted) 1-1-2017-1249323-73
3 [우선심사신청]선행기술조사의뢰서
[Request for Preferential Examination] Request for Prior Art Search
2017.12.18 수리 (Accepted) 9-1-9999-9999999-89
4 [우선심사신청]선행기술조사보고서
[Request for Preferential Examination] Report of Prior Art Search
2017.12.26 수리 (Accepted) 9-1-2017-0047452-02
5 의견제출통지서
Notification of reason for refusal
2018.01.15 발송처리완료 (Completion of Transmission) 9-5-2018-0035644-63
6 [출원서 등 보정(보완)]보정서
2018.03.02 수리 (Accepted) 1-1-2018-0212614-10
7 [공지예외적용 보완 증명서류]서류제출서
2018.03.02 수리 (Accepted) 1-1-2018-0212615-55
8 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2018.03.02 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2018-0212612-18
9 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2018.03.02 수리 (Accepted) 1-1-2018-0212613-64
10 등록결정서
Decision to grant
2018.04.16 발송처리완료 (Completion of Transmission) 9-5-2018-0259028-45
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
컴퓨팅 장치에서 수행되는 기계 학습 데이터셋에 대한 레이블링 방법에 있어서,클래스 레이블(class label)이 주어지지 않은 제1 데이터셋에 대한 클러스터링(clustering)을 수행하여, 복수의 클러스터를 구축하는 제1 단계;클러스터에 속한 데이터 간의 제1 유사도를 기초로 상기 복수의 클러스터 각각에 대한 평가를 수행하는 제2 단계;상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 레이블링 대상 클러스터를 지정하는 제3 단계; 및동일한 레이블링 대상 클러스터에 속한 데이터 각각에 대하여 동일한 클래스 레이블을 부여하는 제4 단계를 포함하되,상기 제3 단계는,상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 일부 클러스터를 제1 레이블링 대상 클러스터로 지정하는 단계;상기 제1 레이블링 대상 클러스터로 지정되지 않은 제1 클러스터에 대하여, 상기 제1 클러스터에 속한 데이터 중에서 일부 데이터를 제외하여 제2 클러스터를 형성하는 단계; 및상기 제2 클러스터에 속한 데이터 간의 제2 유사도를 산출하고, 상기 제2 유사도가 소정의 임계 수치 이상이라는 판정에 응답하여, 상기 제2 클러스터를 상기 레이블링 대상 클러스터로 추가 지정하는 단계를 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
2 2
제1 항에 있어서,상기 클러스터링은,K-평균 클러스터링(K-means clustering) 알고리즘을 이용하여 수행되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
3 3
제2 항에 있어서,상기 제1 단계는,K의 값을 제1 값으로 설정하여 제1 복수의 클러스터를 구축하고, 상기 제1 복수의 클러스터에 대한 제1 평가 결과를 산출하는 단계;상기 K의 값을 제2 값으로 설정하여 제2 복수의 클러스터를 구축하고, 상기 제2 복수의 클러스터에 대한 제2 평가 결과를 산출하는 단계; 및상기 제1 평가 결과와 상기 제2 평가 결과를 기초로, 상기 제1 복수의 클러스터 및 상기 제2 복수의 클러스터 중 어느 하나를 상기 복수의 클러스터로 결정하는 단계를 포함하되,상기 제1 평가 결과 및 상기 제2 평가 결과는,클러스터에 속한 데이터 간 유사도와 클러스터 간 비유사도에 기초하여 산출되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
4 4
제1 항에 있어서,상기 클러스터링에 이용되는 알고리즘은,클러스터의 개수를 하이퍼파라미터(hyper-parameter)로 갖는 알고리즘이되,상기 하이퍼파라미터의 값은 상기 제1 데이터셋의 데이터 개수에 기초하여 결정되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
5 5
제1 항에 있어서,상기 제3 단계는,상기 복수의 클러스터 중에서, 데이터의 개수가 임계 수치 이상인 클러스터를 레이블링 후보 클러스터로 선정하는 단계; 및상기 레이블링 후보 클러스터 중에서, 상기 평가의 결과에 기초하여 상기 레이블링 대상 클러스터를 지정하는 단계를 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
6 6
제1 항에 있어서,상기 제3 단계는,상기 복수의 클러스터 중에서, 상기 제1 유사도가 임계 수치 이상인 클러스터를 상기 레이블링 대상 클러스터로 지정하는 단계를 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
7 7
제1 항에 있어서,상기 제1 유사도는,클러스터의 중심(centroid)과 클러스터에 속한 데이터 간의 평균 거리에 기초하여 산출되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
8 8
삭제
9 9
제1 항에 있어서,상기 일부 데이터는,상기 제1 클러스터의 중심과 상기 제1 클러스터에 속한 데이터 간의 거리에 기초하여 결정되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
10 10
삭제
11 11
제1 항에 있어서,상기 제1 데이터셋 중에서 클래스 레이블이 부여된 데이터셋을 기계 학습하여, 분류 모델을 구축하는 단계;상기 분류 모델을 이용하여, 상기 클래스 레이블이 주어지지 않은 분류 대상 데이터의 클래스를 예측하는 단계;상기 레이블링 대상 클러스터 중에서, 상기 예측된 클래스에 대응되는 타깃 클러스터를 선정하는 단계; 및상기 타깃 클러스터와 상기 분류 대상 데이터 간의 유사도가 임계 수치 미만이라는 판정에 응답하여, 상기 분류 대상 데이터를 새로운 클래스로 분류하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
12 12
제11 항에 있어서,상기 제1 데이터셋은 상기 클래스 레이블이 부여된 제1-1 데이터셋과 상기 클래스 레이블이 부여되지 않은 제1-2 데이터셋으로 구성되고,상기 제1-2 데이터셋에 상기 분류 대상 데이터를 추가하여 제2 데이터셋을 구성하는 단계; 및상기 제2 데이터셋을 대상으로 상기 제1 단계 내지 상기 제4 단계를 수행하여, 상기 제2 데이터셋 중 적어도 일부의 데이터에 새로운 클래스 레이블을 부여하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
13 13
제12 항에 있어서,상기 적어도 일부의 데이터를 이용하여, 상기 분류 모델을 갱신하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
14 14
제12 항에 있어서,상기 적어도 일부의 데이터 및 상기 제1-1 데이터셋을 이용하여, 상기 분류 모델을 재구축하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
15 15
제1 항에 있어서,상기 제1 데이터셋에 포함된 각각의 데이터는 벡터 형식의 데이터이고,상기 벡터 형식의 데이터는,특정 시퀀스로부터 추출된 n-gram 단위의 특징에 기초하여 생성되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
16 16
제15 항에 있어서,상기 벡터 형식의 데이터는,상기 n-gram 단위의 특징에 대하여 피처 해싱(feature hashing)이 수행된 결과에 기초하여 생성되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
17 17
제15 항에 있어서,상기 클래스 레이블은 악성코드의 분류 정보를 가리키고,상기 벡터 형식의 데이터는 악성코드의 행위 벡터이며,상기 특정 시퀀스는 상기 악성코드의 API(application programming interface) 호출 시퀀스인 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
18 18
제17 항에 있어서,상기 악성코드의 API 호출 시퀀스는,샌드박스(sandbox) 내에서 수행되는 상기 악성코드의 행위 분석을 통해 획득되는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
19 19
제1 항에 있어서,상기 클래스 레이블은 악성코드의 분류 정보를 가리키고,상기 레이블링 대상 클러스터에 속한 데이터는 제1 악성코드의 특징을 가리키는 제1 데이터 및 제2 악성코드의 특징을 가리키는 제2 데이터를 포함하며,상기 레이블링 대상 클러스터의 중심과 상기 제1 데이터 간의 제1 평균 유사도를 산출하는 단계;상기 레이블링 대상 클러스터의 중심과 상기 제2 데이터 간의 제2 평균 유사도를 산출하는 단계; 및상기 제1 평균 유사도와 상기 제2 평균 유사도의 비교 결과에 기초하여, 상기 제1 악성코드 및 상기 제2 악성코드 중 어느 하나의 악성코드를 상기 레이블링 대상 클러스터의 대표 악성코드로 지정하는 단계를 더 포함하는 것을 특징으로 하는,기계 학습 데이터셋에 대한 레이블링 방법
20 20
프로세서;상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리; 및클래스 레이블(class label)이 주어지지 않은 데이터셋 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,상기 컴퓨터 프로그램은,상기 데이터셋에 대한 클러스터링(clustering)을 수행하여, 복수의 클러스터를 구축하는 제1 인스트럭션;클러스터에 속한 데이터 간의 제1 유사도를 기초로 상기 복수의 클러스터 각각에 대한 평가를 수행하는 제2 인스트럭션;상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 레이블링 대상 클러스터를 지정하는 제3 인스트럭션; 및동일한 레이블링 대상 클러스터에 속한 데이터 각각에 대하여 동일한 클래스 레이블을 부여하는 제4 인스트럭션을 포함하되,상기 제3 인스트럭션은,상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 일부 클러스터를 제1 레이블링 대상 클러스터로 지정하는 인스트럭션;상기 제1 레이블링 대상 클러스터로 지정되지 않은 제1 클러스터에 대하여, 상기 제1 클러스터에 속한 데이터 중에서 일부 데이터를 제외하여 제2 클러스터를 형성하는 인스트럭션; 및상기 제2 클러스터에 속한 데이터 간의 제2 유사도를 산출하고, 상기 제2 유사도가 소정의 임계 수치 이상이라는 판정에 응답하여, 상기 제2 클러스터를 상기 레이블링 대상 클러스터로 추가 지정하는 인스트럭션을 포함하는 것을 특징으로 하는,레이블링 장치
21 21
컴퓨팅 장치와 결합되어,클래스 레이블(class label)이 주어지지 않은 제1 데이터셋에 대한 클러스터링(clustering)을 수행하여, 복수의 클러스터를 구축하는 제1 단계;클러스터에 속한 데이터 간의 제1 유사도를 기초로 상기 복수의 클러스터 각각에 대한 평가를 수행하는 제2 단계;상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 레이블링 대상 클러스터를 지정하는 제3 단계; 및동일한 레이블링 대상 클러스터에 속한 데이터 각각에 대하여 동일한 클래스 레이블을 부여하는 제4 단계를 실행시키되,상기 제3 단계는,상기 평가의 결과에 기초하여, 상기 복수의 클러스터 중에서 일부 클러스터를 제1 레이블링 대상 클러스터로 지정하는 단계;상기 제1 레이블링 대상 클러스터로 지정되지 않은 제1 클러스터에 대하여, 상기 제1 클러스터에 속한 데이터 중에서 일부 데이터를 제외하여 제2 클러스터를 형성하는 단계; 및상기 제2 클러스터에 속한 데이터 간의 제2 유사도를 산출하고, 상기 제2 유사도가 소정의 임계 수치 이상이라는 판정에 응답하여, 상기 제2 클러스터를 상기 레이블링 대상 클러스터로 추가 지정하는 단계를 수행하도록 구현된 컴퓨터로 판독 가능한 기록매체에 저장된,컴퓨터 프로그램
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 (주)세인트시큐리티 정보보호핵심원천기술개발사업 악성코드 全 생명주기 통합 프로파일링 및 공격그룹 식별 기술 개발