맞춤기술찾기

이전대상기술

메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치 및 방법

  • 기술번호 : KST2022019133
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 오픈 데이터셋의 데이터셋 특성들을 이용하여 메타데이터셋을 생성하고, 사용자가 사용하려는 데이터셋이 입력될 경우, 메타데이터셋을 이용하여 사용자가 사용하려는 데이터셋에 대하여 최적의 알고리즘 종류 및 파라미터 값 그리고 데이터 샘플링 방법을 추천하는 기술에 관한 것으로, 본 발명의 일실시예에 따른 메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치는 오픈 데이터 베이스로부터 오픈 데이터셋을 수집하는 데이터셋 수집부, 상기 수집된 오픈 데이터셋의 복수의 데이터셋 특성을 추출하고, 상기 추출된 복수의 데이터셋 특성을 전처리하는 특성 추출부, 상기 전처리된 복수의 데이터셋 특성에 따른 샘플링 방법 및 분류 알고리즘을 매핑하는 매핑 처리부, 상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 기반하여 추천 샘플링 방법 및 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하고, 상기 생성된 선정 룰 베이스 및 상기 전처리된 복수의 데이터셋 특성을 포함하는 메타데이터셋을 생성하는 메타데이터셋 생성부 및 사용자로부터 입력된 사용자 데이터셋에 대하여 상기 생성된 메타데이터셋을 이용하여 맞춤형 샘플링 방법 및 맞춤형 분류 알고리즘 중 적어도 하나를 추천하는 추천부를 포함할 수 있다.
Int. CL G06N 20/00 (2019.01.01) G06N 5/02 (2006.01.01)
CPC G06N 20/00(2013.01) G06N 5/02(2013.01)
출원번호/일자 1020210037802 (2021.03.24)
출원인 경희대학교 산학협력단
등록번호/일자
공개번호/일자 10-2022-0132804 (2022.10.04) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2021.03.24)
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 경희대학교 산학협력단 대한민국 경기도 용인시 기흥구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 권오병 서울특별시 송파구
2 김정훈 서울특별시 동대문구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 김연권 대한민국 서울특별시 송파구 법원로 ***, ****/****호(문정동, 문정대명벨리온)(시안특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2021.03.24 수리 (Accepted) 1-1-2021-0344048-77
2 선행기술조사의뢰서
Request for Prior Art Search
2022.09.16 수리 (Accepted) 9-1-9999-9999999-89
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
오픈 데이터 베이스로부터 오픈 데이터셋을 수집하는 데이터셋 수집부;상기 수집된 오픈 데이터셋의 복수의 데이터셋 특성을 추출하고, 상기 추출된 복수의 데이터셋 특성을 전처리하는 특성 추출부;상기 전처리된 복수의 데이터셋 특성에 따른 샘플링 방법 및 분류 알고리즘을 매핑하는 매핑 처리부;상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 기반하여 추천 샘플링 방법 및 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하고, 상기 생성된 선정 룰 베이스 및 상기 전처리된 복수의 데이터셋 특성을 포함하는 메타데이터셋을 생성하는 메타데이터셋 생성부; 및사용자로부터 입력된 사용자 데이터셋에 대하여 상기 생성된 메타데이터셋을 이용하여 맞춤형 샘플링 방법 및 맞춤형 분류 알고리즘 중 적어도 하나를 추천하는 추천부를 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
2 2
제1항에 있어서,상기 특성 추출부는 상기 수집된 오픈 데이터셋에서 변수의 개수, 인스턴스의 개수, 클래스의 개수, 클래스의 치우침 정도, 클래스의 엔트로피, 변수의 겹침정도, 실루엣 점수, 허브스코어, 변수의 엔트로피, 데이터셋의 선형성 및 이웃성을 포함하는 상기 복수의 데이터셋 특성을 추출하고, 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
3 3
제2항에 있어서,상기 특성 추출부는 상기 수집된 오픈 데이터셋을 복수의 폴드(fold)로 분류하고, 상기 분류된 복수의 폴드(fold) 중 하나를 제외한 나머지 폴드(fold)에 포함된 데이터셋을 복수의 훈련 데이터셋으로 결정하고, 상기 결정된 복수의 훈련 데이터셋으로부터 상기 복수의 데이터셋 특성을 추출하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
4 4
제3항에 있어서,상기 특성 추출부는 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 결측치가 존재하고, 상기 결측치가 존재하는 변수가 수치형인 경우 해당 클래스의 평균값을 이용하여 상기 결측치를 처리함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
5 5
제3항에 있어서,상기 특성 추출부는 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 결측치가 존재하고, 상기 결측치가 존재하는 변수가 명목형인 경우 해당 클래스의 최빈값을 이용하여 상기 결측치를 처리함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
6 6
제3항에 있어서,상기 특성 추출부는 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 클래스 불균형이 존재하는 경우, 상기 존재하는 클래스 불균형에 따라 다수 클래스(majority class)를 제거하는 과소 표집 방법(under sampling) 및 소수 클래스(minority class)를 다수 클래스(majority class)에 맞게 복제하는 과대 표집 방법(over sampling) 중 어느 하나의 클래스 불균형 해소 방법을 이용하여 상기 존재하는 클래스 불균형을 해소함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
7 7
제2항에 있어서,상기 매핑 처리부는 상기 전처리된 복수의 데이터셋 특성을 복수의 샘플링 방법에 적용하고, 상기 적용된 복수의 샘플링 방법 각각에서의 샘플링 방법 정확도를 산출하고, 상기 산출된 샘플링 방법 정확도에 따라 상기 전처리된 복수의 데이터셋 특성과 샘플링 방법을 매핑하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
8 8
제2항에 있어서,상기 매핑 처리부는 상기 전처리된 복수의 데이터셋 특성을 복수의 분류 알고리즘에 적용하고, 상기 적용된 복수의 분류 알고리즘 각각에서의 분류 알고리즘 정확도를 산출하고, 상기 산출된 분류 알고리즘 정확도에 따라 상기 전처리된 복수의 데이터셋 특성과 분류 알고리즘을 매핑하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
9 9
제8항에 있어서,상기 매핑 처리부는 상기 전처리된 복수의 데이터셋 특성에 대한 상기 적용된 복수의 분류 알고리즘 각각에서의 분류 알고리즘의 특성과 하이퍼파라미터에 기반하여 상기 분류 알고리즘 정확도를 산출하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
10 10
제1항에 있어서,상기 메타데이터셋 생성부는 상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 적용된 상기 전처리된 복수의 데이터셋 특성을 필터링하고, 상기 필터링된 복수의 데이터셋 특성과 관련된 복수의 데이터셋을 상기 추천 샘플링 방법 및 상기 추천 분류 알고리즘에 투입하여 기계학습하고, 상기 기계학습에 기반하여 상기 추천 샘플링 방법 및 상기 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
11 11
제10항에 있어서,상기 메타데이터셋 생성부는 상기 필터링된 복수의 데이터셋 특성과 관련된 복수의 데이터셋과 상기 생성된 선정 룰 베이스를 포함하는 메타데이터셋을 생성하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
12 12
제11항에 있어서,상기 생성된 메타데이터셋을 저장하는 메타데이터셋 저장부를 더 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
13 13
제1항에 있어서,상기 특성 추출부는 상기 입력된 사용자 데이터셋에서 변수의 개수, 인스턴스의 개수, 클래스의 개수, 클래스의 치우침 정도, 클래스의 엔트로피, 변수의 겹침정도, 실루엣 점수, 허브스코어, 변수의 엔트로피, 데이터셋의 선형성 및 이웃성을 포함하는 복수의 데이터셋 특성을 추출하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
14 14
제13항에 있어서,상기 특성 추출부는 상기 입력된 사용자 데이터셋을 복수의 폴드(fold)로 분류하고, 상기 분류된 복수의 폴드(fold) 중 하나를 제외한 나머지 폴드(fold)에 포함된 데이터셋을 복수의 훈련 데이터셋으로 결정하고, 상기 결정된 복수의 훈련 데이터셋으로부터 상기 복수의 데이터셋 특성을 추출하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
15 15
제14항에 있어서,상기 특성 추출부는 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 결측치가 존재하고, 상기 결측치가 존재하는 변수가 수치형인 경우 해당 클래스의 평균값을 이용하고, 상기 결측치가 존재하는 변수가 명목형인 경우 해당 클래스의 최빈값을 이용하여 상기 결측치를 처리함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하고, 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 클래스 불균형이 존재하는 경우, 상기 존재하는 클래스 불균형에 따라 다수 클래스(majority class)를 제거하는 과소 표집 방법(under sampling) 및 소수 클래스(minority class)를 다수 클래스(majority class)에 맞게 복제하는 과대 표집 방법(over sampling) 중 어느 하나의 클래스 불균형 해소 방법을 이용하여 상기 존재하는 클래스 불균형을 해소함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
16 16
제15항에 있어서,상기 추천부는 상기 사용자 데이터셋의 전처리된 복수의 데이터셋 특성을 인식하고, 상기 생성된 메타데이터셋에서 상기 인식된 복수의 데이터셋 특성과 관련된 복수의 데이터셋 특성을 확인하고, 상기 확인된 복수의 데이터셋 특성과 상기 생성된 선정 룰 베이스에 기반하여 상기 맞춤형 샘플링 방법 및 상기 맞춤형 분류 알고리즘 중 적어도 하나를 추천하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
17 17
데이터셋 수집부에서, 오픈 데이터 베이스로부터 오픈 데이터셋을 수집하는 단계;특성 추출부에서, 상기 수집된 오픈 데이터셋의 복수의 데이터셋 특성을 추출하고, 상기 추출된 복수의 데이터셋 특성을 전처리하는 단계;매핑 처리부에서, 상기 전처리된 복수의 데이터셋 특성에 따른 샘플링 방법 및 분류 알고리즘을 매핑하는 단계;메타데이터셋 생성부에서, 상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 기반하여 추천 샘플링 방법 및 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하고, 상기 생성된 선정 룰 베이스 및 상기 전처리된 복수의 데이터셋 특성을 포함하는 메타데이터셋을 생성하는 단계; 및추천부에서, 사용자로부터 입력된 사용자 데이터셋에 대하여 상기 생성된 메타데이터셋을 이용하여 맞춤형 샘플링 방법 및 맞춤형 분류 알고리즘 중 적어도 하나를 추천하는 단계를 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 방법
18 18
제17항에 있어서,상기 수집된 오픈 데이터셋의 복수의 데이터셋 특성을 추출하고, 상기 추출된 복수의 데이터셋 특성을 전처리하는 단계는,상기 수집된 오픈 데이터셋을 복수의 폴드(fold)로 분류하고, 상기 분류된 복수의 폴드(fold) 중 하나를 제외한 나머지 폴드(fold)에 포함된 데이터셋을 복수의 훈련 데이터셋으로 결정하고, 상기 결정된 복수의 훈련 데이터셋으로부터 상기 수집된 오픈 데이터셋에서 변수의 개수, 인스턴스의 개수, 클래스의 개수, 클래스의 치우침 정도, 클래스의 엔트로피, 변수의 겹침정도, 실루엣 점수, 허브스코어, 변수의 엔트로피, 데이터셋의 선형성 및 이웃성을 포함하는 상기 복수의 데이터셋 특성을 추출하는 단계;상기 복수의 데이터셋 특성이 추출된 데이터셋에서 결측치가 존재하고, 상기 결측치가 존재하는 변수가 수치형인 경우 해당 클래스의 평균값을 이용하여 상기 결측치를 처리하며, 상기 결측치가 존재하는 변수가 명목형인 경우 해당 클래스의 최빈값을 이용하여 상기 결측치를 처리함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 단계; 및상기 복수의 데이터셋 특성이 추출된 데이터셋에서 클래스 불균형이 존재하는 경우, 상기 존재하는 클래스 불균형에 따라 다수 클래스(majority class)를 제거하는 과소 표집 방법(under sampling) 및 소수 클래스(minority class)를 다수 클래스(majority class)에 맞게 복제하는 과대 표집 방법(over sampling) 중 어느 하나의 클래스 불균형 해소 방법을 이용하여 상기 존재하는 클래스 불균형을 해소함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 단계를 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 방법
19 19
제17항에 있어서,상기 전처리된 복수의 데이터셋 특성에 따른 샘플링 방법 및 분류 알고리즘을 매핑하는 단계는,상기 전처리된 복수의 데이터셋 특성을 복수의 샘플링 방법에 적용하고, 상기 적용된 복수의 샘플링 방법 각각에서의 샘플링 방법 정확도를 산출하고, 상기 산출된 샘플링 방법 정확도에 따라 상기 전처리된 복수의 데이터셋 특성과 샘플링 방법을 매핑하는 단계; 및상기 전처리된 복수의 데이터셋 특성을 복수의 분류 알고리즘에 적용하고, 상기 적용된 복수의 분류 알고리즘 각각에서의 분류 알고리즘의 특성과 하이퍼파라미터에 기반하여 분류 알고리즘 정확도를 산출하고, 상기 산출된 분류 알고리즘 정확도에 따라 상기 전처리된 복수의 데이터셋 특성과 분류 알고리즘을 매핑하는 단계를 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 방법
20 20
제17항에 있어서,상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 기반하여 추천 샘플링 방법 및 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하고, 상기 생성된 선정 룰 베이스 및 상기 전처리된 복수의 데이터셋 특성을 포함하는 메타데이터셋을 생성하는 단계는,상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 적용된 상기 전처리된 복수의 데이터셋 특성을 필터링하고, 상기 필터링된 복수의 데이터셋 특성과 관련된 복수의 데이터셋을 상기 추천 샘플링 방법 및 상기 추천 분류 알고리즘에 투입하여 기계학습하고, 상기 기계학습에 기반하여 상기 추천 샘플링 방법 및 상기 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하는 단계; 및상기 필터링된 복수의 데이터셋 특성과 관련된 복수의 데이터셋과 상기 생성된 선정 룰 베이스를 포함하는 메타데이터셋을 생성하는 단계를 포함하는 것을 특징으로하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.