1 |
1
오픈 데이터 베이스로부터 오픈 데이터셋을 수집하는 데이터셋 수집부;상기 수집된 오픈 데이터셋의 복수의 데이터셋 특성을 추출하고, 상기 추출된 복수의 데이터셋 특성을 전처리하는 특성 추출부;상기 전처리된 복수의 데이터셋 특성에 따른 샘플링 방법 및 분류 알고리즘을 매핑하는 매핑 처리부;상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 기반하여 추천 샘플링 방법 및 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하고, 상기 생성된 선정 룰 베이스 및 상기 전처리된 복수의 데이터셋 특성을 포함하는 메타데이터셋을 생성하는 메타데이터셋 생성부; 및사용자로부터 입력된 사용자 데이터셋에 대하여 상기 생성된 메타데이터셋을 이용하여 맞춤형 샘플링 방법 및 맞춤형 분류 알고리즘 중 적어도 하나를 추천하는 추천부를 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
2 |
2
제1항에 있어서,상기 특성 추출부는 상기 수집된 오픈 데이터셋에서 변수의 개수, 인스턴스의 개수, 클래스의 개수, 클래스의 치우침 정도, 클래스의 엔트로피, 변수의 겹침정도, 실루엣 점수, 허브스코어, 변수의 엔트로피, 데이터셋의 선형성 및 이웃성을 포함하는 상기 복수의 데이터셋 특성을 추출하고, 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
3 |
3
제2항에 있어서,상기 특성 추출부는 상기 수집된 오픈 데이터셋을 복수의 폴드(fold)로 분류하고, 상기 분류된 복수의 폴드(fold) 중 하나를 제외한 나머지 폴드(fold)에 포함된 데이터셋을 복수의 훈련 데이터셋으로 결정하고, 상기 결정된 복수의 훈련 데이터셋으로부터 상기 복수의 데이터셋 특성을 추출하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
4 |
4
제3항에 있어서,상기 특성 추출부는 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 결측치가 존재하고, 상기 결측치가 존재하는 변수가 수치형인 경우 해당 클래스의 평균값을 이용하여 상기 결측치를 처리함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
5 |
5
제3항에 있어서,상기 특성 추출부는 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 결측치가 존재하고, 상기 결측치가 존재하는 변수가 명목형인 경우 해당 클래스의 최빈값을 이용하여 상기 결측치를 처리함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
6 |
6
제3항에 있어서,상기 특성 추출부는 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 클래스 불균형이 존재하는 경우, 상기 존재하는 클래스 불균형에 따라 다수 클래스(majority class)를 제거하는 과소 표집 방법(under sampling) 및 소수 클래스(minority class)를 다수 클래스(majority class)에 맞게 복제하는 과대 표집 방법(over sampling) 중 어느 하나의 클래스 불균형 해소 방법을 이용하여 상기 존재하는 클래스 불균형을 해소함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
7 |
7
제2항에 있어서,상기 매핑 처리부는 상기 전처리된 복수의 데이터셋 특성을 복수의 샘플링 방법에 적용하고, 상기 적용된 복수의 샘플링 방법 각각에서의 샘플링 방법 정확도를 산출하고, 상기 산출된 샘플링 방법 정확도에 따라 상기 전처리된 복수의 데이터셋 특성과 샘플링 방법을 매핑하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
8 |
8
제2항에 있어서,상기 매핑 처리부는 상기 전처리된 복수의 데이터셋 특성을 복수의 분류 알고리즘에 적용하고, 상기 적용된 복수의 분류 알고리즘 각각에서의 분류 알고리즘 정확도를 산출하고, 상기 산출된 분류 알고리즘 정확도에 따라 상기 전처리된 복수의 데이터셋 특성과 분류 알고리즘을 매핑하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
9 |
9
제8항에 있어서,상기 매핑 처리부는 상기 전처리된 복수의 데이터셋 특성에 대한 상기 적용된 복수의 분류 알고리즘 각각에서의 분류 알고리즘의 특성과 하이퍼파라미터에 기반하여 상기 분류 알고리즘 정확도를 산출하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
10 |
10
제1항에 있어서,상기 메타데이터셋 생성부는 상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 적용된 상기 전처리된 복수의 데이터셋 특성을 필터링하고, 상기 필터링된 복수의 데이터셋 특성과 관련된 복수의 데이터셋을 상기 추천 샘플링 방법 및 상기 추천 분류 알고리즘에 투입하여 기계학습하고, 상기 기계학습에 기반하여 상기 추천 샘플링 방법 및 상기 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
11 |
11
제10항에 있어서,상기 메타데이터셋 생성부는 상기 필터링된 복수의 데이터셋 특성과 관련된 복수의 데이터셋과 상기 생성된 선정 룰 베이스를 포함하는 메타데이터셋을 생성하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
12 |
12
제11항에 있어서,상기 생성된 메타데이터셋을 저장하는 메타데이터셋 저장부를 더 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
13 |
13
제1항에 있어서,상기 특성 추출부는 상기 입력된 사용자 데이터셋에서 변수의 개수, 인스턴스의 개수, 클래스의 개수, 클래스의 치우침 정도, 클래스의 엔트로피, 변수의 겹침정도, 실루엣 점수, 허브스코어, 변수의 엔트로피, 데이터셋의 선형성 및 이웃성을 포함하는 복수의 데이터셋 특성을 추출하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
14 |
14
제13항에 있어서,상기 특성 추출부는 상기 입력된 사용자 데이터셋을 복수의 폴드(fold)로 분류하고, 상기 분류된 복수의 폴드(fold) 중 하나를 제외한 나머지 폴드(fold)에 포함된 데이터셋을 복수의 훈련 데이터셋으로 결정하고, 상기 결정된 복수의 훈련 데이터셋으로부터 상기 복수의 데이터셋 특성을 추출하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
15 |
15
제14항에 있어서,상기 특성 추출부는 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 결측치가 존재하고, 상기 결측치가 존재하는 변수가 수치형인 경우 해당 클래스의 평균값을 이용하고, 상기 결측치가 존재하는 변수가 명목형인 경우 해당 클래스의 최빈값을 이용하여 상기 결측치를 처리함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하고, 상기 복수의 데이터셋 특성이 추출된 데이터셋에서 클래스 불균형이 존재하는 경우, 상기 존재하는 클래스 불균형에 따라 다수 클래스(majority class)를 제거하는 과소 표집 방법(under sampling) 및 소수 클래스(minority class)를 다수 클래스(majority class)에 맞게 복제하는 과대 표집 방법(over sampling) 중 어느 하나의 클래스 불균형 해소 방법을 이용하여 상기 존재하는 클래스 불균형을 해소함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
16 |
16
제15항에 있어서,상기 추천부는 상기 사용자 데이터셋의 전처리된 복수의 데이터셋 특성을 인식하고, 상기 생성된 메타데이터셋에서 상기 인식된 복수의 데이터셋 특성과 관련된 복수의 데이터셋 특성을 확인하고, 상기 확인된 복수의 데이터셋 특성과 상기 생성된 선정 룰 베이스에 기반하여 상기 맞춤형 샘플링 방법 및 상기 맞춤형 분류 알고리즘 중 적어도 하나를 추천하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 장치
|
17 |
17
데이터셋 수집부에서, 오픈 데이터 베이스로부터 오픈 데이터셋을 수집하는 단계;특성 추출부에서, 상기 수집된 오픈 데이터셋의 복수의 데이터셋 특성을 추출하고, 상기 추출된 복수의 데이터셋 특성을 전처리하는 단계;매핑 처리부에서, 상기 전처리된 복수의 데이터셋 특성에 따른 샘플링 방법 및 분류 알고리즘을 매핑하는 단계;메타데이터셋 생성부에서, 상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 기반하여 추천 샘플링 방법 및 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하고, 상기 생성된 선정 룰 베이스 및 상기 전처리된 복수의 데이터셋 특성을 포함하는 메타데이터셋을 생성하는 단계; 및추천부에서, 사용자로부터 입력된 사용자 데이터셋에 대하여 상기 생성된 메타데이터셋을 이용하여 맞춤형 샘플링 방법 및 맞춤형 분류 알고리즘 중 적어도 하나를 추천하는 단계를 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 방법
|
18 |
18
제17항에 있어서,상기 수집된 오픈 데이터셋의 복수의 데이터셋 특성을 추출하고, 상기 추출된 복수의 데이터셋 특성을 전처리하는 단계는,상기 수집된 오픈 데이터셋을 복수의 폴드(fold)로 분류하고, 상기 분류된 복수의 폴드(fold) 중 하나를 제외한 나머지 폴드(fold)에 포함된 데이터셋을 복수의 훈련 데이터셋으로 결정하고, 상기 결정된 복수의 훈련 데이터셋으로부터 상기 수집된 오픈 데이터셋에서 변수의 개수, 인스턴스의 개수, 클래스의 개수, 클래스의 치우침 정도, 클래스의 엔트로피, 변수의 겹침정도, 실루엣 점수, 허브스코어, 변수의 엔트로피, 데이터셋의 선형성 및 이웃성을 포함하는 상기 복수의 데이터셋 특성을 추출하는 단계;상기 복수의 데이터셋 특성이 추출된 데이터셋에서 결측치가 존재하고, 상기 결측치가 존재하는 변수가 수치형인 경우 해당 클래스의 평균값을 이용하여 상기 결측치를 처리하며, 상기 결측치가 존재하는 변수가 명목형인 경우 해당 클래스의 최빈값을 이용하여 상기 결측치를 처리함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 단계; 및상기 복수의 데이터셋 특성이 추출된 데이터셋에서 클래스 불균형이 존재하는 경우, 상기 존재하는 클래스 불균형에 따라 다수 클래스(majority class)를 제거하는 과소 표집 방법(under sampling) 및 소수 클래스(minority class)를 다수 클래스(majority class)에 맞게 복제하는 과대 표집 방법(over sampling) 중 어느 하나의 클래스 불균형 해소 방법을 이용하여 상기 존재하는 클래스 불균형을 해소함에 따라 상기 추출된 복수의 데이터셋 특성을 전처리하는 단계를 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 방법
|
19 |
19
제17항에 있어서,상기 전처리된 복수의 데이터셋 특성에 따른 샘플링 방법 및 분류 알고리즘을 매핑하는 단계는,상기 전처리된 복수의 데이터셋 특성을 복수의 샘플링 방법에 적용하고, 상기 적용된 복수의 샘플링 방법 각각에서의 샘플링 방법 정확도를 산출하고, 상기 산출된 샘플링 방법 정확도에 따라 상기 전처리된 복수의 데이터셋 특성과 샘플링 방법을 매핑하는 단계; 및상기 전처리된 복수의 데이터셋 특성을 복수의 분류 알고리즘에 적용하고, 상기 적용된 복수의 분류 알고리즘 각각에서의 분류 알고리즘의 특성과 하이퍼파라미터에 기반하여 분류 알고리즘 정확도를 산출하고, 상기 산출된 분류 알고리즘 정확도에 따라 상기 전처리된 복수의 데이터셋 특성과 분류 알고리즘을 매핑하는 단계를 포함하는 것을 특징으로 하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 방법
|
20 |
20
제17항에 있어서,상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 기반하여 추천 샘플링 방법 및 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하고, 상기 생성된 선정 룰 베이스 및 상기 전처리된 복수의 데이터셋 특성을 포함하는 메타데이터셋을 생성하는 단계는,상기 매핑된 샘플링 방법과 상기 매핑된 분류 알고리즘에 적용된 상기 전처리된 복수의 데이터셋 특성을 필터링하고, 상기 필터링된 복수의 데이터셋 특성과 관련된 복수의 데이터셋을 상기 추천 샘플링 방법 및 상기 추천 분류 알고리즘에 투입하여 기계학습하고, 상기 기계학습에 기반하여 상기 추천 샘플링 방법 및 상기 추천 분류 알고리즘을 선정하기 위한 선정 룰 베이스를 생성하는 단계; 및상기 필터링된 복수의 데이터셋 특성과 관련된 복수의 데이터셋과 상기 생성된 선정 룰 베이스를 포함하는 메타데이터셋을 생성하는 단계를 포함하는 것을 특징으로하는메타데이터셋을 이용한 샘플링 방법 및 분류 알고리즘 추천 방법
|