1 |
1
강화 학습을 이용한 데이터 전처리 장치에 있어서, 컨트롤러 모델과 차일드 모델을 구비하여, 결측값을 대치하는 결측값 대치 모듈;을 포함하며, 상기 컨트롤러 모델은 결측값에 대치할 값들의 벡터를 샘플링해주는 것을 특징으로 하며, 상기 차일드 모델은 상기 컨트롤러 모델에 의해 샘플링된 값들을 결측값에 대치시킨 후 성능을 계산하는 것을 특징으로 하며, 상기 차일드 모델에 의해 계산된 성능을 이용하여 상기 컨트롤러 모델을 학습시키는 것을 특징으로 하는 강화 학습을 이용한 데이터 전처리 장치
|
2 |
2
제1항에 있어서, 상기 컨트롤러 모델에 의해 샘플링된 벡터는 결측값들에 대치될 값들의 분포의 평균으로 이루어진 벡터와 표준 편차로 이루어진 벡터인 것을 특징으로 하는 데이터 전처리 장치
|
3 |
3
제1항에 있어서, 상기 컨트롤러 모델은, 데이터의 결측값에 이전 액션의 값인 대치값을 채워 넣은 후 1차원 배열로 변환시킨 벡터가 입력되며, 입력된 데이터들에 대하여 학습하여 결측값에 대치할 값들을 샘플링하는 신경망 구조; 및상기 신경망 구조로부터 제공된 샘플링된 값들에 대하여 Fully-Connected layer를 거쳐 가우시안 분포의 평균(μ)과 표준편차(σ)를 생성하여 제공하는 연속적인 액션 공간에서의 정책 생성 네트워크;를 구비하는 것을 특징으로 하는 데이터 전처리 장치
|
4 |
4
제1항에 있어서, 상기 차일드 모델은,결측값이 대치된 데이터들 중 학습 데이터로 학습시키고 시험 데이터로 정확도를 계산하며,현재 상태에서 계산된 정확도와 이전 상태에서 계산된 정확도의 차이를 보상값으로 정의하는 것을 특징으로 하며, 상기 컨트롤러 모델은 상기 차일드 모델에 의해 계산된 보상값을 기반으로 하여 PPO(Proximal Policy Optimization) 알고리즘을 적용하여 강화 학습시키는 것을 특징으로 하는 데이터 전처리 장치
|
5 |
5
제1항에 있어서, 상기 컨트롤러 모델은 PPO 알고리즘을 이용한 정책 기반 강화 학습을 통해 업데이트시키는 것을 특징으로 하며, 상기 정책 기반 강화 학습의 목표는 정책을 근사하는 정책 함수()를 최대화시키는 정책 함수 파라미터(θ)를 찾는 것을 특징으로 하는 데이터 전처리 장치
|
6 |
6
제1항에 있어서, 상기 데이터 전처리 장치는, DQN(Deep Q-Network) 알고리즘을 이용한 강화 학습을 통해 불균형 데이터를 분류하는 불균형 데이터 분류 모듈;을 더 구비하고, 상기 DQN 알고리즘은 CNN(Convolution Neural Network)을 이용하여 Q 함수를 학습하는 것을 특징으로 하au,상기 Q 함수는 강화 학습에서 상태-액션 조합의 질을 계산하는 함수인 것을 특징으로 하는 데이터 전처리 장치
|
7 |
7
제6항에 있어서, 상기 DQN 알고리즘은, 입력 데이터가 들어오면 입력 데이터가 속하는 클래스를 예측하고, 옳게 예측하면 양의 보상을 주고 옳지 않게 예측하면 음의 보상을 주는 것을 특징으로 하며, 보상을 주기 위하여, 입력 데이터마다 클래스별 샘플수를 계산하고, 소수 클래스는 전체 데이터수를 가장 많은 클래스별 샘플수로 나누어준 값을 보상으로 주고, 다수 클래스는 전체 데이터수를 자장 작은 클래스별 샘플수로 나누어준 값을 보상으로 줌으로써, 소수 범주에 있는 데이터가 더 잘 분류되도록 구성된 것을 특징으로 하는 데이터 전처리 장치
|
8 |
8
강화 학습을 이용한 데이터 전처리 방법에 있어서, (a1) 컨트롤러 모델에 의해 결측값에 대치할 값들의 벡터를 샘플링해주는 단계; (a2) 차일드 모델에 의해 상기 컨트롤러 모델에 의해 샘플링된 값들을 결측값에 대치시킨 후 성능을 계산하는 단계; (a3) 상기 차일드 모델에 의해 계산된 성능을 이용하여 상기 컨트롤러 모델을 학습시키는 단계;를 포함하여, 결측값을 대치하는 결측값을 대치하는 것을 특징으로 하는 강화 학습을 이용한 데이터 전처리 방법
|
9 |
9
제8항에 있어서, 상기 (a1) 단계는, 데이터의 결측값에 이전 액션의 값인 대치값을 채워 넣은 후 1차원 배열로 변환시킨 벡터가 신경망 구조로 입력되고,신경망 구조로 입력된 데이터들에 대하여 학습하여 결측값에 대치할 값들을 샘플링하고, 상기 신경망 구조로부터 제공된 샘플링된 값들에 대하여 Fully-Connected layer를 거쳐 가우시안 분포의 평균(μ)과 표준편차(σ)를 생성하여 제공하는 것을 특징으로 하는 데이터 전처리 방법
|
10 |
10
제8항에 있어서, 상기 (a2) 단계는,결측값이 대치된 데이터들 중 학습 데이터로 학습시키고 시험 데이터로 정확도를 계산하며,현재 상태에서 계산된 정확도와 이전 상태에서 계산된 정확도의 차이를 보상값으로 정의하는 것을 특징으로 하며, 상기 컨트롤러 모델은 상기 차일드 모델에 의해 계산된 보상값을 기반으로 하여 PPO(Proximal Policy Optimization) 알고리즘을 적용하여 강화 학습시키는 것을 특징으로 하는 데이터 전처리 방법
|
11 |
11
제8항에 있어서, 상기 데이터 전처리 방법은, (b) 결측값이 대치된 데이터들에 대하여, DQN(Deep Q-Network) 알고리즘을 이용한 강화 학습을 통해 불균형 데이터를 분류하는 단계;를 더 구비하고, 상기 DQN 알고리즘은 CNN(Convolution Neural Network)을 이용하여 Q 함수를 학습하는 것을 특징으로 하며,상기 Q 함수는 강화 학습에서 상태-액션 조합의 질을 계산하는 함수인 것을 특징으로 하는 데이터 전처리 방법
|
12 |
12
제11항에 있어서, 상기 DQN 알고리즘은, 입력 데이터가 들어오면 입력 데이터가 속하는 클래스를 예측하고, 옳게 예측하면 양의 보상을 주고 옳지 않게 예측하면 음의 보상을 주는 것을 특징으로 하며, 보상을 주기 위하여, 입력 데이터마다 클래스별 샘플수를 계산하고, 소수 클래스는 전체 데이터수를 가장 많은 클래스별 샘플수로 나누어준 값을 보상으로 주고, 다수 클래스는 전체 데이터수를 자장 작은 클래스별 샘플수로 나누어준 값을 보상으로 줌으로써, 소수 범주에 있는 데이터가 더 잘 분류되도록 구성된 것을 특징으로 하는 데이터 전처리 방법
|