1 |
1
전자의무기록(Electronic Medical Record, EMR)에서의 다변량 결측값(missing value)을 대체하는 데이터 관리 방법에 있어서,기준 데이터 세트에 기초하여 대치 모델(imputation model)을 트레이닝 시키는 단계;상기 대치 모델을 사용하여 후보 데이터 세트의 결측값에 의사 라벨링(pseudo labeling)을 적용하는 단계;상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키는 단계;상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능(performance) 평가값을 서로 비교하는 단계; 및상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계를 포함하는 데이터 관리 방법
|
2 |
2
제1항에 있어서,상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는,상기 기준 데이터 세트로부터 테스트 데이터(test data) 세트를 추출하는 단계;상기 추출된 테스트 데이터 세트에 결측값을 생성하고, 예측 모델이 상기 생성된 결측값에 대한 대체값을 예측하는 단계; 및상기 테스트 데이터 세트의 실제값과 대체값의 오차를 상기 예측 모델의 성능 평가값으로 산출하는 단계를 포함하는 데이터 관리 방법
|
3 |
3
제2항에 있어서,상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는,상기 테스트 데이터 세트의 실제값과 대체값의 평균 제곱 오차(mean squared error)를 상기 예측 모델의 성능 평가값으로 산출하는 단계를 포함하는 데이터 관리 방법
|
4 |
4
제2항에 있어서,상기 테스트 데이터 세트의 실제값과 대체값의 오차를 계산함으로써 상기 예측 모델의 성능 평가값을 산출하는 단계는,전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계; 및상기 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용하여 상기 예측 모델의 성능 평가값을 산출하는 단계;를 포함하는 데이터 관리 방법
|
5 |
5
제4항에 있어서,상기 데이터 분포에 따라 항목 별로 가중치를 계산하는 단계;해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 상기 해당 항목에 대한 가중치를 계산하는 단계를 포함하는 데이터 관리 방법
|
6 |
6
제2항에 있어서,상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하는 단계는,제1 성능 평가값이 제2 성능 평가값을 초과하는 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여하는 단계; 및상기 제1 성능 평가값이 상기 제2 성능 평가값 이하인 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여하는 단계를 포함하는 데이터 관리 방법
|
7 |
7
제6항에 있어서,상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 단계는,상기 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시키는 단계를 포함하는 데이터 관리 방법
|
8 |
8
하드웨어와 결합되어 제1항 내지 제7항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램
|
9 |
9
전자의무기록에서의 다변량 결측값을 대체하는 대체하는 데이터 관리 장치에 있어서,기준 데이터 세트 및 후보 데이터 세트를 저장하는 메모리;상기 기준 데이터 세트에 기초하여 대치 모델을 트레이닝 시키고, 상기 대치 모델을 사용하여 상기 후보 데이터 세트의 결측값에 의사 라벨링을 적용하며, 상기 기준 데이터 세트에 기초하여 제1 예측 모델을 트레이닝 시키고, 상기 기준 데이터 세트에 상기 의사 라벨링이 적용된 후보 데이터 세트로부터 추출된 샘플 데이터 세트를 추가하여 제2 예측 모델을 트레이닝 시키며, 상기 제1 예측 모델 및 상기 제2 예측 모델 각각에 대한 성능 평가값을 서로 비교하고, 상기 성능 평가값 비교에 기초하여 상기 의사 라벨링이 적용된 후보 데이터 세트 중으로부터 미리 정한 조건을 만족하는 데이터를 기준 데이터로 변환시키는 프로세서를 포함하는 데이터 관리 장치
|
10 |
10
제9항에 있어서,상기 프로세서는,상기 기준 데이터 세트로부터 테스트 데이터 세트를 추출하고, 상기 추출된 테스트 데이터 세트에 결측값을 생성하며, 예측 모델이 상기 생성된 결측값에 대한 대체값을 예측하고, 상기 테스트 데이터 세트의 실제값과 대체값의 오차를 상기 예측 모델의 성능 평가값으로 산출하는데이터 관리 장치
|
11 |
11
제10항에 있어서,상기 프로세서는,상기 테스트 데이터 세트의 실제값과 대체값의 평균 제곱 오차를 상기 예측 모델의 성능 평가값으로 산출하는데이터 관리 장치
|
12 |
12
제10항에 있어서,상기 프로세서는,전체 데이터를 항목 별로 분류하고, 데이터 분포에 따라 항목 별로 가중치를 계산하며, 상기 테스트 데이터 세트를 항목 별로 분류하고, 항목 별로 산출된 실제값과 대체값의 평균 제곱 오차에 항목 별 가중치를 적용하여 상기 예측 모델의 성능 평가값을 산출하는데이터 관리 장치
|
13 |
13
제12항에 있어서,상기 프로세서는,해당 항목 내에 분포된 데이터 중 제1 분위수 데이터와 제3 분위수 데이터에 기초하여 상기 해당 항목에 대한 가중치를 계산하는데이터 관리 장치
|
14 |
14
제10항에 있어서,상기 프로세서는,제1 성능 평가값이 제2 성능 평가값을 초과하는 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제1 점수를 부여하고, 상기 제1 성능 평가값이 상기 제2 성능 평가값 이하인 경우에 응답하여, 상기 샘플 데이터 세트에 포함된 데이터 각각에 대하여 제2 점수를 부여하는데이터 관리 장치
|
15 |
15
제9항에 있어서,상기 프로세서는,상기 후보 데이터 세트 중으로부터 임계 점수 이상의 누적 점수를 갖는 후보 데이터를 기준 데이터로 변환시키는데이터 관리 장치
|