1 |
1
의료원문데이터 및 의료증강데이터를 기반으로 기계학습된 모델을 이용한 개인건강정보를 인식하는 방법으로서,개인정보 및 의료기록정보를 포함하는 의료원문데이터를 로드하는 단계;상기 의료원문데이터에 포함된 문장 각각을 문장세부구성요소로 분할하는 단계;상기 각각의 문장의 상기 문장세부구성요소들 중 임의로 선택된 문장세부구성요소에 마스킹을 수행하는 단계;상기 각각의 문장의 상기 문장세부구성요소들을 기설정된 모델로 임베딩하여 마스킹되거나 혹은 원본이 유지되는 각각의 문장세부구성요소에 대한 임베딩벡터를 도출하는 단계;기계학습된 제1학습모델에 의하여, 상기 임베딩벡터 전체에 대응되는 예측문장세부구성요소의 임베딩벡터를 도출하고, 원본의 임베딩벡터 및 예측문장세부구성요소의 임베딩벡터 사이의 코사인유사도에 기초하여 의료증강데이터를 생성하는 의료증강데이터생성단계;상기 의료원문데이터 및 상기 의료증강데이터에 기초하여 기설정된 제2학습모델의 기계학습을 수행하는 단계; 및입력의료데이터를 수신하고, 상기 의료원문데이터 및 상기 의료증강데이터에 기초하여 기계학습된 제2학습모델에 의하여, 입력의료데이터에 포함된 개인정보 및 의료기록정보를 포함하는 개인건강정보를 판별하는 단계;를 포함하고,상기 의료원문데이터는 기설정된 기준에 따른 제1라벨링정보를 포함하고,상기 의료증강데이터는 기설정된 기준에 따른 제2라벨링정보를 포함하고,상기 의료증강데이터생성단계는,각각의 문장세부구성요소에 대한 임베딩벡터 전체를 기계학습된 BERT(Bidirectional Encoder Representations from Transformers)모델에 입력하여 마스킹된 문장세부구성요소에 대응하는 예측문장세부구성요소의 임베딩벡터를 도출하는 단계; 및마스킹된 문장세부구성요소의 원본의 임베딩벡터 및 예측문장세부구성요소의 임베딩벡터 사이의 코사인유사도를 도출하고, 도출된 상기 코사인유사도에 기초하여 기설정된 기준에 따라 의료증강데이터를 생성하는 단계;를 포함하고,상기 의료증강데이터를 생성하는 단계는,마스킹된 문장세부구성요소의 임베딩벡터 및 예측문장세부구성요소의 임베딩벡터에 대한 코사인유사도를 도출하는 단계;상기 코사인유사도가 기설정된 기준 이상인지 여부를 판별하는 단계; 및상기 코사인유사도가 기설정된 기준 이상인 경우, 상기 의료원문데이터의 일부 문장세부구성요소가 마스킹된 위치에 상기 예측문장세부구성요소를 삽입하여 상기 의료증강데이터를 생성하는 단계;를 포함하는, 개인건강정보를 인식하는 방법
|
2 |
2
청구항 1에 있어서,상기 개인건강정보를 판별하는 단계에서는,판별된 상기 개인건강정보에 상응하는 문장세부구성요소 각각의 세부카테고리정보를 판별할 수 있는, 개인건강정보를 인식하는 방법
|
3 |
3
청구항 1에 있어서,상기 문장세부구성요소로 분할하는 단계는,상기 각각의 문장을 단어 단위의 문장세부구성요소로 분할하는, 개인건강정보를 인식하는 방법
|
4 |
4
청구항 3에 있어서,상기 문장세부구성요소로 분할하는 단계는,분할된 단어 단위를 형태소 단위로 더 분할하고, 형태소 단위로 분할된 문장세부구성요소 사이에 복원정보를 삽입하는, 개인건강정보를 인식하는 방법
|
5 |
5
삭제
|
6 |
6
삭제
|
7 |
7
청구항 1에 있어서,상기 코사인유사도는 하기의 도출식 1에 의하여 도출되는, 개인건강정보를 인식하는 방법
|
8 |
8
청구항 1에 있어서,상기 코사인유사도가 기설정된 기준 이하인 경우, 상기 기계학습된 모델에 의하여 예측된 예측문장세부구성요소는, 상기 의료원문데이터의 일부 문장세부구성요소가 마스킹된 위치에 삽입되지 않는, 개인건강정보를 인식하는 방법
|
9 |
9
삭제
|
10 |
10
의료원문데이터 및 의료증강데이터를 기반으로 기계학습된 모델을 이용하여 개인건강정보를 인식하는, 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅 시스템으로서,상기 컴퓨팅 시스템은,개인정보 및 의료기록정보를 포함하는 의료원문데이터를 로드하는 단계;상기 의료원문데이터에 포함된 문장 각각을 문장세부구성요소로 분할하는 단계;상기 각각의 문장의 상기 문장세부구성요소들 중 임의로 선택된 문장세부구성요소에 마스킹을 수행하는 단계;상기 각각의 문장의 상기 문장세부구성요소들을 기설정된 모델로 임베딩하여 마스킹되거나 혹은 원본이 유지되는 각각의 문장세부구성요소에 대한 임베딩벡터를 도출하는 단계;기계학습된 제1학습모델에 의하여, 상기 임베딩벡터 전체에 대응되는 예측문장세부구성요소의 임베딩벡터를 도출하고, 원본의 임베딩벡터 및 예측문장세부구성요소의 임베딩벡터 사이의 코사인유사도에 기초하여 의료증강데이터를 생성하는 의료증강데이터생성단계;상기 의료원문데이터 및 상기 의료증강데이터에 기초하여 기설정된 제2학습모델의 기계학습을 수행하는 단계; 및입력의료데이터를 수신하고, 상기 의료원문데이터 및 상기 의료증강데이터에 기초하여 기계학습된 제2학습모델에 의하여, 입력의료데이터에 포함된 개인정보 및 의료기록정보를 포함하는 개인건강정보를 판별하는 단계;를 수행하고,상기 의료원문데이터는 기설정된 기준에 따른 제1라벨링정보를 포함하고,상기 의료증강데이터는 기설정된 기준에 따른 제2라벨링정보를 포함하고,상기 의료증강데이터생성단계는,각각의 문장세부구성요소에 대한 임베딩벡터 전체를 기계학습된 BERT(Bidirectional Encoder Representations from Transformers)모델에 입력하여 마스킹된 문장세부구성요소에 대응하는 예측문장세부구성요소의 임베딩벡터를 도출하는 단계; 및마스킹된 문장세부구성요소의 원본의 임베딩벡터 및 예측문장세부구성요소의 임베딩벡터 사이의 코사인유사도를 도출하고, 도출된 상기 코사인유사도에 기초하여 기설정된 기준에 따라 의료증강데이터를 생성하는 단계;를 포함하고,상기 의료증강데이터를 생성하는 단계는,마스킹된 문장세부구성요소의 임베딩벡터 및 예측문장세부구성요소의 임베딩벡터에 대한 코사인유사도를 도출하는 단계;상기 코사인유사도가 기설정된 기준 이상인지 여부를 판별하는 단계; 및상기 코사인유사도가 기설정된 기준 이상인 경우, 상기 의료원문데이터의 일부 문장세부구성요소가 마스킹된 위치에 상기 예측문장세부구성요소를 삽입하여 상기 의료증강데이터를 생성하는 단계;를 포함하는, 컴퓨팅 시스템
|
11 |
11
삭제
|