1 |
1
어휘 밖 단어표현 처리하기 위한 시스템에 의해 수행되는 어휘 밖 단어표현 처리 방법은, 전체 학습 데이터의 기설정된 비율 내에 해당하는 수의 오타를 생성하여 어휘 데이터셋에 저장하는 단계; 어휘 밖 단어가 입력되면, 한글 단어임베딩 모델을 이용하여 단어임베딩을 생성하는 단계; 및상기 어휘 밖 단어에 대한 단어 표현을 학습하는 단계를 포함하는 어휘 밖 단어표현 처리 방법
|
2 |
2
제1항에 있어서, 상기 오타를 생성하여 어휘 데이터셋에 저장하는 단계는, 오타 대상 단어가 입력되면 한글 텍스트를 자모 단위로 분리하는 단계; 및분리된 자모를 기설정된 조건에 따라 상기 오타로 생성하는 단계를 포함하는 것을 특징으로 하는 어휘 밖 단어표현 처리 방법
|
3 |
3
제1항에 있어서, 상기 단어임베딩을 생성하는 단계는, 상기 어휘 밖 단어를 자모 단위로 분리하는 단계; 상기 자모 단위에 해당하는 문자 표현을 연결하여 문자임베딩을 생성하는 단계; 및상기 문자임베딩을 합성곱 연산을 통해 서로 다른 크기의 필터에 대해 적용하여 피처 맵을 생성하는 단계를 포함하는 것을 특징으로 하는 어휘 밖 단어표현 처리 방법
|
4 |
4
제3항에 있어서, 상기 단어임베딩을 생성하는 단계는, 상기 피처 맵에서 채널 어텐션 메커니즘을 통해 최종 특징 벡터를 생성하는 단계; 및 상기 최종 특징 벡터를 기존 단어 임베딩과 동일한 크기의 벡터로 변환하여 단어임베딩을 생성하는 단계를 더 포함하는 것을 특징으로 하는 어휘 밖 단어표현 처리 방법
|
5 |
5
제4항에 있어서, 생성된 피처 맵에서 유의미한 특징을 추출하기 위하여 평균풀링 및 최대풀링 연산을 이용하는 것을 특징으로 하는 어휘 밖 단어표현 처리 방법
|
6 |
6
제5항에 있어서, 상기 채널 어텐션 메커니즘을 통해 최종 특징 벡터를 생성하는 단계는, 상기 평균풀링 및 상기 최대풀링 연산을 통해 생성된 피처 맵의 특징 벡터에서 가중치 행렬 및 소프트맥스 함수를 이용해 상기 특징 벡터를 생성하는 것을 특징으로 하는 어휘 밖 단어표현 처리 방법
|
7 |
7
제1항에 있어서, 상기 어휘 밖 단어에 대한 단어 표현을 학습하는 단계는, 생성된 단어임베딩과 기학습된 단어임베딩 정보를 매칭하여 학습하는 단계; 및 상기 생성된 단어임베딩과 주변 단어임베딩을 매칭하여 학습하는 단계를 포함하는 것을 특징으로 하는, 어휘 밖 단어표현 처리 방법
|
8 |
8
제7항에 있어서, 상기 기학습된 단어임베딩 정보를 매칭하여 학습하는 단계는, 상기 생성된 단어임베딩과 기학습된 단어 임베딩 정보 간의 L2 손실(loss)을 사용하여 매칭하는 것을 특징으로 하는 어휘 밖 단어표현 처리 방법
|
9 |
9
제7항에 있어서, 상기 주변단어임베딩을 매칭하여 학습하는 단계는, 목표 단어를 입력한 경우 주변 단어가 나올 로그-확률의 평균을 사용하여 매칭하는 것을 특징으로 하는 어휘 밖 단어표현 처리 방법
|
10 |
10
제1항 내지 제9항 중 어느 하나의 항에 따른 어휘 밖 단어표현 처리 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체
|
11 |
11
자연어 처리에서의 단어 처리 방법을 수행하기 위한 프로그램이 기록되고 어휘 데이터셋이 저장되는 저장부; 및상기 프로그램을 제어하고 어휘 밖 단어가 입력되면 전체 학습 데이터의 기설정된 비율 내에 해당하는 수의 오타를 생성하여 상기 어휘 데이터셋에 저장하며, 어휘 밖 단어가 입력되면 한글 단어임베딩 모델을 이용하여 단어임베딩을 생성하며, 상기 어휘 밖 단어에 대한 단어 표현을 학습하는 제어부를 포함하는 어휘 밖 단어표현 처리 시스템
|
12 |
12
제11항에 있어서, 상기 제어부는, 오타 대상 단어가 입력되면 한글 텍스트를 자모 단위로 분리하고, 분리된 자모를 기설정된 조건에 따라 상기 오타로 생성하는 것을 특징으로 하는 어휘 밖 단어표현 처리 시스템
|
13 |
13
제11항에 있어서, 상기 한글 단어임베딩 모델은, 상기 어휘 밖 단어를 자모 단위로 분리하고, 상기 자모 단위에 해당하는 문자 표현을 연결하여 문자임베딩을 생성하며, 상기 문자임베딩을 합성곱 연산을 통해 서로 다른 크기의 필터에 대해 적용하여 피처 맵을 생성하는 컨볼루션 모듈을 포함하는 것을 특징으로 하는 어휘 밖 단어표현 처리 시스템
|
14 |
14
제13항에 있어서, 상기 컨볼루션 모듈은, 상기 피처 맵에서 채널 어텐션 메커니즘을 통해 최종 특징 벡터를 생성하고, 상기 최종 특징 벡터를 기존 단어 임베딩과 동일한 크기의 벡터로 변환하여 단어임베딩을 생성하는 것을 특징으로 하는 어휘 밖 단어표현 처리 시스템
|
15 |
15
제13항에 있어서, 상기 한글 단어임베딩 모델은, L2 손실(loss)을 사용하여 생성된 단어임베딩과 기학습된 단어 임베딩 정보 간의 매칭하거나, 목표 단어를 입력한 경우 주변 단어가 나올 로그-확률의 평균을 사용하여 상기 생성된 단어임베딩과 주변 단어임베딩을 매칭하여 학습하는 최적화 모듈을 더 포함하는 것을 특징으로 하는 어휘 밖 단어표현 처리 시스템
|