1 |
1
(a) 어휘 목록 생성을 위하여 한국어 데이터를 수신하는 단계;(b) 상기 수신한 한국어 데이터에 대해 부분 단어(subword) 분리 알고리즘을 수행하여 상기 알고리즘에 따라 한국어 데이터에 포함된 단어들을 부분 단어로 분리하는 단계; 및(c) 상기 분리된 부분 단어에 대해 정규화(regularization) 알고리즘을 수행하여 어휘 목록을 생성하는 단계를 포함하는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법
|
2 |
2
제1항에 있어서,상기 (b) 단계에서,상기 부분 단어 분리 알고리즘은 다음의 수학식으로 정의되는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법
|
3 |
3
제1항에 있어서,상기 (b) 단계는,상기 부분 단어 분리 알고리즘을 이용하여, 상기 수신한 한국어 데이터에 포함된 단어들을 왼쪽 부분 단어 및 오른쪽 부분 단어로 분리하는 단계인,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법
|
4 |
4
제3항에 있어서,상기 (b) 단계는,상기 오른쪽 부분 단어가 존재하는 경우,상기 오른쪽 부분 단어에 대하여 상기 부분 단어 분리 알고리즘을 수행하는 단계를 반복하는 단계를 더 포함하는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법
|
5 |
5
제1항에 있어서,상기 (c) 단계에서,상기 정규화 알고리즘은 다음의 수학식으로 정의되는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법
|
6 |
6
제5항에 있어서,상기 (c) 단계는,상기 regScore 값이 큰 순서대로 기설정된 비율만큼 상기 부분 단어를 삭제하는 단계를 더 포함하는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법
|
7 |
7
제6항에 있어서,상기 (c) 단계는,상기 어휘 목록의 기설정된 단어 개수를 만족할 때까지 상기 부분 단어를 삭제하는 단계를 반복하는 단계를 더 포함하는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법
|
8 |
8
제1항 내지 제7항 중 어느 한 항에 기재된 방법을 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
|
9 |
9
어휘 목록 생성을 위하여 한국어 데이터를 수신하는 데이터 수신부;상기 수신한 한국어 데이터에 대하여 부분 단어 분리 알고리즘을 수행하여 상기 알고리즘에 따라 한국에 데이터에 포함된 단어들을 부분 단어로 분리하는 제1 연산부; 및상기 분리된 부분 단어에 대해 정규화 알고리즘을 수행하여 상기 어휘 목록을 생성하는 제2 연산부를 포함하는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 장치
|
10 |
10
제9항에 있어서,상기 부분 단어 분리 알고리즘은 다음의 수학식으로 정의되는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 장치
|
11 |
11
제9항에 있어서,상기 부분 단어 분리 알고리즘은, 상기 수신한 한국어 데이터에 포함된 단어들을 왼쪽 부분 단어 및 오른쪽 부분 단어로 분리하는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 장치
|
12 |
12
제11항에 있어서,상기 제1 연산부는 상기 한국어 데이터에 포함된 단어들을 분리한 후,상기 오른쪽 부분 단어가 존재하는 경우,상기 오른쪽 부분 단어에 대하여 상기 부분 단어 분리 알고리즘을 반복하여 수행하는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 장치
|
13 |
13
제9항에 있어서,상기 정규화 알고리즘은 다음의 수학식으로 정의되는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 장치
|
14 |
14
제13항에 있어서,상기 제2 연산부는,상기 regScore 값이 큰 순서대로 기설정된 비율만큼 상기 부분 단어를 삭제하는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 장치
|
15 |
15
제14항에 있어서,상기 제2 연산부는,상기 어휘 목록의 기설정된 단어 개수를 만족할 때까지 상기 부분 단어 삭제를 반복하여 수행하는,한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 장치
|