1 |
1
음성 정보를 입력 정보로 하고, 상기 음성 정보에 대해 대응되는 제1텍스트 정보를 출력 정보로 하는 제1인공신경망 모듈을 포함하는 음향 모델(Acoustic Model);상기 제1텍스트 정보를 입력 정보로 하고, 언어 모델의 특징에 기초하여 상기 제1텍스트 정보에 대응 되는 제2텍스트 정보를 출력 정보로 출력하는 제2인공신경망 모듈을 포함하는 언어 모델(Language Model); 및상기 음향 모델이 출력하는 상기 음향 모델의 제1확률 분포 정보 및 상기 언어 모델이 출력하는 상기 언어 모델의 제2확률 분포 정보를 기초로 결 확률 분포를 생성하고, 상기 결합 확률 분포를 기초로 E2E(End-to-End) 음성 모델을 생성하는 E2E 음성 모델 생성부;를 포함하고,상기 E2E 음성 모델 생성부는,상기 음향 모델 및 상기 언어 모델에 대해 각각 캘리브레이션을 진행한 후, 보정된 상기 음향 모델 및 상기 언어 모델에 기초하여 상기 E2E 음성 모델을 생성하는 캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 장치
|
2 |
2
제 1항에 있어서,상기 E2E 음성 모델 생성부는,상기 제1확률 분포 정보에 대해 캘리브레이션을 수행하여 제1보정 파라미터를 생성한 후, 상기 제1보정 파라미터를 기초로 상기 결합 확률 분포를 생성하는,캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 장치
|
3 |
3
제1항에 있어서,상기 E2E 음성 모델 생성부는,상기 제2확률 분포 정보에 대해 캘리브레이션을 수행하여 제2보정 파라미터)를 생성한 후, 상기 제2보정 파라미터를 기초로 상기 결합 확률 분포를 생성하는,캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 장치
|
4 |
4
제 2항에 있어서,상기 E2E 음성 모델 생성부는,상기 제1확률 분포 정보에 대응되는 레퍼런스 데이터인 제1밸리데이션 세트(validation set)를 기초로 상기 제1확률 분포 정보에 대해 캘리브레이션을 진행하여 상기 제1보정 파라미터를 생성하는,캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 장치
|
5 |
5
제 3항에 있어서,상기 E2E 음성 모델 생성부는,상기 제2확률 분포 정보에 대응되는 레퍼런스 데이터인 제2밸리데이션 세트(validation set)를 기초로 상기 제2확률 분포 정보에 대해 캘리브레이션을 진행하여 상기 제2보정 파라미터를 생성하는,캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 장치
|
6 |
6
제1항에 있어서,상기 E2E 음성 모델 생성부는,상기 캘리브레이션을 진행하기 전에, 상기 음향 모델에 대해서는 상기 제1텍스트 정보에 대응되는 제1학습 세트(train set)를 기초로 상기 음향 모델의 손실 함수를 최소화하는 방향으로 학습을 수행하는, 캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 장치
|
7 |
7
제6항에 있어서,상기 E2E 음성 모델 생성부는,상기 캘리브레이션을 진행하기 전에, 상기 음향 모델에 대해서는 상기 제2텍스트 정보에 대응되는 제2학습 세트(train set)를 기초로 상기 음향 모델의 손실 함수를 최소화하는 방향으로 학습을 수행하는, 캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 장치
|
8 |
8
음성 정보를 입력 정보로 하고, 상기 음성 정보에 대해 대응되는 제1텍스트 정보를 출력 정보로 하는 제1인공신경망 모듈을 포함하는 음향 모델(Acoustic Model)을 이용하여 상기 음향 모델의 제1확률 분포 정보를 출력하는 단계;상기 제1텍스트 정보를 입력 정보로 하고, 언어 모델의 특징에 기초하여 상기 제1텍스트 정보에 대응 되는 제2텍스트 정보를 출력 정보로 출력하는 제2인공신경망 모듈을 포함하는 언어 모델(Language Model)를 이용하여 상기 언어 모델의 제2확률 분포 정보를 출력하는 단계;상기 제1확률 분포 정보 및 상기 제2확률 분포 정보를 기초로 결합 확률 분포를 생성하고, 상기 결합 확률 분포를 기초로 E2E(End-to-End) 모델을 생성하는 E2E 모델 음성 생성 단계를 포함하고,상기 E2E 음성 모델 생성 단계는, 상기 음향 모델 및 상기 언어 모델에 대해 각각 캘리브레이션을 진행한 후, 보정된 상기 음향 모델 및 상기 언어 모델에 기초하여 상기 E2E 음성 모델을 생성하는 단계를 포함하는, 캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 방법
|
9 |
9
제 8항에 있어서,상기 E2E 모델 생성 단계는, 상기 제1확률 분포 정보에 대해 캘리브레이션을 수행하여 제1보정 파라미터(scaling parameter)를 생성한 후, 상기 제1보정 파라미터를 기초로 상기 결합 확률 분포를 생성하는 단계; 및상기 제2확률 분포 정보에 대해 캘리브레이션을 수행하여 제2보정 파라미터(scaling parameter)를 생성한 후, 상기 제2보정 파라미터를 기초로 상기 결합 확률 분포를 생성하는 단계;를 포함하는, 캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 방법
|
10 |
10
제 9항에 있어서,상기 E2E 모델 생성 단계는, 상기 제1확률 분포 정보에 대응되는 레퍼런스 데이터인 제1밸리데이션 세트(validation set)를 기초로 상기 제1확률 분포 정보에 대해 캘리브레이션을 진행하여 상기 제1보정 파라미터를 생성하는 단계; 및상기 제2확률 분포 정보에 대응되는 레퍼런스 데이터인 제2밸리데이션 세트(validation set)를 기초로 상기 제2확률 분포 정보에 대해 캘리브레이션을 진행하여 상기 제2보정 파라미터를 생성하는 단계;를 포함하는,캘리브레이션 보정을 이용하여 E2E 음성 인식 모델을 생성하는 음성 인식 모델 생성 방법
|