1 |
1
음성 인식 방법으로서,(1) 노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-Aware Training) 모델을 구성하는 단계; 및(2) 상기 단계 (1)에서 구성된 UAT 모델(200)을 이용해 음성 인식을 처리하는 단계를 포함하되,상기 단계 (1)은,(1-1) 상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하는 CUN (Clean Uncertainty Network)(210)을 학습하여, 음성 불확실성 정보를 출력하는 단계;(1-2) 상기 입력 음성의 특징 및 상기 단계 (1-1)에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (Variational Inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하는 EUN (Environment Uncertainty Network)(220)을 학습하여, 환경 불확실성 정보를 출력하는 단계;(1-3) 상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN (Prediction Network)(230)를 포함하는 UAT 모델(200)을 구성하는 단계를 포함하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
|
2 |
2
제1항에 있어서, 상기 단계 (1-1)에서는,상기 깨끗한 음성 특징의 분포에 대한 평균 및 로그 분산을 상기 음성 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
|
3 |
3
제1항에 있어서, 상기 단계 (1-2)의 EUN(220)은,VAE (Variational Autoencoder)를 변형하여 인코더에서 출력된 잠재변수의 확률 분포를 모델링하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
|
4 |
4
제1항에 있어서, 상기 단계 (1-2)에서는,상기 잠재변수의 분포의 평균 및 분산을 상기 환경 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
|
5 |
5
제1항에 있어서, 상기 단계 (1-3)에서는,상기 CUN(210), EUN(220) 및 PN(230)을 연결 (concatenation)한 통합 모델을, 상기 입력 음성으로부터 음성 타깃을 추정하도록 학습하여 상기 UAT 모델(200)을 구성하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
|
6 |
6
제5항에 있어서, 상기 단계 (1-3)에서는,상기 PN(230)의 손실함수를 이용해 상기 통합 모델을 튜닝하여 성능이 향상된 상기 UAT 모델(200)을 구성하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
|
7 |
7
음성 인식 장치(100)로서,노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-aware training) 모델을 구성하는 학습부(110); 및상기 학습부(110)에서 구성된 UAT 모델(200)을 이용해 음성 인식을 처리하는 음성 인식부(120)를 포함하되,상기 UAT 모델(200)은,상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하며, 음성 불확실성 정보를 출력하는 CUN (Clean Uncertainty Network)(210);상기 입력 음성의 특징 및 상기 CUN(210)에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (variational inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하고, 환경 불확실성 정보를 출력하는 EUN (Environment Uncertainty Network)(220); 및상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN (Prediction Network)(230)을 포함하여 구성되는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
|
8 |
8
제7항에 있어서, 상기 CUN(210)은,상기 깨끗한 음성 특징의 분포에 대한 평균 및 로그 분산을 상기 음성 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
|
9 |
9
제7항에 있어서, 상기 EUN(220)은,VAE (variational autoencoder)를 변형하여 인코더에서 출력된 잠재변수의 확률 분포를 모델링하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
|
10 |
10
제7항에 있어서, 상기 EUN(220)은,상기 잠재변수의 분포의 평균 및 분산을 상기 환경 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
|
11 |
11
제7항에 있어서, 상기 UAT 모델(200)은,상기 CUN(210), EUN(220) 및 PN(230)을 연결 (concatenation)한 통합 모델로서, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하도록 학습하여 구성되는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
|
12 |
12
제11항에 있어서, 상기 UAT 모델(200)은,상기 PN(230)의 손실함수를 이용해 상기 통합 모델을 튜닝하여 성능이 향상된 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
|