1 |
1
제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 단계; 및 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계를 포함하는, 심화신경망 기반의 음성 끝점 검출 방법
|
2 |
2
제1항에 있어서,상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델은, 순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델인 것을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 방법
|
3 |
3
제1항에 있어서, 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 상기 제1 심화신경망 모델에 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계를 포함하는, 심화신경망 기반의 음성 끝점 검출 방법
|
4 |
4
제3항에 있어서,상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 상기 제2 심화신경망 모델에 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 단계를 더 포함하는, 심화신경망 기반의 음성 끝점 검출 방법
|
5 |
5
제4항에 있어서,상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 음성 끝점 검출을 위한 상기 제1 심화신경망 모델, 상기 제2 심화신경망 모델 및 상기 덴스(dense) 층을 학습하는 단계를 더 포함하고, 상기 음성 끝점 검출을 위한 상기 제1 심화신경망 모델, 상기 제2 심화신경망 모델 및 상기 덴스(dense) 층을 학습하는 단계는, 상기 제1 심화신경망 모델을 음향특징벡터와 각 프레임별 음성 상태를 학습하는 단계; 상기 제2 심화신경망 모델을 음향특징벡터와 학습된 음성인식기를 통하여 얻어진 1-best decoding hypothesis로부터 EOS에 대한 확률을 직접적으로 학습하는 단계; 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉층을 결합하는 단계; 결합된 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 상기 덴스(dense) 층을 학습하는 단계; 및 전체 덴스(dense) 층과 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 상기 음향 특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화하는 단계를 포함하는, 심화신경망 기반의 음성 끝점 검출 방법
|
6 |
6
제5항에 있어서, 상기 음성 끝점 검출을 위한 상기 제1 심화신경망 모델, 상기 제2 심화신경망 모델 및 상기 덴스(dense) 층을 학습하는 단계는, 교차 엔트로피 오차(cross entropy error) 함수, 평균 제곱 오차(mean square error) 함수 및 교차 엔트로피 오차(cross entropy error) 함수를 각각 비용함수로 사용하여, 상기 비용함수가 감소하도록 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 학습하는 것을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 방법
|
7 |
7
제1항에 있어서,상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 상기 음향 특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하는 단계; 및 추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS로 정의하고, 상기 EOS가 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 단계를 포함하는, 심화신경망 기반의 음성 끝점 검출 방법
|
8 |
8
제1항에 있어서,상기 제2 심화신경망 모델은, 상기 음향 특징벡터열을 디코딩한 결과 중 각 프레임별 가장 확률이 높은 단어열 중 마지막 N-1개 단어와 N-gram 언어모델을 통하여 이후 EOS 토큰이 등장할 수 있는 확률을 추정하는 것을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 방법
|
9 |
9
제1항에 있어서, 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 단계는, 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터 및 덴스(dense) 층의 모델 파라미터를 확률적 기울기 강하(Stochastic Gradient Descent, SGD) 기반의 역전파(back-propagation) 알고리즘을 통하여 결합 학습하여 성능을 향상시키는 것을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 방법
|
10 |
10
제1 심화신경망(Deep Neural Network, DNN) 모델 및 제2 심화신경망 모델에 마이크 입력신호로부터 추출된 음향 특징벡터열을 입력하는 특징 추출부; 및 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태를 결합하여 덴스(dense) 층을 통하여 음성 끝점을 검출하는 심화신경망 모델부를 포함하는, 심화신경망 기반의 음성 끝점 검출 장치
|
11 |
11
제10항에 있어서,상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델은, 순환신경망(Recurrent Neural Network, RNN) 중 GRU(Gated Recurrent Unit) 기반의 심화신경망 모델인 것을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 장치
|
12 |
12
제10항에 있어서, 상기 심화신경망 모델부의 상기 제1 심화신경망 모델은, 학습된 음향특징벡터 임베딩 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 것을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 장치
|
13 |
13
제12항에 있어서,상기 심화신경망 모델부의 상기 제2 심화신경망 모델은, 음성인식 컨텍스트 기반의 음성 끝점 검출을 위한 심화신경망 모델의 모델 파라미터를 복사(transfer)하는 것을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 장치
|
14 |
14
제12항에 있어서,상기 심화신경망 모델부는, 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터를 고정시키고, 결합된 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 마지막 은닉 층의 은닉 상태와 프레임별 음성 상태를 모델링하는 상기 덴스(dense) 층을 학습하며, 전체 덴스(dense) 층과 상기 제1 심화신경망 모델 및 상기 제2 심화신경망 모델의 모델 파라미터를 결합 학습하여, 상기 음향 특징벡터열로부터 음성 상태를 검출하기 위한 모델을 최적화하는 것을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 장치
|
15 |
15
제10항에 있어서,상기 심화신경망 모델부는, 상기 음향 특징벡터열로부터 각 프레임을 음성 프레임, 발화 중 비음성 프레임, 발화 전 비음성 프레임 및 발화 후 비음성 프레임 중 적어도 어느 하나로 분류하여 음성 상태를 추정하고, 추정된 상기 프레임별 음성 상태 중 발화 후 비음성 구간에 해당되는 노드의 확률 값을 EOS로 정의하고, 상기 EOS가 문턱 값보다 커지는 순간을 음성의 끝점으로 검출하는 것을 특징으로 하는, 심화신경망 기반의 음성 끝점 검출 장치
|