1 |
1
화자 음성 신호에 대해 UBM(Universal Background Model) 조건 하에서 Baum-Welch 통계를 실시하여, 상기 화자 음성 신호의 특징을 추출하는 화자 음성 특징 추출 방법에 있어서,음성 신호에 대해 UBM 조건 하에서 Baum-Welch 통계를 실시하고, 입력 음성 신호에 종속적인 입력 음성의 분포적 특성을 나타내는 랜덤 은닉 변수의 분포를 추출하는 단계;화자 음성 신호에 대해 UBM조건 하에서 실시한 Baum-Welch 통계 값을 기반으로 최대 사후화 과정(maximum a posteriori)에 따른 제1 GMM 슈퍼벡터를 산출하는 단계;상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값을 추출하는 단계;상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값을 이용하여, 제2 GMM 슈퍼벡터를 산출하는 단계; 및상기 랜덤 은닉 변수의 분포와 상기 제1 GMM 슈퍼벡터의 쌍이 입력값으로 입력되면 상기 입력값이 입력 음성을 기반으로 생성된 것으로 분류하고, 상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값과 상기 제2 GMM 슈퍼벡터의 쌍이 입력값으로 입력되면 상기 입력값이 샘플링 값을 기반으로 생성된 것으로 분류하는 단계;를 포함하는 것을 특징으로 하는 화자 음성 특징 추출 방법
|
2 |
2
제1항에 있어서,상기 제2 GMM(Gaussian Mixture Model) 슈퍼벡터의 입력 음성에 대한 로그 우도(log-likelihood)는 하기 [수학식 1]을 통해 산출하는 것을 특징으로 하는 화자 음성 특징 추출 방법
|
3 |
3
제1항에 있어서,상기 제1 GMM 슈퍼벡터를 산출하는 단계는,하기 [수학식 2]를 이용하여 제1 GMM 슈퍼벡터를 산출하는 것을 특징으로 하는 화자 음성 특징 추출 방법
|
4 |
4
제1항에 있어서,상기 분류하는 단계는,시그모이드(sigmoid)함수를 이용한, 심층신경망(Deep Neural Network;DNN) 학습을 이용하는 것을 특징으로 하는 화자 음성 특징 추출 방법
|
5 |
5
제1항에 있어서,상기 분류하는 단계는,하기 [수학식 3]을 목적함수로 하여, 입력이, 상기 랜덤 은닉 변수의 분포와 제1 GMM 슈퍼벡터의 쌍 인 경우, 1을 출력하고,입력이, 상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값과 제2 GMM 슈퍼벡터의 쌍 인 경우, 0을 출력하는 것을 특징으로 하는 화자 음성 특징 추출 방법
|
6 |
6
제1항에 있어서, 제2 GMM 수퍼벡터를 산출하는 단계는,제2 GMM 수퍼벡터의 로그 우도가 최대가 되기 위해, 하기 [수학식 4]를 목적함수로 이용하는 것을 특징으로 하는 화자 음성 특징 추출 방법
|
7 |
7
화자 음성 신호에 대해 UBM(Universal Background Model) 조건 하에서 Baum-Welch 통계를 실시하고, 입력 음성 신호에 종속적인 입력 음성의 분포적 특성을 나타내는 랜덤 은닉 변수(random latent variable)의 분포를 추출하는 인코더;상기 화자 음성 신호에 대해 UBM 조건 하에서 실시한 Baum-Welch 통계 값을 이용하여 최대 사후화 과정(maximum a posteriori)에 따른 제1 GMM(Gaussian Mixture Model) 슈퍼벡터를 산출하는 GMM 생성부;상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값을 추출하고, 이를 이용하여 제2 GMM(Gaussian Mixture Model) 슈퍼벡터 산출하는 디코더; 및상기 랜덤 은닉 변수의 분포와 상기 제1 GMM 슈퍼벡터의 쌍이 입력값으로 입력되면 상기 입력값이 입력 음성을 기반으로 생성된 것으로 분류하고, 상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값과 상기 제2 GMM 슈퍼벡터의 쌍이 입력값으로 입력되면 상기 입력값이 샘플링 값을 기반으로 생성된 것으로 분류하는 디스크리미네이터;를 포함하는 것을 특징으로 하는 화자 음성 특징 추출 장치
|
8 |
8
제7항에 있어서,상기 디스크리미네이터는, 상기 디스크리미네이터의 출력값인 를 시그모이드(sigmoid)함수를 이용한, 심층신경망(Deep Neural Network;DNN) 학습을 이용하여 계산하는 것을 특징으로 하는 화자 음성 특징 추출 장치
|
9 |
9
제8항에 있어서,상기 디스크리미네이터(discriminator)는,하기 [수학식 3]을 목적함수로 하여, 입력이, 랜덤 은닉 변수의 분포와 제1 GMM 슈퍼벡터의 쌍 경우, 1을 출력하고,입력이, 상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값과 제2 GMM 슈퍼벡터의 쌍 인 경우, 0을 출력하며,상기 제2 GMM 슈퍼벡터의 로그 우도가 최대가 되도록 하기 [수학식 4]를 목적함수로 이용하는 것을 특징으로 하는 화자 음성 특징 추출 장치
|
10 |
10
제1항 내지 제6항 중 어느 한 항에 기재된 화자 음성 특징 추출 방법을 실행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
|