1 |
1
각각의 화자에 대해 차원의 개의 가우시안으로 구성된 HMM(Hidden Markov Model; 은닉 마르코프 모델),GMM(Gaussian mixture model; 가우시안 믹스쳐 모델)을 선택적으로 사용하여 개의 SD(Speaker Dependent;화자 종속) 모델들을 구성한 후 평균 벡터(mean vector)만을 고려하여 구성된 SD(Speaker Dependent) 모델을 사용하여 관찰 행렬을 구성하는 관찰 행렬 구성부;
구성된 행렬에 대해 SVD(Singular Value Decomposition)를 적용하여 비대칭 쌍일차 모델 파라미터를 구하고, 화자의 스타일을 반영한 공간으로 선형 변환하여 쌍일차 모델을 구성하는 쌍일차 모델 구성부;
구성된 쌍일차 모델을 이용해 새로운 화자의 적응 데이터가 들어오면 스타일 팩터만을 추정하여 화자 적응 모델을 구성하는 화자 적응부;
구성된 화자 적응 모델을 이용하여 사용자의 테스트 음성 인식을 수행하는 음성 인식부;를 포함하는 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 시스템
|
2 |
2
쌍일차 모델을 이용한 화자 적응을 위하여 관찰 행렬을 구성하는 단계에서,
차원의 개의 가우시안으로 구성된 HMM(Hidden Markov Model),GMM(Gaussian mixture model)을 선택적으로 사용하여 개의 SD(Speaker Dependent) 모델들을 구성하고, s번째 화자의 관찰 행렬은 가우시안 평균 벡터를 이용하여,
으로 나타내고,
이고,
여기서, 관찰 행렬의 크기는 이고,
으로 정규화되는 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 방법
|
3 |
3
제 2 항에 있어서, 관찰 행렬에 SVD(Singular Value Decomposition; 특이값 분해)를 적용하면, 로 분리되고,
여기서, U는 SD x SD 의 행렬의 고유벡터 행렬, V는 C x C 의 행렬의 고유벡터 행렬이고, S는 SD x C의 특이값이 SD와 C의 크기중 작은 것을 선택한 min(SD,C) x min(SD,C)의 부 정방행렬의 주대각에 위치하는 행렬이며, 전체 고유벡터 수 중에 주요한 J(≤C) 개의 고유벡터(eigenvector)수를 사용하여 스타일 스페시픽 매트릭스(style-specific matrix) 와 콘텐트 베이시스 매트릭스(content basis matrix) 를 정의하면,
여기서, 는 크기의 에서 s번째 화자의 스타일 스페시픽 매트릭스(style-specific matrix)이고, 는 (J x C) 크기의 에서 c번째 콘텐트 베이시스 벡터(content basis vector)이고,
s번째 화자의 c번째 콘텐트 평균 벡터(content mean vector)를 구하면, J의 값에 따라 이고, J=C일 때 등호가 성립하며,에 대해서도 위와 동일한 SVD 적용 및 스타일 스페시픽 매트릭스(style-specific matrix) 와 콘텐트 베이시스 매트릭스(content basis matrix) 를 동일하게 적용할 수 있으며, 여기서, s번째 화자의 c번째 콘텐트 평균 벡터(content mean vector)는 으로 정리되는 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 방법
|
4 |
4
제 2 항에 있어서, 새로운 화자의 적응 데이터가 들어오면 비대칭 쌍일차 모델을 사용하여 화자 적응 모델을,
으로 정의하고,
는 인 새로운 화자 의 스타일 스페시픽 매트릭스(style-specific matrix)를 나타내며, 는 c번째 콘텐트 베이시스 벡터(content basis vector)이며, 는 새로운 화자 의 c번째 콘텐트 벡터(content vector)인 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 방법
|
5 |
5
제 4 항에 있어서, 새로운 화자의 적응데이터인 가 주어지면 전체 유사도(total likelihood) 가 최대가 되는 것은 다음과 같은 보조 함수(auxiliary function) 을 반복적(iterative)으로 수행하면 되고,
여기서, 와 는 각각 현재 및 재추정 후 모델이며,는 새로운 화자 의 t번째 D차원 적응데이터이고,
그리고 새로운 화자 의 관찰 벡터열 과 모델 가 주어졌을 때 t 시간에 콘텐트(content) c 에 있을 사후확률은 이고,
재추정 모델의 공분산 행렬 는 SI(Speaker Independent;화자 독립) 모델과 동일하다고 가정하며 평균 벡터(mean vector)에 대해서만 선형변환을 수행하여 적응데이터 에 대하여 가 최대가 되는 는,
이를 정리하면,
인 것을 특징으로 하는 쌍일차 모델을 이용한 화자 적응 방법
|