1 |
1
음성 인식 시스템에 이용되는, 은닉 마르코프 모델에 기초하는 음향 모델을 구축하는 장치에 있어서,
미리 설정된 알고리즘을 기초로, 복수의 훈련 음성의 각각에 대하여 당해 음성을 다른 음성으로부터 식별할 수 있도록 하는 음성의 특징을 추출하는 음성 특징 추출부;
상기 음성 특징 추출부에 의해 추출된 음성의 특징을 기초로, 상기 음향 모델에 속하는 모델 중 상기 훈련 음성의 각각에 대응하여 미리 설정된 정답 모델에 대한 당해 훈련 음성의 로그 우도(log likelihood)가 최대가 되도록 상기 음향 모델의 파라미터의 초기값을 결정하는 음향 모델 초기 설정부;
상기 훈련 음성의 각각에 대하여, 상기 음향 모델을 이용하여 상기 훈련 음성을 인식시킨 경우 상기 음향 모델에 속하는 모델 중 당해 음성에 대응되는 것으로 판단되는 모델인 인식 모델을 산출하는 인식 모델 산출부;
상기 음향 모델의 파라미터를 기초로 상기 훈련 음성의 상기 정답 모델에 대한 로그 우도를 연산하는 정답 모델 로그 우도 연산부;
상기 음향 모델의 파라미터를 기초로 상기 훈련 음성의 상기 인식 모델에 대한 로그 우도를 연산하는 인식 모델 로그 우도 연산부;
상기 음향 모델의 파라미터를 기초로, 아래의 수학식
(여기서, P는 우도, Ou는 상기 음성 특징 추출부에 의하여 추출된 훈련 음성의 특징, u는 훈련 음성 인덱스, θ는 상기 음향 모델의 파라미터, wu는 Ou에 대하여 미리 설정된 정답 모델, vu는 인식 모델 중 가장 높은 확률을 갖는 인식 모델, logPθ(Ou|wu)는 정답 모델의 로그 우도, logPθ(Ou|vu)는 vu의 로그 우도, εu는 소정의 양수값, αu는 라그랑지 곱수, C는 조정 파라미터임)을 최대화하는 라그랑지 곱수를 연산하는 라그랑지 곱수 연산부;
상기 라그랑지 곱수 연산부에 의해 연산된 상기 라그랑지 곱수를 기초로 상기 수학식을 최소화하는 상기 음향 모델의 파라미터를 연산하는 파라미터 연산부; 및
상기 수학식이 상기 라그랑지 곱수에 의해 최대화되는 동시에 상기 파라미터에 의해 최소화되도록, 상기 라그랑지 곱수 연산부에 의한 상기 라그랑지 곱수의 연산과 상기 파라미터 연산부에 의한 상기 파라미터의 연산이 번갈아 실시되도록 제어하는 연산 제어부를 포함하는 음향 모델 구축 장치
|
2 |
2
제1항에 있어서,
상기 라그랑지 곱수 연산부는, 그레디언트 디슨트 방법(Gradient decent method)를 기초로 상기 라그랑지 곱수를 연산하는 음향 모델 구축 장치
|
3 |
3
제1항 또는 제2항에 있어서,
상기 파라미터 연산부는, 바움 웰치(Baum-Welch) 알고리즘을 기초로 상기 음향 모델의 파라미터를 연산하는 음향 모델 구축 장치
|
4 |
4
음성 인식 시스템에 이용되는, 은닉 마르코프 모델에 기초하는 음향 모델을 구축하는 방법에 있어서,
미리 설정된 알고리즘을 기초로, 복수의 훈련 음성의 각각에 대하여 당해 음성을 다른 음성으로부터 식별할 수 있도록 하는 음성의 특징을 추출하는 음성 특징 추출 단계;
상기 음성 특징 추출 단계에서 추출된 음성의 특징을 기초로, 상기 음향 모델에 속하는 모델 중 상기 훈련 음성의 각각에 대응하여 미리 설정된 정답 모델에 대한 당해 훈련 음성의 로그 우도(log likelihood)가 최대가 되도록 상기 음향 모델의 파라미터의 초기값을 결정하는 음향 모델 초기 설정 단계;
상기 훈련 음성의 각각에 대하여, 상기 음향 모델을 이용하여 상기 훈련 음성을 인식시킨 경우 상기 음향 모델에 속하는 모델 중 당해 음성에 대응되는 것으로 판단되는 모델인 인식 모델을 산출하는 인식 모델 산출 단계;
상기 음향 모델의 파라미터를 기초로, 상기 훈련 음성의 상기 정답 모델에 대한 로그 우도 및 상기 훈련 음성의 상기 인식 모델에 대한 로그 우도를 연산하는 로그 우도 연산 단계;
상기 음향 모델의 파라미터를 기초로 아래의 수학식
(여기서, P는 우도, Ou는 상기 음성 특징 추출부에 의하여 추출된 훈련 음성의 특징, u는 훈련 음성 인덱스, θ는 상기 음향 모델의 파라미터, wu는 Ou에 대하여 미리 설정된 정답 모델, vu는 인식 모델 중 가장 높은 확률을 갖는 인식 모델, logPθ(Ou|wu)는 정답 모델의 로그 우도, logPθ(Ou|vu)는 vu의 로그 우도, εu는 소정의 양수값, αu는 라그랑지 곱수, C는 조정 파라미터임)을 최대화하는 라그랑지 곱수를 연산하는 라그랑지 곱수 연산 단계; 및
상기 라그랑지 곱수 연산 단계에서 연산된 상기 라그랑지 곱수를 기초로 상기 수학식을 최소화하는 상기 음향 모델의 파라미터를 연산하는 파라미터 연산 단계를 포함하되,
상기 라그랑지 곱수 연산 단계에서의 상기 라그랑지 곱수의 연산과 상기 파라미터 연산 단계에서의 상기 파라미터의 연산은, 상기 수학식이 상기 라그랑지 곱수에 의해 최대화되는 동시에 상기 파라미터에 의해 최소화되도록 번갈아 실시되는 음향 모델 구축 방법
|
5 |
5
제4항에 있어서,
상기 라그랑지 곱수 연산 단계에서, 상기 라그랑지 곱수는 그레디언트 디슨트 방법(Gradient decent method)를 기초로 연산되는 음향 모델 구축 방법
|
6 |
6
제4항 또는 제5항에 있어서,
상기 파라미터 연산 단계에서, 상기 음향 모델의 파라미터는 바움 웰치(Baum-Welch) 알고리즘을 기초로 연산되는 음향 모델 구축 방법
|