1 |
1
입력된 음성 신호로부터 잡음이 제거된 음성을 추정하여 상기 추정 음성에서 각 부대역별로 추정 음성의 불확실성 정보를 추출하고, 상기 추출된 불확실성 정보를 부대역 가중치로 이용하여 음성 특징을 추출하는 특징 추출 단계; 및
상기 부대역 가중치에 따라 음향 모델을 변환하여 상기 변환된 음향 모델과 상기 추출된 음성 특징을 기반으로 음성 인식을 수행하는 음성 인식 단계를 포함하는 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 방법
|
2 |
2
제 1항에 있어서, 상기 특징 추출 단계는,
상기 입력된 음성 신호의 각 음성 프레임에 대하여 로그 필터뱅크 에너지를 검출하는 단계;
상기 각 음성 프레임에 대한 로그 필터뱅크 에너지를 이용하여 잡음 모델을 생성하고, IMM(Interactive Multiple Model)을 기반으로 상기 생성된 잡음 모델을 갱신하는 단계;
상기 갱신된 잡음 모델을 이용하여 MMSE(Minimum Mean Squared error) 방식으로 잡음이 제거된 음성을 추정하고, 상기 추정 음성의 로그 필터뱅크 에너지를 이용하여 부대역별 불확실성 정보를 추출하는 단계;
상기 추출된 부대역별 불확실성 정보를 이용하여 부대역별 가중치를 계산하고, 상기 부대역별 가중치를 이용하여 최종 부대역 음성 특징을 추출하는 단계를 더 포함하는 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 방법
|
3 |
3
제 2항에 있어서,
상기 각 음성 프레임에 대한 로그 필터뱅크 에너지를 이용하여 잡음 모델을 생성하는 단계에서,
상기 각 음성 프레임에 대한 로그 필터뱅크 에너지(y)는,
(여기에서, x, y, n은 각각 원음성, 잡음 음성, 잡음에서 추출된 로그 스펙트럼을 나타내며, A, B, C는 선형화 계수를 나타냄)
인 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 방법
|
4 |
4
제 2항에 있어서,
상기 추정 음성의 로그 필터뱅크 에너지를 이용하여 부대역별 불확실성 정보를 추출하는 단계에서,
상기 추정 음성의 로그 필터뱅크 에너지(x)는,
(여기에서, x, y, n은 각각 원음성, 잡음 음성, 잡음에서 추출된 로그스펙트럼을 나타내고, M은 음성모델인 GMM에서의 mixture 개수를 나타내며, 는 각 mixture마다 구한 선형화 계수 및 추정된 잡음성분에 대한 함수를 나타냄)
인 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 방법
|
5 |
5
제 2항에 있어서,
상기 추정 음성의 로그 필터뱅크 에너지를 이용하여 부대역별 불확실성 정보를 추출하는 단계에서,
상기 부대역별 불확실성 정보(U)는,
(여기에서, x, y, n은 각각 원음성, 잡음 음성, 잡음에서 추출된 로그스펙트럼을 나타내고, M은 음성모델인 GMM에서의 mixture 개수를 나타내며, 는 각 mixture마다 구한 선형화 계수 및 추정된 잡음성분에 대한 함수를 나타냄)
에 의해 추출되는 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 방법
|
6 |
6
제 2항에 있어서,
상기 추출된 부대역별 불확실성 정보를 이용하여 부대역별 가중치를 계산하는 단계에서,
상기 부대역별 가중치(nws)는,
(여기에서, nws는 s번째 부대역의 최종 가중치를 의미하고, bs와 es 는 s번째 부대역이 포함하는 로그 필터뱅크 에너지에서의 시작과 끝을 나타냄)
에 의해 계산되는 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 방법
|
7 |
7
제 2항에 있어서,
상기 부대역별 가중치를 이용하여 최종 부대역 음성 특징을 추출하는 단계에서,
상기 최종 부대역 음성 특징(SBMFCC)은,
(여기에서, MFCCs는 부대역 s에 해당하는 필터뱅크 에너지(Ek)에 부대역 가중치(nws)를 곱해서 구해진 부대역 음성 특징 MFCC를 나타내고, SBMFCC는 상기 부대역마다 구해진 부대역 음성 특징 MFCCs를 더한 최종 부대역 음성 특징 MFCC를 나타냄)
에 의해 추출되는 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 방법
|
8 |
8
제 1항에 있어서, 상기 음성 인식 단계는,
상기 음향 모델의 가우시안 평균값을 로그 필터뱅크 에너지 형태로 바꾼 후 상기 부대역 가중치를 이용하여 상기 음향 모델을 변환하는 단계;
상기 변환된 음향 모델과 상기 추출된 음성 특징을 기반으로 음성 인식을 수행하는 단계를 더 포함하는 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 방법
|
9 |
9
입력된 음성 신호로부터 잡음이 제거된 음성을 추정하여 상기 추정 음성에서 각 부대역별로 추정 음성의 불확실성 정보를 추출하고, 상기 추출된 불확실성 정보를 부대역 가중치로 이용하여 음성 특징을 추출하는 특징 추출 모듈; 및
상기 부대역 가중치에 따라 음향 모델을 변환하여 상기 변환된 음향 모델과 상기 추출된 음성 특징을 기반으로 음성 인식을 수행하는 음성 인식 모듈을 포함하는 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 장치
|
10 |
10
제 9항에 있어서, 상기 특징 추출 모듈은,
상기 입력된 음성 신호를 분리하여 음성 프레임을 생성하는 프레임 생성부;
상기 각 음성 프레임에 대한 로그 필터뱅크 에너지를 검출하는 로그 필터뱅크 에너지 검출부;
상기 각 음성 프레임에 대한 로그 필터뱅크 에너지를 이용하여 잡음 모델을 생성하는 잡음 모델링부;
IMM(Interactive Multiple Model)을 기반으로 상기 생성된 잡음 모델을 갱신하는 IMM 기반 잡음 모델 갱신부;
상기 갱신된 잡음 모델을 이용하여 MMSE(Minimum Mean Squared error) 방식으로 음성을 추정하는 MMSE 추정부;
상기 추정 음성의 로그 필터뱅크 에너지를 이용하여 부대역별 불확실성 정보를 추출하는 불확실성 추출부;
상기 추출된 부대역별 불확실성 정보를 이용하여 부대역별 가중치를 계산하는 부대역 가중치 계산부; 및
상기 부대역별 가중치를 이용하여 최종 부대역 음성 특징을 추출하는 부대역 특징 추출부를 더 포함하는 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 장치
|
11 |
11
제 9항에 있어서, 상기 음성 인식 모듈은,
상기 음향 모델의 가우시안 평균값을 로그 필터뱅크 에너지 형태로 바꾸어 상기 부대역 가중치를 이용하여 상기 음향 모델을 변환하는 모델 변환부; 및
상기 변환된 음향 모델과 상기 추출된 음성 특징을 기반으로 음성 인식을 수행하는 음성 인식부를 더 포함하는 것을 특징으로 하는 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성 인식 장치
|