1 |
1
마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및 상기 음성특징 추출부에서 추출된 상기 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 상기 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하는 것을 특징으로 하는 음성 화자 인식 장치
|
2 |
2
제 1항에 있어서, 상기 음성특징 추출부는, 상기 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 상기 특징 벡터를 추출하는 것을 특징으로 하는 음성 화자 인식 장치
|
3 |
3
제 1항에 있어서, 상기 화자인식부는, 상기 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 잔향환경 확률 추정부; 상기 잔향환경 확률 추정부에서 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 화자인식 모델 선택부; 상기 화자인식 모델 선택부에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 화자인식 점수 계산부; 및 상기 화자인식 점수 계산부에서 계산한 상기 화자인식 점수와 상기 잔향환경 확률 추정부에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 상기 최종 화자인식 점수를 통해 화자를 인식하는 화자인식 점수 가중결합부;를 포함하는 것을 특징으로 하는 음성 화자 인식 장치
|
4 |
4
제 3항에 있어서, 상기 잔향환경 확률 추정부는, 잔향효과가 첨가된 학습 데이터를 저장하는 음성학습 DB; 상기 음성학습 DB에 저장된 상기 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하는 학습 데이터 분류부; 및 상기 특징 벡터가 상기 학습 데이터 분류부에서 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 확률을 추정하는 심화신경망 학습부;를 포함하는 것을 특징으로 하는 음성 화자 인식 장치
|
5 |
5
제 3항에 있어서, 상기 학습 데이터는 RT60값을 기준으로 0
|
6 |
6
제 3항에 있어서, 상기 심화신경망 학습부는, 아래식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 장치
|
7 |
7
제 3항에 있어서, 상기 화자인식 모델 선택부에서 화자를 인식하기 위한 모델은 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 장치
|
8 |
8
제 7항에 있어서, 상기 화자인식 점수 계산부는, 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 장치
|
9 |
9
제 3항에 있어서, 상기 화자인식 점수 가중결합부는, 아래식 2를 통해 상기 최종 화자인식 점수(s)를 계산하는 것을 특징으로 하는 음성 화자 인식 장치
|
10 |
10
음성특징 추출부가 마이크를 통해 음성신호를 입력받는 단계; 상기 음성특징 추출부가 상기 음성신호로부터 특징신호를 추출하여 특징 벡터를 추출하는 단계; 상기 화자인식부가 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계; 상기 화자인식부가 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 단계; 상기 화자인식부가 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 단계; 및 상기 화자인식부가 계산한 상기 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하는 단계를 포함하는 것을 특징으로 하는 음성 화자 인식 방법
|
11 |
11
제 10항에 있어서, 상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는, 상기 화자인식부가 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 상기 다수의 학습 데이터 세트로 분류하고, 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정하는 것을 특징으로 하는 음성 화자 인식 방법
|
12 |
12
제 11항에 있어서, 상기 학습 데이터는, RT60값을 기준으로 0
|
13 |
13
제 10항에 있어서, 상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는, 상기 화자인식부가 아래식 3과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 방법
|
14 |
14
제 10항에 있어서, 상기 화자를 인식하기 위한 모델을 선택하는 단계는 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 방법
|
15 |
15
제 14항에 있어서, 상기 화자인식 점수를 계산하는 단계는, 상기 화자인식부가 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 방법
|
16 |
16
제 10항에 있어서, 상기 최종 화자인식 점수를 계산하는 단계는, 상기 화자인식부가 아래식 4를 통해 상기 최종 화자인식 점수(s)를 계산하는 것을 특징으로 하는 음성 화자 인식 방법
|