1 |
1
원거리 발화를 선택적으로 보상하는 심층 신경망 기반 화자 특징 강화를 위한 장치에 있어서, 화자 및 발화거리가 알려지지 않은 음성벡터가 입력되면, 상기 음성벡터의 잡음 또는 잔향의 양에 따라 0 내지 1 사이의 값을 가지는 거리반비례지수를 산출하는 잡음잔향검출망; 상기 음성벡터 및 상기 거리반비례지수를 곱하여 거리반비례음성벡터를 출력하는 곱셈기; 상기 음성벡터의 발화거리가 기 설정된 원거리에 근접할수록 기 설정된 근거리에서 입력된 음성 신호의 특징을 추출한 근거리음성벡터에 가까운 값을 가지며, 상기 음성벡터의 발화거리가 기 설정된 근거리에 근접할수록 0 벡터에 가까운 값을 가지는 모사근거리음성벡터를 도출하는 원거리보상망; 상기 거리반비례음성벡터와 상기 모사근거리음성벡터를 더하여 보상음성벡터를 도출하는 덧셈기; 및 상기 도출된 보상음성벡터에 대한 가중치가 적용되는 복수의 연산을 통해 상기 화자의 특징을 나타내는 화자특징벡터를 도출하는 화자특징층; 을 포함하는 것을 특징으로 하는 화자 특징 강화를 위한 장치
|
2 |
2
제1항에 있어서, 상기 잡음잔향검출망은 상기 입력된 음성벡터의 잡음 또는 잔향의 양이 많을수록 0에 가까운 값을 가지며 상기 입력된 음성벡터의 잡음 또는 잔향의 양이 적을수록 1에 가까운 값을 가지는 거리반비례지수를 산출하는 것을 특징으로 하는 화자 특징 강화를 위한 장치
|
3 |
3
제1항에 있어서, 상기 보상음성벡터는 상기 입력된 음성벡터의 발화거리가 기 설정된 원거리에 근접할수록 기 설정된 근거리에서 입력된 음성 신호의 특징을 추출한 근거리음성벡터에 가까운 값을 가지며, 상기 입력된 음성벡터의 발화거리가 기 설정된 근거리에 근접할수록 상기 입력된 음성벡터와 동일한 값을 가지는 것을 특징으로 하는 화자 특징 강화를 위한 장치
|
4 |
4
원거리 발화를 선택적으로 보상하는 심층 신경망 기반 화자 특징 강화를 위한 장치에 있어서, 화자 및 발화거리가 알려진 학습용 음성벡터에 대해 복수의 계층의 가중치가 적용되는 복수의 연산을 수행하여 상기 학습용 음성벡터의 발화거리가 기 설정된 원거리에 근접할수록 기 설정된 근거리에서 입력된 음성 신호의 특징을 추출한 근거리음성벡터에 가까운 값을 가지며, 상기 입력된 음성벡터의 발화거리가 기 설정된 근거리에 근접할수록 상기 입력된 학습용 음성벡터와 동일한 값을 가지는 보상음성벡터를 산출하고, 산출된 보상음성벡터로부터 화자의 특징을 추출한 화자특징벡터를 산출하고, 산출된 화자특징벡터로부터 상기 학습용 음성벡터의 화자가 기 설정된 화자일 확률을 나타내는 화자인식벡터를 도출하는 심층신경망; 및 상기 학습용 음성벡터의 화자가 기 설정된 근거리에서 발화한 음성의 특징을 추출한 근거리음성벡터와 상기 화자특징벡터와의 평균 제곱 오차 및 상기 화자를 나타내는 화자 레이블과 상기 화자인식벡터와의 교차엔트로피 오차가 최소가 되도록 상기 심층신경망의 가중치를 최적화하는 학습부;를 포함하는 것을 특징으로 하는 화자 특징 강화를 위한 장치
|
5 |
5
제4항에 있어서, 상기 심층신경망은 상기 학습용 음성벡터의 잡음 또는 잔향의 양에 반비례하여 0 내지 1 사이의 실수인 거리반비례지수를 산출하는 잡음잔향검출망을 포함하며, 상기 학습부는 상기 학습용 음성벡터의 발화거리를 나타내는 발화거리 레이블과 상기 거리반비례지수와의 이진 교차엔트로피 오차, 상기 학습용 음성벡터의 화자가 기 설정된 근거리에서 발화한 음성의 특징을 추출한 근거리음성벡터와 상기 보상음성벡터와의 평균 제곱 오차 및 상기 화자를 나타내는 화자 레이블과 상기 화자인식벡터와의 교차엔트로피 오차가 최소가 되도록 상기 심층신경망의 가중치를 최적화하는 것을 특징으로 하는 화자 특징 강화를 위한 장치
|
6 |
6
제5항에 있어서, 상기 발화거리 레이블은 상기 학습용 음성벡터의 발화거리가 기 설정된 원거리인 경우 0이며, 상기 학습용 음성벡터의 발화거리가 기 설정된 근거리인 경우 1인 것을 특징으로 하는 화자 특징 강화를 위한 장치
|
7 |
7
제4항에 있어서, 상기 심층신경망은 발화거리가 알려지지 않은 음성벡터가 입력되면, 상기 음성벡터의 잡음 또는 잔향의 양에 따라 0 내지 1 사이의 실수인 거리반비례지수를 산출하는 잡음잔향검출망과, 상기 음성벡터와 상기 거리반비례지수를 곱한 거리반비례음성벡터를 산출하는 곱셈기와, 상기 음성벡터의 발화거리가 기 설정된 원거리에 근접할수록 기 설정된 근거리에서 입력된 음성 신호의 특징을 추출한 근거리음성벡터에 가까운 값을 가지며, 상기 음성벡터의 발화거리가 기 설정된 근거리에 근접할수록 0 벡터에 가까운 값을 가지는 모사근거리음성벡터를 도출하는 원거리보상망과, 상기 거리반비례음성벡터 및 상기 모사근거리음성벡터를 더하여 거리보상음성벡터를 도출하는 덧셈기와, 상기 거리보상음성벡터로부터 화자의 특징을 추출하여 화자특징벡터를 도출하는 화자특징층을 포함하는 것을 특징으로 하는 화자 특징 강화를 위한 장치
|
8 |
8
원거리 발화를 선택적으로 보상하는 심층 신경망 기반 화자 특징 강화를 위한 방법에 있어서, 잡음잔향검출망이 발화거리가 알려지지 않은 음성벡터의 잡음 또는 잔향의 양에 반비례하여 0 내지 1 사이의 값인 거리반비례지수를 산출하는 단계; 곱셈기가 상기 음성벡터와 상기 거리반비례지수를 곱한 거리반비례음성벡터를 산출하는 단계; 원거리보상망이 상기 음성벡터의 발화거리가 기 설정된 원거리에 근접할수록 기 설정된 근거리에서 입력된 음성 신호의 특징을 추출한 근거리음성벡터에 가까운 값을 가지는 모사근거리음성벡터를 산출하는 단계; 덧셈기가 상기 거리반비례음성벡터 및 상기 모사근거리음성벡터를 더하여 보상음성벡터를 도출하는 단계; 및 화자특징층이 상기 도출된 보상음성벡터에 대한 가중치가 적용되는 연산을 통해 화자 식별을 위한 특징을 나타내는 화자특징벡터를 도출하는 단계;를 포함하는 것을 특징으로 하는 화자 특징 강화를 위한 방법
|
9 |
9
제8항에 있어서, 상기 거리반비례지수를 산출하는 단계는 상기 잡음잔향검출망이 상기 입력된 음성벡터의 잡음 또는 잔향의 양이 많을수록 0에 가까운 값을 가지며 상기 입력된 음성벡터의 잡음 또는 잔향의 양이 적을수록 1에 가까운 값을 가지는 거리반비례지수를 산출하는 것을 특징으로 하는 화자 특징 강화를 위한 방법
|
10 |
10
제8항에 있어서, 상기 보상음성벡터는 상기 입력된 음성벡터의 발화거리가 기 설정된 원거리에 근접할수록 기 설정된 근거리에서 입력된 음성 신호의 특징을 추출한 근거리음성벡터에 가까운 값을 가지며, 상기 입력된 음성벡터의 발화거리가 기 설정된 근거리에 근접할수록 상기 입력된 음성벡터의 값과 동일한 값을 가지는 것을 특징으로 하는 화자 특징 강화를 위한 방법
|
11 |
11
제8항에 있어서, 상기 거리반비례지수를 산출하는 단계 전, 상기 잡음잔향검출망이 화자 및 발화거리가 알려진 학습용 음성벡터의 잡음 또는 잔향의 양에 반비례하여 0 내지 1 사이의 실수인 거리반비례지수를 도출하는 단계; 상기 곱셈기가 상기 학습용 음성벡터 및 상기 거리반비례지수를 곱하여 거리반비례음성벡터를 산출하는 단계; 상기 원거리보상망이 상기 학습용 음성벡터의 발화거리에 따라 근거리음성벡터를 모사하는 모사근거리음성벡터를 산출하는 단계; 상기 덧셈기가 상기 거리반비례음성벡터 및 상기 모사근거리음성벡터를 더하여 거리보상음성벡터를 도출하는 단계; 상기 화자특징층이 상기 거리보상음성벡터에 대해 가중치가 적용되는 연산을 수행하여 화자특징벡터를 도출하는 단계; 및 화자식별층이 상기 화자특징벡터로부터 상기 학습용 음성벡터의 화자가 기 설정된 화자일 확률을 나타내는 화자인식벡터를 도출하는 단계;학습부가 상기 학습용 음성벡터의 화자가 기 설정된 근거리에서 발화한 음성의 특징을 추출한 근거리음성벡터와 상기 보상음성벡터와의 평균 제곱 오차 및 상기 화자를 나타내는 화자 레이블과 상기 화자인식벡터와의 교차엔트로피 오차가 최소가 되도록 상기 잡음잔향검출망, 상기 원거리보상망 및 상기 화자특징층의 가중치를 최적화하는 단계;를 더 포함하는 것을 특징으로 하는 화자 특징 강화를 위한 방법
|
12 |
12
제8항에 있어서, 상기 거리반비례지수를 산출하는 단계 전, 상기 잡음잔향검출망이 화자 및 발화거리가 알려진 학습용 음성벡터의 잡음 또는 잔향의 양에 반비례하여 0 내지 1 사이의 실수인 거리반비례지수를 산출하는 단계; 상기 곱셈기가 상기 학습용 음성벡터 및 상기 학습용 음성벡터의 발화거리를 나타내는 발화거리 레이블을 곱하여 거리반비례음성벡터를 산출하는 단계; 상기 원거리보상망이 상기 학습용 음성벡터의 발화거리에 따라 근거리음성벡터를 모사하는 모사근거리음성벡터를 산출하는 단계; 상기 덧셈기가 상기 거리반비례음성벡터 및 상기 모사근거리음성벡터를 더하여 거리보상음성벡터를 도출하는 단계; 상기 화자특징층이 상기 거리보상음성벡터에 대해 가중치가 적용되는 연산을 수행하여 화자특징벡터를 도출하는 단계; 화자식별층이 상기 화자특징벡터로부터 상기 학습용 음성벡터의 화자가 기 설정된 화자일 확률을 나타내는 화자인식벡터를 도출하는 단계; 및 학습부가 상기 학습용 음성벡터의 발화거리를 나타내는 발화거리 레이블과 상기 거리반비례지수와의 이진 교차엔트로피 오차, 상기 학습용 음성벡터의 화자가 기 설정된 근거리에서 발화한 음성의 특징을 추출한 근거리음성벡터와 상기 보상음성벡터와의 평균 제곱 오차 및 상기 화자를 나타내는 화자 레이블과 상기 화자인식벡터와의 교차엔트로피 오차가 최소가 되도록 상기 잡음잔향검출망, 상기 원거리보상망 및 상기 화자특징층의 가중치를 최적화하는 단계;를 더 포함하는 것을 특징으로 하는 화자 특징 강화를 위한 방법
|