1 |
1
심화 신경망 기반의 특징 강화 모델을 학습하는 단계; 심화 신경망 기반의 화자 특징벡터 추출 모델을 학습하는 단계; 상기 특징 강화 모델의 출력 레이어와 상기 화자 특징벡터 추출 모델의 입력 레이어를 서로 연결하는 단계; 및 연결된 상기 특징 강화 모델 및 상기 화자 특징벡터 추출 모델을 하나의 모델로 간주하고 추가로 학습하는 결합 학습을 진행하는 단계를 포함하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법
|
2 |
2
제1항에 있어서,상기 심화 신경망 기반의 특징 강화 모델을 학습하는 단계는, 열화된 음성 데이터와 깨끗한 음성 데이터로부터 음향 특징(acoustic feature)을 추출하는 단계; 상기 음향 특징들을 상기 특징 강화 모델의 입력에 사용하는 단계; 및 상기 특징 강화 모델을 통과시켜 출력되는 강화된 음향 특징들이 기 준비된 깨끗한 음향 특징들과 유사한 값을 보이도록 평균 제곱 오차(Mean Squared Error, MSE)를 최소화하는 방향으로 제1 손실 함수를 이용하여 학습하는 단계를 포함하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법
|
3 |
3
제1항에 있어서,상기 심화 신경망 기반의 화자 특징벡터 추출 모델을 학습하는 단계는, 학습 데이터셋 전체를 학습한 상기 특징 강화 모델을 통과시켜 강화된 음향 특징들을 생성하는 단계; 상기 강화된 음향 특징들을 상기 화자 특징벡터 추출 모델의 입력에 사용하는 단계; 및 상기 화자 특징벡터 추출 모델을 통과시켜 임의의 길이를 갖는 발화에서 추출한 음향 특징 열로부터 발화자를 분류하도록 제2 손실 함수를 이용하여 학습하는 단계를 포함하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법
|
4 |
4
제1항에 있어서,상기 심화 신경망 기반의 화자 특징벡터 추출 모델을 학습하는 단계는, 상기 심화 신경망 기반의 화자 특징벡터 추출 모델로 x-벡터 모델을 사용하여 학습하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법
|
5 |
5
제4항에 있어서,상기 심화 신경망 기반의 화자 특징벡터 추출 모델을 학습하는 단계는, 상기 x-벡터 모델은 시간 순서대로 나열된 프레임 단위의 음향 특징 열에 대해 5 개의 시간-지연 신경망(Time-Delay Neural Network, TDNN) 레이어를 사용하여 비선형 연산을 통해 발화자와 관련된 정보를 추출하는 단계; 통계적 특징 추출 레이어에서 상기 음향 특징 열에 대해 시간 축으로 평균과 표준편차를 계산하여 이어 붙여 임의의 길이를 갖는 발화로부터 고정된 길이의 벡터를 추출하는 단계; 및 계산된 상기 평균과 표준편차 벡터는 2 개의 은닉 레이어를 추가로 거친 뒤, 출력 레이어에서 학습 데이터셋 내의 발화자를 분류하도록 크로스-엔트로피(cross-entropy) 제2 손실 함수를 이용하여 학습하는 단계를 포함하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법
|
6 |
6
제5항에 있어서,상기 심화 신경망 기반의 화자 특징벡터 추출 모델을 학습하는 단계는, 학습을 끝마치고 난 후, 상기 통계적 특징 추출 레이어 바로 다음에 위치해 있는 상기 은닉 레이어의 활성함수를 거치기 전 출력값을 화자 특징벡터인 x-벡터로 사용하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법
|
7 |
7
제1항에 있어서, 상기 특징 강화 모델 및 상기 화자 특징벡터 추출 모델을 하나의 모델로 간주하고 추가로 학습하는 결합 학습을 진행하는 단계는, 서로 다른 손실 함수를 사용하여 학습된 개별 상기 특징 강화 모델 및 상기 화자 특징벡터 추출 모델을 하나로 연결한 다음, 하나의 손실 함수로 연결된 두 개의 상기 특징 강화 모델 및 상기 화자 특징벡터 추출 모델을 결합 학습을 통해 전체적으로 최적화하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법
|
8 |
8
제5항에 있어서, 상기 특징 강화 모델 및 상기 화자 특징벡터 추출 모델을 하나의 모델로 간주하고 추가로 학습하는 결합 학습을 진행하는 단계는, 발화자의 사후확률이 높아지도록 학습하기 위해 상기 화자 특징벡터 추출 모델의 발화자 인덱스에 해당되는 출력값으로부터 특정 상수값에 해당하는 마진을 차감하는 방식으로 상기 제2 손실 함수를 변형시켜 결합 학습하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법
|
9 |
9
심화 신경망 기반의 특징 강화 모델을 학습하는 특징 강화 모델 학습부; 심화 신경망 기반의 화자 특징벡터 추출 모델을 학습하는 화자 특징벡터 추출 모델 학습부; 상기 특징 강화 모델의 출력 레이어와 상기 화자 특징벡터 추출 모델의 입력 레이어를 서로 연결하는 결합 모델링부; 및 연결된 상기 특징 강화 모델 및 상기 화자 특징벡터 추출 모델을 하나의 모델로 간주하고 추가로 학습하는 결합 학습을 진행하는 결합 학습부를 포함하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치
|
10 |
10
제9항에 있어서,상기 특징 강화 모델 학습부는, 열화된 음성 데이터와 깨끗한 음성 데이터로부터 음향 특징(acoustic feature)을 추출하고, 상기 음향 특징들을 상기 특징 강화 모델의 입력에 사용하며, 상기 특징 강화 모델을 통과시켜 출력되는 강화된 음향 특징들이 기 준비된 깨끗한 음향 특징들과 유사한 값을 보이도록 평균 제곱 오차(Mean Squared Error, MSE)를 최소화하는 방향으로 제1 손실 함수를 이용하여 학습하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치
|
11 |
11
제9항에 있어서,상기 화자 특징벡터 추출 모델 학습부는, 학습 데이터셋 전체를 학습한 상기 특징 강화 모델을 통과시켜 강화된 음향 특징들을 생성하고, 상기 강화된 음향 특징들을 상기 화자 특징벡터 추출 모델의 입력에 사용하며, 상기 화자 특징벡터 추출 모델을 통과시켜 임의의 길이를 갖는 발화에서 추출한 음향 특징 열로부터 발화자를 분류하도록 제2 손실 함수를 이용하여 학습하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치
|
12 |
12
제9항에 있어서,상기 화자 특징벡터 추출 모델 학습부는, 상기 심화 신경망 기반의 화자 특징벡터 추출 모델로 x-벡터 모델을 사용하여 학습하며, 상기 x-벡터 모델은 시간 순서대로 나열된 프레임 단위의 음향 특징 열에 대해 5 개의 시간-지연 신경망(Time-Delay Neural Network, TDNN) 레이어를 사용하여 비선형 연산을 통해 발화자와 관련된 정보를 추출하고, 통계적 특징 추출 레이어에서 상기 음향 특징 열에 대해 시간 축으로 평균과 표준편차를 계산하여 이어 붙여 임의의 길이를 갖는 발화로부터 고정된 길이의 벡터를 추출하며, 계산된 상기 평균과 표준편차 벡터는 2 개의 은닉 레이어를 추가로 거친 뒤, 출력 레이어에서 학습 데이터셋 내의 발화자를 분류하도록 크로스-엔트로피(cross-entropy) 제2 손실 함수를 이용하여 학습하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치
|
13 |
13
제12항에 있어서,상기 화자 특징벡터 추출 모델 학습부는, 학습을 끝마치고 난 후, 상기 통계적 특징 추출 레이어 바로 다음에 위치해 있는 상기 은닉 레이어의 활성함수를 거치기 전 출력값을 화자 특징벡터인 x-벡터로 사용하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치
|
14 |
14
제9항에 있어서, 상기 결합 학습부는, 서로 다른 손실 함수를 사용하여 학습된 개별 상기 특징 강화 모델 및 상기 화자 특징벡터 추출 모델을 하나로 연결한 다음, 하나의 손실 함수로 연결된 두 개의 상기 특징 강화 모델 및 상기 화자 특징벡터 추출 모델을 결합 학습을 통해 전체적으로 최적화하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치
|
15 |
15
제12항에 있어서, 상기 결합 학습부는, 발화자의 사후확률이 높아지도록 학습하기 위해 상기 화자 특징벡터 추출 모델의 발화자 인덱스에 해당되는 출력값으로부터 특정 상수값에 해당하는 마진을 차감하는 방식으로 상기 제2 손실 함수를 변형시켜 결합 학습하는 것을 특징으로 하는, 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 장치
|