1 |
1
VAE(variational auto encoder)를 이용한 화자 인식 특징 추출 방법으로서,(1) 복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 단계;(2) 상기 단계 (1)에서 학습된 일반 배경 모델을 이용하여 상기 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 상기 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 단계;(3) 상기 단계 (2)에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 단계; 및(4) 상기 단계 (3)에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 상기 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 단계를 포함하되,상기 단계 (4)의 딥 러닝 구조는,입력 벡터를 입력하는 입력층(input layer), 상기 입력층을 통해 입력된 입력 벡터의 차원을 축소하여 상기 랜덤 변수를 생성하는 은닉층(hidden layer)으로 구성되어, 상기 입력 벡터로부터 상기 랜덤 변수를 추론하는 인코더(encoder) 네트워크; 및상기 은닉층 및 상기 랜덤 변수를 상기 입력 벡터와 동일한 크기로 변환하여 출력 벡터를 생성하는 출력층(output layer)으로 구성되어, 상기 랜덤 변수로부터 출력 벡터를 생성하는 디코더(decoder) 네트워크로 구성되는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 방법
|
2 |
2
제1항에 있어서, 상기 단계 (2)의 Baum-Welch statistics는,하기의 수학식을 통해 계산되는 0차 Baum-Welch statistics 및 1차 Baum-Welch statistics를 포함하는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 방법
|
3 |
3
제2항에 있어서, 상기 단계 (2)의 통합 벡터는,상기 Baum-Welch statistics들에 기초한 벡터로서, 하기의 수학식으로 나타내어지는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 방법
|
4 |
4
삭제
|
5 |
5
삭제
|
6 |
6
제1항에 있어서,상기 인코더 네트워크는 화자 인식 특징 추출기로 사용되는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 방법
|
7 |
7
VAE(variational auto encoder)를 이용한 화자 인식 특징 추출 시스템으로서,복수 개의 음성 파일들로 구성된 학습 데이터를 사용하여 화자 독립적 모델인 일반 배경 모델(universal background model, UBM)을 학습하는 UBM 학습부(100);상기 UBM 학습부(100)에서 학습된 일반 배경 모델을 이용하여 상기 복수 개의 음성 파일들에서의 Baum-Welch statistics를 추출하고, 상기 추출된 Baum-Welch statistics에 기초하여 하나의 통합 벡터를 생성하는 Baum-Welch statistics 추출부(200);상기 Baum-Welch statistics 추출부(200)에서 생성된 하나의 통합 벡터를 입력 벡터로 하여 VAE를 학습하는 VAE 학습부(300); 및상기 VAE 학습부(300)에서의 학습 결과를 바탕으로 딥 러닝(deep learning) 구조를 생성하여 상기 입력 벡터를 재구성하는 과정에서 생성되는 랜덤 변수(latent variables)를 화자 인식 특징으로 추출하는 화자 인식 특징 추출부(400)를 포함하되,상기 딥 러닝 구조는,입력 벡터를 입력하는 입력층(input layer), 상기 입력층을 통해 입력된 입력 벡터의 차원을 축소하여 상기 랜덤 변수를 생성하는 은닉층(hidden layer)으로 구성되어, 상기 입력 벡터로부터 상기 랜덤 변수를 추론하는 인코더(encoder) 네트워크; 및상기 은닉층 및 상기 랜덤 변수를 상기 입력 벡터와 동일한 크기로 변환하여 출력 벡터를 생성하는 출력층(output layer)으로 구성되어, 상기 랜덤 변수로부터 출력 벡터를 생성하는 디코더(decoder) 네트워크로 구성되는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 시스템
|
8 |
8
제7항에 있어서, 상기 Baum-Welch statistics는,하기의 수학식을 통해 계산되는 0차 Baum-Welch statistics 및 1차 Baum-Welch statistics를 포함하는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 시스템
|
9 |
9
제7항에 있어서, 상기 통합 벡터는,상기 Baum-Welch statistics들에 기초한 벡터로서, 하기의 수학식으로 나타내어지는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 시스템
|
10 |
10
삭제
|
11 |
11
삭제
|
12 |
12
제7항에 있어서,상기 인코더 네트워크는 화자 인식 특징 추출기로 사용되는 것을 특징으로 하는, VAE를 이용한 화자 인식 특징 추출 시스템
|