1 |
1
음성 합성 방법에 있어서,음성 데이터 입력을 수신하는 단계;상기 음성 데이터 입력에 기반하여 음성을 합성하기 위한 적대적 모델을 학습하는 단계; 및상기 적대적 모델을 이용하여 타겟 음성의 프레임을 합성하는 단계를 포함하되,상기 음성의 프레임을 합성하는 단계는, 비자동 회귀 방식으로 상기 타겟 음성의 프레임을 합성하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법
|
2 |
2
제1항에 있어서,상기 음성의 프레임을 합성하는 단계는, 상기 적대적 모델을 이용하여 비자동 회귀 방식으로 상기 타겟 음성의 전체 프레임을 합성하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법
|
3 |
3
제2항에 있어서,상기 음성 데이터 입력을 수신하는 단계는, 멜 스펙토그램 신호 정보 및 상기 타겟 음성의 합성을 위한 텍스트를 모노토닉 어텐션 정보를 입력 정보로서 수신하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법
|
4 |
4
제3항에 있어서,상기 적대적 모델을 학습하는 단계는, 상기 모노토닉 어텐션의 출력값을 이용하여 적대적 학습을 수행하는 단계를 포함하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법
|
5 |
5
제4항에 있어서,상기 음성 데이터 입력에 포함된 상기 텍스트를 인코딩하기 위한 텍스트 인코더의 출력에 기반하여 상기 타겟 음성의 시퀀스 길이를 추정하는 단계를 포함하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법
|
6 |
6
제5항에 있어서,상기 적대적 모델을 학습하는 단계는, 복원 손실(LOSSrecon), 주기 예측 손실(LOSSdur) 및 적대적 로스 손실을 합한 값을 손실 함수로 하여, 상기 손실 함수의 절대값이 최소가 되로 상기 적대적 모델을 학습하는 단계를 포함하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 방법
|
7 |
7
메모리;음성 데이터 입력을 수신하는 입력부; 및상기 입력부를 통해 수신된 상기 음성 데이터 입력에 기반하여 음성을 합성하기 위한 적대적 모델을 학습하고, 상기 적대적 모델을 상기 메모리에 저장하며, 상기 메모리에 저장된 상기 적대적 모델을 이용하여 비자동 회귀 방식으로 타겟 음성의 프레임을 합성하는 제어부를 포함하는, 적대적 학습 기법을 이용한 음성 합성 장치
|
8 |
8
제7항에 있어서,상기 제어부는, 상기 적대적 모델을 이용하여 비자동 회귀 방식으로 상기 타겟 음성의 전체 프레임을 합성하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 장치
|
9 |
9
제8항에 있어서,상기 제어부는, 상기 입력부를 제어하여 멜 스펙토그램 신호 및 상기 타겟 음성의 합성을 위한 텍스트를 모노토닉 어텐션의 입력으로서 수신하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 장치
|
10 |
10
제9항에 있어서,상기 제어부는, 상기 모노토닉 어텐션의 출력값을 이용하여 적대적 학습을 수행하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 장치
|
11 |
11
제10항에 있어서,상기 제어부는, 상기 음성 데이터 입력에 포함된 상기 텍스트를 인코딩하기 위한 텍스트 인코더의 출력에 기반하여 상기 타겟 음성의 시퀀스 길이를 추정하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 장치
|
12 |
12
제11항에 있어서,상기 제어부는복원 손실(LOSSrecon), 주기 예측 손실(LOSSdur) 및 적대적 로스 손실을 합한 값을 손실 함수로 하여, 상기 손실 함수의 절대값이 최소가 되로 상기 적대적 모델을 학습하는 것을 특징으로 하는, 적대적 학습 기법을 이용한 음성 합성 장치
|