1 |
1
인코더가 음성을 생성할 문장을 문자 단위로 문자 임베딩 벡터를 생성 하는 단계;디코더가 상기 임베딩 벡터로부터 음성 스펙트럼을 생성하는 단계; 및음성 출력부가 상기 음성 스펙트럼을 음성으로 출력하는 단계;를 포함하고,상기 디코더가 상기 음성 스펙트럼 생성 단계는,다중 음성 데이터를 입력받아 음성 임베딩 벡터로 변환해 음성 스펙트럼 병합에 이용하며,상기 다중 음성 데이터는,One-hot vector형태의 speaker-id이고 룩업 테이블을 거쳐 음성 임베딩 벡터로 변환되고, 상기 음성 임베딩 벡터는, 디코더 RNN과 집중 RNN에 입력되며,상기 디코더는 음성을 입력 받는 스피커의 내장 벡터의 공간을 비선형으로 설정함으로써 상기 스피커 내장 벡터를 조절하는 것을 특징으로 하는 텍스트-다중음성 변환 방법
|
2 |
2
제1항에 있어서,상기 다중 음성 데이터는,log-mel-spectrogram형태의 데이터인 텍스트-다중음성 변환 방법
|
3 |
3
제2항에 있어서,상기 log-mel-spectrogram은 임베더 네트워크를 거쳐 음성 임베딩 벡터로 변환되는 텍스트-다중음성 변환 방법
|
4 |
4
문자로부터 상기 문자의 음성을 출력하는 텍스트-다중음성 변환모듈;을 포함하고, 상기 텍스트-음성 변환모듈은,음성을 생성할 문장을 문자 단위로 문자 임베딩 벡터를 생성하는 인코더, 상기 임베딩 벡터로부터 음성 스펙트럼을 생성하는 디코더; 및상기 음성 스펙트럼을 음성으로 출력하는 음성 출력부;를 포함하고,상기 디코더는,다중 음성 데이터를 입력받아 음성 임베딩 벡터로 변환해 음성 스펙트럼 병합에 이용하며,상기 다중 음성 데이터는,One-hot vector형태의 speaker-id이고 룩업 테이블을 거쳐 음성 임베딩 벡터로 변환되고, 상기 음성 임베딩 벡터는, 디코더 RNN과 집중 RNN에 입력되며,상기 디코더는 음성을 입력 받는 스피커의 내장 벡터의 공간을 비선형으로 설정함으로써 상기 스피커 내장 벡터를 조절하는 것을 특징으로 하는 텍스트-다중음성 변환 시스템
|
5 |
5
제4항에 있어서,상기 다중 음성 데이터는,log-mel-spectrogram형태의 데이터인 텍스트-다중음성 변환 시스템
|
6 |
6
제5항에 있어서,상기 log-mel-spectrogram은 임베더 네트워크를 거쳐 음성 임베딩 벡터로 변환되는 텍스트-다중음성 변환 시스템
|