1 |
1
제1 텍스트와 상기 제1 텍스트에 대한 제1 음성 및 제2 텍스트와 상기 제2 텍스트에 대한 제2 음성이 입력되는 단계;상기 제1, 2 텍스트 및 상기 제1, 2 음성을 커리큘럼 러닝(Curriculum learning)에 적용하여 학습한 음성 함성 모델을 생성하는 단계; 및음성 출력을 위한 대상 텍스트 입력 시, 상기 음성 합성 모델을 기반으로 상기 대상 텍스트에 대응하는 대상 합성 음성을 출력하는 단계를 포함하고,상기 음성 합성 모델을 생성하는 단계는,상기 제1, 2 텍스트를 결합한 결합 텍스트 및 상기 제1, 2 음성을 결합한 결합 음성을 생성하는 단계; 및상기 결합 텍스트 및 상기 결합 음성의 학습 결합 시 에러 레이트(error rate)가 설정된 기준 레이트(reference rate)보다 작으면 상기 결합 텍스트 및 상기 결합 음성을 상기 음성 합성 모델에 추가하는 단계를 포함하는,음성 합성 시스템의 동작방법
|
2 |
2
제 1 항에 있어서,상기 결합 텍스트는,상기 제1, 2 텍스트 및 상기 제1, 2 텍스트를 구분하는 텍스트 토큰(text token)을 포함하는,음성 합성 시스템의 동작방법
|
3 |
3
제 2 항에 있어서,상기 결합 음성은,상기 제1, 2 음성 및 상기 제1, 2 음성을 구분하는 멜스펙트로그램 토큰(mel spectrogram-token)을 포함하는,음성 합성 시스템의 동작방법
|
4 |
4
제 3 항에 있어서,상기 텍스트 토큰 및 상기 멜스펙트로그램 토큰은,1초 내지 2초의 시간 구간을 갖는,음성 합성 시스템의 동작방법
|
5 |
5
제 3 항에 있어서,상기 텍스트 토큰 및 상기 멜스펙트로그램 토큰은,묵음 구간인,음성 합성 시스템의 동작방법
|
6 |
6
제 3 항에 있어서,상기 음성 합성 모델에 추가하는 단계는,상기 텍스트 토큰 및 상기 멜스펙트로그램 토큰을 기준으로 결합하는,음성 합성 시스템의 동작방법
|
7 |
7
제 1 항에 있어서,상기 음성 합성 모델에 추가하는 단계 이전에,상기 결합 텍스트 및 상기 결합 음성의 학습 결합 시 배치 사이즈(batch size)가 설정된 기준 배치 사이즈보다 작으면 상기 결합 텍스트 및 상기 결합 음성을 초기화하는 단계를 더 포함하는,음성 합성 시스템의 동작방법
|
8 |
8
제 1 항에 있어서,상기 음성 합성 모델에 추가하는 단계는,상기 에러 레이트가 상기 기준 레이트보다 크면 상기 결합 텍스트 및 상기 결합 음성을 초기화하는,음성 합성 시스템의 동작방법
|