1 |
1
음성 합성 장치로서,인공신경망 기반으로, 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기(100);상기 스타일 추출기(100)의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기(200);상기 종단형 음성 합성기(200)의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 보코더(300)를 포함하며,상기 스타일 추출기(100)와 종단형 음성 합성기(200)는,합동 훈련(Joint training)을 통해 학습되는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)
|
2 |
2
제1항에 있어서, 상기 가변 길이 스타일 벡터 시퀀스는,입력으로 받은 상기 레퍼런스 음성의 길이에 따라 길이가 변하며, 상기 레퍼런스 음성에 대한 잠재변수로서 상기 레퍼런스 음성의 스타일 정보를 포함하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)
|
3 |
3
제1항에 있어서,스타일 요소가 반영된 텍스트-음성 페어를 학습 데이터로 저장하는 데이터베이스(400)를 더 포함하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)
|
4 |
4
제3항에 있어서,상기 종단형 음성 합성기(200)는, 상기 텍스트-음성 페어의 학습 데이터에서, 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 학습되고,상기 스타일 추출기(100)는, 상기 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 훈련되는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)
|
5 |
5
제4항에 있어서,상기 합동 훈련을 통해 학습된 상기 스타일 추출기(100)와 종단형 음성 합성기(200)를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성하되,상기 스타일 추출기(100)는, 상기 합성 대상 스타일이 반영되고 상기 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력하며,상기 종단형 음성 합성기(200)는, 상기 스타일 추출기(100)의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 상기 합성 대상 텍스트에 상응하는 멜스텍트로그램 시퀀스를 출력하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)
|
6 |
6
제1항에 있어서, 상기 스타일 추출기(100)는,1차원 합성곱 신경망(Convolutional Neural Network, CNN) 및 게이트 순환 유닛(Gated Recurrent Unit, GRU)을 포함하는 스타일 인코더인 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)
|
7 |
7
제1항에 있어서, 상기 종단형 음성 합성기(200)는,타코트론2 및 트랜스포머-TTS를 포함하는 자가회귀 모델 군에서 선택된 어느 하나인 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치(10)
|
8 |
8
컴퓨터에 의해 각 단계가 수행되는 음성 합성 방법으로서,(1) 스타일 요소가 반영된 텍스트-음성 페어의 학습 데이터를 이용해, 인공신경망 기반으로 레퍼런스 음성을 입력으로 받아 가변 길이 스타일 벡터 시퀀스를 출력하는 스타일 추출기(100)와, 상기 스타일 추출기(100)의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여 텍스트 입력에 상응하는 멜스펙트로그램 시퀀스를 출력하는 종단형 음성 합성기(200)를 합동 훈련(Joint training)을 통해 학습하는 단계; 및(2) 상기 합동 훈련을 통해 학습된 상기 스타일 추출기(100)와 종단형 음성 합성기(200)를 이용해 합성 대상 스타일로 합성 대상 텍스트를 음성 합성하는 단계를 포함하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법
|
9 |
9
제8항에 있어서, 상기 가변 길이 스타일 벡터 시퀀스는,입력으로 받은 상기 레퍼런스 음성의 길이에 따라 길이가 변하며, 상기 레퍼런스 음성에 대한 잠재변수로서 상기 레퍼런스 음성의 스타일 정보를 포함하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법
|
10 |
10
제8항에 있어서, 상기 단계 (1)은,(1-1) 상기 텍스트-음성 페어의 학습 데이터에서, 텍스트를 입력으로 하고 입력된 텍스트와 페어인 음성의 멜스펙트로그램을 타깃 출력으로 하여 상기 종단형 음성 합성기(200)를 학습하는 단계; 및(1-2) 상기 타깃 출력의 멜스펙트로그램을 입력으로 하여 비지도 학습을 통해 상기 스타일 추출기(100)를 훈련하는 단계를 포함하여,상기 스타일 추출기(100)와 종단형 음성 합성기(200)를 합동 훈련을 통해 학습하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법
|
11 |
11
제10항에 있어서, 상기 단계 (2)는,(2-1) 상기 스타일 추출기(100)는, 합성 대상 스타일이 반영되며 합성 대상 텍스트와 상이한 음성을 레퍼런스 음성으로 입력받아 가변 길이 스타일 벡터 시퀀스를 출력하는 단계;(2-2) 상기 종단형 음성 합성기(200)는, 상기 스타일 추출기(100)의 출력인 상기 가변 길이 스타일 벡터 시퀀스를 입력으로 하여, 상기 합성 대상 텍스트에 상응하는 멜스텍트로그램 시퀀스를 출력하는 단계; 및(2-3) 보코더(300)는, 상기 종단형 음성 합성기(200)의 출력인 멜스펙트로그램 시퀀스를 음성 파형으로 변환해 출력하는 단계를 포함하는 것을 특징으로 하는, 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 방법
|