1 |
1
제1 화자의 음성 프로파일을 생성하는 생성부;텍스트를 입력받고, 입력된 텍스트를 제1 화자와 다른 제2 화자의 음성으로 변환하는데 이용되는 임베딩 정보를 생성하는 인코더;생성부에서 생성된 음성 프로파일과 인코더에서 생성된 임베딩 정보를 혼합하는 혼합부; 및혼합부에서 혼합된 정보를 이용하여 음성을 합성하는 합성부;를 포함하는 것을 특징으로 하는 음성 합성기
|
2 |
2
청구항 1에 있어서,생성부는,제1 화자의 음성 특징을 추출하는 추출부; 및추출된 제1 화자의 음성 특징으로부터 화자의 음성 프로파일을 예측하는 예측부;를 포함하는 것을 특징으로 하는 음성 합성기
|
3 |
3
청구항 2에 있어서,음성 특징은,음성 주파수별 에너지 및 음성 피치 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 합성기
|
4 |
4
청구항 2에 있어서,추출부는,텍스트와 텍스트에 대한 제1 화자의 음성을 분석하여, 제1 화자의 음성 특징을 추출하는 것을 특징으로 하는 음성 합성기
|
5 |
5
청구항 1에 있어서,혼합부는,인코더에서 생성된 임베딩 정보의 음성 프로파일을 생성부에서 생성된 음성 프로파일로 치환하는 것을 특징으로 하는 음성 합성기
|
6 |
6
청구항 5에 있어서,음성 합성부는,혼합부에서 출력되는 임베딩 정보에 대한 어텐션 맵을 생성하는 어텐션 모듈; 및어텐션 모듈에서 생성된 어텐션 맵으을 기반으로 입력 텍스트에 대한 제1 화자의 음성을 합성하는 제1 디코더;를 포함하는 것을 특징으로 하는 음성 합성기
|
7 |
7
청구항 6에 있어서,어텐션 모듈은,인코더에서 출력되는 임베딩 정보에 대한 어텐션 맵을 더 생성하고,음성 합성부는,어텐션 모듈에서 생성된 어텐션 맵으을 기반으로 입력 텍스트에 대한 제2 화자의 음성을 합성하는 제2 디코더;를 더 포함하는 것을 특징으로 하는 음성 합성기
|
8 |
8
청구항 1에 있어서,생성부는,텍스트와 텍스트에 대한 제1 화자의 음성으로 학습된 것을 특징으로 하는 음성 합성기
|
9 |
9
청구항 8에 있어서,혼합부는,인코더에서 생성된 임베딩 정보, 텍스트 및 텍스트에 대한 제2 화자의 음성으로 학습된 것을 특징으로 하는 음성 합성기
|
10 |
10
제1 화자의 음성 프로파일을 생성하는 단계;텍스트를 입력받고, 입력된 텍스트를 제1 화자와 다른 제2 화자의 음성으로 변환하는데 이용되는 임베딩 정보를 생성하는 단계;생성된 음성 프로파일과 인코더에서 생성된 임베딩 정보를 혼합하는 단계; 및혼합된 정보를 이용하여 음성을 합성하는 단계;를 포함하는 것을 특징으로 하는 음성 합성 방법
|
11 |
11
제1 화자의 음성 프로파일을 생성하는 생성부;텍스트를 입력받고, 입력된 텍스트를 제1 화자와 다른 제2 화자의 음성으로 변환하는데 이용되는 임베딩 정보를 생성하는 인코더;생성부에서 생성된 음성 프로파일과 인코더에서 생성된 임베딩 정보를 혼합하는 혼합부;를 포함하는 것을 특징으로 하는 음성 합성기
|
12 |
12
제1 화자의 음성 프로파일을 생성하는 단계;텍스트를 입력받고, 입력된 텍스트를 제1 화자와 다른 제2 화자의 음성으로 변환하는데 이용되는 임베딩 정보를 생성하는 단계; 및생성된 음성 프로파일과 인코더에서 생성된 임베딩 정보를 혼합하는 단계;를 포함하는 것을 특징으로 하는 화자 변환 방법
|