1 |
1
입력 음성의 페어가 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램(Mel spectrogram) 및 스타일 참조 음성의 로그 멜 스펙트로그램(Mel spectrogram)일 경우, 음성 변환(Voice Conversion; VC)을 수행하는 단계; 입력 음성의 페어가 원-핫(one-hot) 대표 텍스트 및 스타일 참조 음성의 로그 멜 스펙트로그램(Mel spectrogram)일 경우, 텍스트 음성 변환(Text-to-Speech; TTS)을 수행하는 단계; 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램 및 원-핫(one-hot) 대표 텍스트 모두 동일한 공간에 매핑된 후 멜 스펙트로그램으로 디코딩되는 단계; 및디코딩된 멜 스펙트로그램으로부터 전처리부를 통해 선형 스펙트럼을 획득하는 단계 를 포함하는 감정적 음성 변환 방법
|
2 |
2
제1항에 있어서, 입력 음성의 페어가 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램 및 스타일 참조 음성의 로그 멜 스펙트로그램일 경우, 음성 변환을 수행하는 단계는, 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램을 컨텐츠 인코더를 통해 임베딩하고, 스타일 참조 음성의 로그 멜 스펙트로그램을 스타일 인코더를 통해 임베딩하는 감정적 음성 변환 방법
|
3 |
3
제1항에 있어서, 입력 음성의 페어가 원-핫 대표 텍스트 및 스타일 참조 음성의 로그 멜 스펙트로그램일 경우, 텍스트 음성 변환을 수행하는 단계는, 원-핫 대표 텍스트를 텍스트 인코더를 통해 임베딩하고, 스타일 참조 음성의 로그 멜 스펙트로그램을 스타일 인코더를 통해 임베딩하는 감정적 음성 변환 방법
|
4 |
4
제1항에 있어서,언어 내용을 전달하는 언어의 로그 멜 스펙트로그램 및 원-핫(one-hot) 대표 텍스트 모두 동일한 공간에 매핑된 후 멜 스펙트로그램으로 디코딩되는 단계는, 각 디코딩 단계에서 스타일 참조 음성의 로그 멜 스펙트로그램에서 추출한 스타일 벡터를 어텐션(attention) RNN과 디코더 RNN에 연결하는 감정적 음성 변환 방법
|
5 |
5
제2항에 있어서,언어 내용을 전달하는 언어의 로그 멜 스펙트로그램 및 원-핫(one-hot) 대표 텍스트 모두 동일한 공간에 매핑된 후 멜 스펙트로그램으로 디코딩되는 단계는, 텍스트 인코더, 어텐션 RNN, 디코더 RNN 및 전처리부를 통해 텍스트 음성 변환을 수행하는 경우, 어텐션 RNN의 모든 반복에 컨텍스트 벡터가 활용되는 감정적 음성 변환 방법
|
6 |
6
제1항에 있어서, 스타일 참조 음성을 고려할 때 스타일 인코더는 감정 정보만을 추출하고 언어적 내용을 제거하며, 언어적 내용에 관계없이 감정을 추출하도록 설계되어 복수의 입력 스타일 도메인을 처리하고, 추출된 감정이 디코더에 주입되면 다양한 감정을 생성함으로써 다대 다의 감정적 음성 변환을 처리하는 감정적 음성 변환 방법
|
7 |
7
입력 음성의 페어가 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램(Mel spectrogram) 및 스타일 참조 음성의 로그 멜 스펙트로그램(Mel spectrogram)인지 또는 원-핫(one-hot) 대표 텍스트 및 스타일 참조 음성의 로그 멜 스펙트로그램(Mel spectrogram)인지에 따라 스타일 인코더, 컨텐츠 인코더 및 텍스트 인코더를 통해 음성 변환 또는 텍스트 음성 변환을 수행하는 변환부; 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램 및 원-핫(one-hot) 대표 텍스트 모두 동일한 공간에 매핑된 후 멜 스펙트로그램으로 디코딩되는 신경망 네트워크; 및 디코딩된 멜 스펙트로그램으로부터 선형 스펙트럼을 획득하는 전처리부를 포함하는 감정적 음성 변환 장치
|
8 |
8
제7항에 있어서, 변환부는, 입력 음성의 페어가 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램 및 스타일 참조 음성의 로그 멜 스펙트로그램일 경우, 음성 변환을 수행하고, 언어 내용을 전달하는 언어의 로그 멜 스펙트로그램을 컨텐츠 인코더를 통해 임베딩하고, 스타일 참조 음성의 로그 멜 스펙트로그램을 스타일 인코더를 통해 임베딩하는 감정적 음성 변환 장치
|
9 |
9
제7항에 있어서, 변환부는, 입력 음성의 페어가 원-핫 대표 텍스트 및 스타일 참조 음성의 로그 멜 스펙트로그램일 경우, 텍스트 음성 변환을 수행하고, 원-핫 대표 텍스트를 텍스트 인코더를 통해 임베딩하고, 스타일 참조 음성의 로그 멜 스펙트로그램을 스타일 인코더를 통해 임베딩하는 감정적 음성 변환 장치
|
10 |
10
제7항에 있어서, 신경망 네트워크는, 각 디코딩 단계에서 스타일 참조 음성의 로그 멜 스펙트로그램에서 추출한 스타일 벡터를 어텐션(attention) RNN과 디코더 RNN에 연결하는 감정적 음성 변환 장치
|
11 |
11
제8항에 있어서, 신경망 네트워크는, 텍스트 인코더, 어텐션 RNN, 디코더 RNN 및 전처리부를 통해 텍스트 음성 변환이 수행되는 경우, 어텐션 RNN의 모든 반복에 컨텍스트 벡터가 활용되는 감정적 음성 변환 장치
|
12 |
12
제7항에 있어서, 스타일 참조 음성을 고려할 때 스타일 인코더는 감정 정보만을 추출하고 언어적 내용을 제거하며, 언어적 내용에 관계없이 감정을 추출하도록 설계되어 복수의 입력 스타일 도메인을 처리하고, 추출된 감정이 디코더에 주입되면 다양한 감정을 생성함으로써 다대 다의 감정적 음성 변환을 처리하는 감정적 음성 변환 장치
|