1 |
1
특징 제어 가능 음성 모사를 위한 전자 장치의 동작 방법에 있어서, 텍스트를 인코딩하는 동작;화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 동작; 및상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하여, 음성 신호를 발생시키는 동작을 포함하는 방법
|
2 |
2
제 1 항에 있어서, 상기 임베딩 정보 추론 동작은,상기 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 동작; 상기 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 동작; 및상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하여, 상기 임베딩 정보를 생성하는 동작을 포함하는 방법
|
3 |
3
제 2 항에 있어서, 상기 임베딩 정보 생성 동작은,가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하는 동작을 포함하는 방법
|
4 |
4
제 2 항에 있어서, 상기 화자 임베딩 정보 추론 동작은,상기 화자 임베딩 정보와 상기 특징 임베딩 정보 간 상과 관계가 제거되도록, 상기 화자 음성 신호로부터 상기 특징 정보에 대응하는 특징 요소를 제거하는 동작을 포함하는 방법
|
5 |
5
제 1 항에 있어서, 상기 특징 정보는 감정, 성별 또는 연령 중 적어도 어느 하나를 포함하는 방법
|
6 |
6
제 2 항에 있어서, 상기 특징 임베딩 정보 추론 동작은, 상기 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 상기 특징 임베딩 정보를 추론하는 동작을 포함하는 방법
|
7 |
7
제 2 항에 있어서, 상기 화자 음성 신호와 상기 특징 정보는 각각 가변적 길이를 갖고, 상기 화자 임베딩 정보와 상기 특징 임베딩 정보는 각각 고정된 길이를 갖는 방법
|
8 |
8
특징 제어 가능 음성 모사를 위한 전자 장치에 있어서, 텍스트를 인코딩하는 텍스트 인코더;화자 음성 신호 및 특징 정보와 관련된 임베딩 정보를 추론하는 결합부; 상기 인코딩된 텍스트를 상기 추론된 임베딩 정보와 함께 디코딩하는 디코더; 및상기 디코딩된 텍스트에 대응하는 음성 신호를 발생시키는 보코더를 포함하는 전자 장치
|
9 |
9
제 8 항에 있어서, 상기 화자 음성 신호를 인코딩하여, 화자 임베딩 정보를 추론하는 화자 인코더; 및상기 특징 정보를 인코딩하여, 특징 임베딩 정보를 추론하는 특징 인코더를 더 포함하는 전자 장치
|
10 |
10
제 9 항에 있어서, 상기 결합부는,상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하여, 상기 임베딩 정보를 생성하는 전자 장치
|
11 |
11
제 10 항에 있어서, 상기 결합부는,가중치 합, 곱셈 또는 신경망 중 적어도 어느 하나를 사용하여, 상기 화자 임베딩 정보와 상기 특징 임베딩 정보를 결합하는 전자 장치
|
12 |
12
제 10 항에 있어서, 상기 화자 임베딩 정보와 상기 특징 임베딩 정보 간 상관 관계가 제거되도록, 상기 화자 음성 신호로부터 상기 특징 정보에 대응하는 특징 요소를 제거하는 프로세서를 더 포함하는 전자 장치
|
13 |
13
제 8 항에 있어서, 상기 특징 정보는 감정, 성별 또는 연령 중 적어도 어느 하나를 포함하는 전자 장치
|
14 |
14
제 9 항에 있어서, 상기 특징 인코더는,상기 특징 정보와 관련된 이산적 또는 연속적 특징 변수를 기반으로, 상기 특징 임베딩 정보를 추론하는 전자 장치
|
15 |
15
제 9 항에 있어서, 상기 화자 음성 신호와 상기 특징 정보는 각각 가변적 길이를 갖고, 상기 화자 임베딩 정보와 상기 특징 임베딩 정보는 각각 고정된 길이를 갖는 전자 장치
|