1 |
1
텍스트에 감정 음성을 합성하는 방법으로서,데이터베이스에 저장된 음성 데이터를 이용하여 어텐션 메커니즘을 바탕으로 복수의 감정 토큰을 트레이닝하는 단계,텍스트를 인코딩하는 단계,상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계, 그리고상기 감정 임베딩 벡터 및 상기 인코딩된 텍스트를 합성하는 단계를 포함하는 감정 음성 합성 방법
|
2 |
2
제1항에서,상기 복수의 감정 토큰을 트레이닝하는 단계는,상기 음성 데이터로부터 생성된 프로조디 임베딩 벡터 및 상기 복수의 감정 토큰을 사용하여 후보 감정 임베딩 벡터를 생성하는 단계, 상기 음성 데이터의 텍스트에 상기 후보 감정 임베딩 벡터를 합성하여 합성 음성 데이터를 출력하는 단계, 그리고상기 합성 음성 데이터가 상기 음성 데이터와 동일한지 여부를 결정하는 단계를 포함하는, 감정 음성 합성 방법
|
3 |
3
제2항에서,상기 데이터베이스에는 복수의 음성 데이터가 감정별로 카테고리화되어 있고,상기 후보 감정 임베딩 벡터를 생성하는 단계는,상기 데이터베이스의 제1 감정 카테고리에 속한 제1 음성 데이터를 프로조디 임베딩 벡터로 인코딩하는 단계,상기 어텐션 메커니즘을 바탕으로 상기 프로조디 임베딩 벡터 및 상기 복수의 감정 토큰 사이의 유사도를 학습하는 단계, 상기 프로조디 임베딩 벡터에 대한 상기 복수의 감정 토큰의 가중치를 결정하는 단계, 그리고상기 가중치의 가중치 행렬 및 상기 복수의 감정 토큰의 감정 토큰 행렬을 바탕으로 상기 후보 감정 임베딩 벡터를 생성하는 단계를 포함하는, 감정 음성 합성 방법
|
4 |
4
제3항에서,상기 합성 음성 데이터가 상기 음성 데이터와 동일하면, 상기 제1 감정 카테고리에 속한 다른 음성 데이터를 사용하여 상기 어텐션 메커니즘을 바탕으로 상기 복수의 감정 토큰을 트레이닝하는 단계를 더 포함하는 감정 음성 합성 방법
|
5 |
5
제3항에서,상기 합성 음성 데이터가 상기 음성 데이터와 동일하면, 상기 제1 감정 카테고리와 다른 감정에 대응하는 제2 감정 카테고리에 속한 제2 음성 데이터를 사용하여 상기 어텐션 메커니즘을 바탕으로 상기 복수의 감정 토큰을 트레이닝하는 단계를 더 포함하는 감정 음성 합성 방법
|
6 |
6
제2항에서,상기 합성 음성 데이터가 상기 음성 데이터와 동일하지 않으면, 트레이닝 프로세스를 업데이트하고, 상기 음성 데이터로부터 프로조디 임베딩 벡터를 다시 생성하여 상기 트레이닝 프로세스를 다시 수행하는 단계를 더 포함하는 감정 음성 합성 방법
|
7 |
7
제1항에서,상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계는,상기 텍스트에 합성하려는 감정으로 발성된 참조 음성 데이터를 사용하여 상기 감정 임베딩 벡터를 생성하는 단계를 포함하는, 감정 음성 합성 방법
|
8 |
8
제2항에서,상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계는,상기 데이터베이스에서 상기 텍스트에 합성하려는 감정에 대응하는, 감정 토큰의 가중치 행렬을 결정하는 단계, 그리고결정된 가중치 행렬 및 상기 복수의 감정 토큰의 감정 토큰 행렬을 바탕으로 감정 임베딩 벡터를 생성하는 단계를 포함하는, 감정 음성 합성 방법
|
9 |
9
제8항에서,상기 텍스트에 합성하려는 감정에 대응하는, 감정 토큰의 가중치 행렬을 결정하는 단계는,텍스트에 합성하려는 감정에 대응하는, 상기 데이터베이스의 가중치 행렬 집합의 통계치를 바탕으로 상기 가중치 행렬을 결정하는 단계를 포함하는, 감정 음성 합성 방법
|
10 |
10
제1항에서,상기 감정 임베딩 벡터 및 상기 인코딩된 텍스트를 합성하는 단계는,상기 감정 임베딩 벡터를 컨디셔닝 벡터로서 사용하여 상기 인코딩된 텍스트에 상기 감정 임베딩 벡터를 합성하는 단계를 포함하는, 감정 음성 합성 방법
|
11 |
11
텍스트에 감정 음성을 합성하는 장치로서,프로세서, 메모리, 데이터베이스, 및 입출력 인터페이스를 포함하고, 상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,상기 데이터베이스에 저장된 음성 데이터를 이용하여 어텐션 메커니즘을 바탕으로 복수의 감정 토큰을 트레이닝하는 단계,상기 입출력 인터페이스로 입력된 텍스트를 인코딩하는 단계,상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계, 그리고인코딩된 텍스트에 상기 감정 임베딩 벡터를 합성하는 단계를 수행하는 감정 음성 합성 장치
|
12 |
12
제11항에서,상기 프로세서는 상기 복수의 감정 토큰을 트레이닝하는 단계를 수행할 때,상기 음성 데이터로부터 생성된 프로조디 임베딩 벡터 및 상기 복수의 감정 토큰을 사용하여 후보 감정 임베딩 벡터를 생성하는 단계, 상기 음성 데이터의 텍스트에 상기 후보 감정 임베딩 벡터를 합성하여 합성 음성 데이터를 출력하는 단계, 그리고상기 합성 음성 데이터가 상기 음성 데이터와 동일한지 여부를 결정하는 단계를 수행하는, 감정 음성 합성 장치
|
13 |
13
제12항에서,상기 데이터베이스에는 복수의 음성 데이터가 감정별로 카테고리화되어 있고,상기 프로세서는 상기 후보 감정 임베딩 벡터를 생성하는 단계를 수행할 때,상기 데이터베이스의 제1 감정 카테고리에 속한 제1 음성 데이터를 프로조디 임베딩 벡터로 인코딩하는 단계,상기 어텐션 메커니즘을 바탕으로 상기 프로조디 임베딩 벡터 및 상기 복수의 감정 토큰 사이의 유사도를 학습하는 단계, 상기 프로조디 임베딩 벡터에 대한 상기 복수의 감정 토큰의 가중치를 결정하는 단계, 그리고상기 가중치의 가중치 행렬 및 상기 복수의 감정 토큰의 감정 토큰 행렬을 바탕으로 상기 후보 감정 임베딩 벡터를 생성하는 단계를 수행하는, 감정 음성 합성 장치
|
14 |
14
제13항에서,상기 프로세서는 상기 프로그램을 실행하여,상기 합성 음성 데이터가 상기 음성 데이터와 동일하면, 상기 제1 감정 카테고리에 속한 다른 음성 데이터를 사용하여 상기 어텐션 메커니즘을 바탕으로 상기 복수의 감정 토큰을 트레이닝하는 단계를 더 수행하는, 감정 음성 합성 장치
|
15 |
15
제13항에서,상기 프로세서는 상기 프로그램을 실행하여,상기 합성 음성 데이터가 상기 음성 데이터와 동일하면, 상기 제1 감정 카테고리와 다른 감정에 대응하는 제2 감정 카테고리에 속한 제2 음성 데이터를 사용하여 상기 어텐션 메커니즘을 바탕으로 상기 복수의 감정 토큰을 트레이닝하는 단계를 더 수행하는, 감정 음성 합성 장치
|
16 |
16
제12항에서,상기 프로세서는 상기 프로그램을 실행하여,상기 합성 음성 데이터가 상기 음성 데이터와 동일하지 않으면, 상기 감정 음성 합성 장치를 업데이트하고, 상기 음성 데이터로부터 프로조디 임베딩 벡터를 다시 생성하여 트레이닝 프로세스를 다시 수행하는 단계를 수행하는, 감정 음성 합성 장치
|
17 |
17
제11항에서,상기 프로그램은 상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계를 수행할 때,상기 텍스트에 합성하려는 감정으로 발성된 참조 음성 데이터를 사용하여 상기 감정 임베딩 벡터를 생성하는 단계를 수행하는, 감정 음성 합성 장치
|
18 |
18
제12항에서,상기 프로세서는 상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계를 수행할 때,상기 텍스트에 합성하려는 감정에 대응하는, 감정 토큰의 가중치 행렬을 결정하는 단계, 그리고결정된 가중치 행렬 및 상기 복수의 감정 토큰의 감정 토큰 행렬을 바탕으로 감정 임베딩 벡터를 생성하는 단계를 수행하는, 감정 음성 합성 장치
|
19 |
19
제18항에서,상기 프로세서는 상기 텍스트에 합성하려는 감정에 대응하는, 감정 토큰의 가중치 행렬을 결정하는 단계를 수행할 때,텍스트에 합성하려는 감정에 대응하는, 상기 데이터베이스의 가중치 행렬 집합의 통계치를 바탕으로 상기 가중치 행렬을 결정하는 단계를 수행하는, 감정 음성 합성 장치
|
20 |
20
제11항에서,상기 프로세서는 상기 감정 임베딩 벡터 및 상기 인코딩된 텍스트를 합성하는 단계를 수행할 때,상기 감정 임베딩 벡터를 컨디셔닝 벡터로서 사용하여 상기 인코딩된 텍스트에 상기 감정 임베딩 벡터를 합성하는 단계를 수행하는, 감정 음성 합성 장치
|