1 |
1
입력 받은 문장 데이터를 임베딩하여 문장 입력을 구성하는 단계; 입력 받은 화자 데이터를 임베딩하여 화자 입력을 구성하는 단계; 임베딩된 상기 문장 데이터와 임베딩된 상기 화자 데이터를 연결(Concatenate)하여 하나의 입력 벡터열을 생성하는 단계; 생성된 상기 입력 벡터열을 하나의 인공 신경망으로 정제하여 정제된 문장 및 화자 데이터를 생성하는 단계; 및 상기 정제된 문장 및 화자 데이터를 입력 받아 음성 특징벡터 합성 순환 신경망을 통해 음성 특징벡터를 합성하는 단계를 포함하고, 상기 음성 특징벡터 합성 순환 신경망을 통해 음성 특징벡터를 합성하는 단계는, 상기 정제된 문장 및 화자 데이터와 어텐션(Attention) 순환 신경망의 출력을 입력 받아 어텐션 메커니즘을 통해 스펙트럼 합성에 필요한 부분을 선택하여 고정된 길이의 벡터를 형성하는 단계; 선택된 상기 고정된 길이의 벡터를 상기 어텐션 순환 신경망에서 합성된 멜 필터 뱅크 스펙트럼과 연결(Concatenate)하여 음성 특징벡터 합성 순환 신경망의 입력을 생성하는 단계; 및 상기 음성 특징벡터 합성 순환 신경망을 통해 새로운 멜 필터 뱅크 스펙트럼을 합성하는 단계를 포함하고, 음향 모델 역할을 하는 상기 음성 특징벡터 합성 순환 신경망을 학습시켜 복수의 화자의 목소리를 합성할 수 있는 순환 신경망을 생성하여, 하나의 상기 음향 모델로 복수의 화자의 음성 특징벡터를 합성하며, 상기 문장 데이터와 상기 화자 데이터가 동일한 인공 신경망을 통해 학습되어, 화자 데이터를 반영하는 문장 분석 데이터를 생성하는 것을 특징으로 하는, 음성 합성 방법
|
2 |
2
제1항에 있어서, 상기 입력 받은 문장 데이터를 임베딩하여 문장 입력을 구성하는 단계는, 상기 입력 받은 문장 데이터를 한글 자모 단위로 분해하여 자모 단위 입력을 생성하는 단계; 상기 자모 단위 입력을 색인하여 숫자 데이터로 매핑하는 단계; 상기 숫자 데이터로 매핑된 상기 문장 데이터를 원-핫 인코딩(One-hot encoding)하여 원-핫 인코딩된 벡터열을 생성하는 단계; 및 상기 원-핫 인코딩된 벡터열을 문장 임베딩 매트릭스와 곱하여 문장 데이터 특징벡터로 변환하는 단계를 포함하는, 음성 합성 방법
|
3 |
3
제1항에 있어서, 상기 입력 받은 화자 데이터를 임베딩하여 화자 입력을 구성하는 단계는, 상기 입력 받은 화자 데이터를 색인하여 숫자 데이터로 매핑하는 단계; 상기 숫자 데이터로 매핑된 상기 화자 데이터를 원-핫 인코딩(One-hot encoding)하여 원-핫 인코딩된 벡터열을 생성하는 단계; 및 상기 원-핫 인코딩된 벡터열을 화자 임베딩 매트릭스와 곱하여 화자 데이터 특징벡터로 변환하는 단계를 포함하는, 음성 합성 방법
|
4 |
4
제1항에 있어서, 상기 임베딩된 상기 문장 데이터와 임베딩된 상기 화자 데이터를 연결(Concatenate)하여 하나의 입력 벡터열을 생성하는 단계는, 특징벡터로 변환된 임베딩된 상기 문장 데이터와 임베딩된 상기 화자 데이터를 연결(Concatenate)하여, 문장의 특정 부분에 특정 화자를 할당하는 것을 특징으로 하는, 음성 합성 방법
|
5 |
5
삭제
|
6 |
6
삭제
|
7 |
7
제1항에 있어서, 상기 음성 특징벡터 합성 순환 신경망을 통해 음성 특징벡터를 합성하는 단계는, 음향 모델 역할을 하는 상기 음성 특징벡터 합성 순환 신경망을 학습시켜 복수의 화자의 목소리를 합성할 수 있는 순환 신경망을 생성하는 단계를 더 포함하는, 음성 합성 방법
|
8 |
8
제1항에 있어서, 상기 음성 특징벡터 합성 순환 신경망을 통해 음성 특징벡터를 합성하는 단계는, 상기 음성 특징벡터 합성 순환 신경망을 통해 합성된 상기 새로운 멜 필터 뱅크 스펙트럼을 포스트 프로세싱 인공 신경망을 통해 정제하여 로그 파워 스펙트럼을 합성하는 단계를 더 포함하는, 음성 합성 방법
|
9 |
9
제1항에 있어서, 합성된 상기 음성 특징벡터를 그리핀-림 알고리즘(Griffin-lim algorithm)을 이용하여 음성으로 변환하는 단계를 더 포함하는, 음성 합성 방법
|
10 |
10
입력 받은 문장 데이터를 임베딩하여 문장 입력을 구성하는 문장 임베딩부; 입력 받은 화자 데이터를 임베딩하여 화자 입력을 구성하는 화자 임베딩부; 임베딩된 상기 문장 데이터와 임베딩된 상기 화자 데이터를 연결(Concatenate)하여 하나의 입력 벡터열을 생성하는 연결부; 생성된 상기 입력 벡터열을 하나의 인공 신경망으로 정제하여 정제된 문장 및 화자 데이터를 생성하는 문장 및 화자 데이터 정제 인공 신경망; 및 상기 정제된 문장 및 화자 데이터를 입력 받아 음성 특징벡터 합성 순환 신경망을 통해 음성 특징벡터를 합성하는 음성 특징벡터 합성부를 포함하고, 상기 음성 특징벡터 합성부는, 상기 정제된 문장 및 화자 데이터와 어텐션(Attention) 순환 신경망의 출력을 입력 받아 스펙트럼 합성에 필요한 부분을 선택하여 고정된 길이의 벡터를 형성하는 어텐션 메커니즘; 선택된 상기 고정된 길이의 벡터를 상기 어텐션 순환 신경망에서 합성된 멜 필터 뱅크 스펙트럼과 연결(Concatenate)하여 음성 특징벡터 합성 순환 신경망의 입력을 생성하는 연결부; 및 상기 음성 특징벡터 합성 순환 신경망을 통해 새로운 멜 필터 뱅크 스펙트럼을 합성하는 음성 특징벡터 합성 순환 신경망을 포함하며, 음향 모델 역할을 하는 상기 음성 특징벡터 합성 순환 신경망을 학습시켜 복수의 화자의 목소리를 합성할 수 있는 순환 신경망을 생성하여, 하나의 상기 음향 모델로 복수의 화자의 음성 특징벡터를 합성하며, 상기 문장 데이터와 상기 화자 데이터가 동일한 인공 신경망을 통해 학습되어, 화자 데이터를 반영하는 문장 분석 데이터를 생성하는 것을 특징으로 하는, 음성 합성 시스템
|
11 |
11
제10항에 있어서, 상기 문장 임베딩부는, 상기 입력 받은 문장 데이터를 한글 자모 단위로 분해하여 자모 단위 입력을 생성하는 문장 분해부; 상기 자모 단위 입력을 색인하여 숫자 데이터로 매핑하는 색인부; 상기 숫자 데이터로 매핑된 상기 문장 데이터를 원-핫 인코딩(One-hot encoding)하여 원-핫 인코딩된 벡터열을 생성하는 원-핫 인코딩부; 및 상기 원-핫 인코딩된 벡터열을 문장 임베딩 매트릭스와 곱하여 문장 데이터 특징벡터로 변환하는 특징벡터 변환부를 포함하는, 음성 합성 시스템
|
12 |
12
제10항에 있어서, 상기 화자 임베딩부는, 상기 입력 받은 화자 데이터를 색인하여 숫자 데이터로 매핑하는 색인부; 상기 숫자 데이터로 매핑된 상기 화자 데이터를 원-핫 인코딩(One-hot encoding)하여 원-핫 인코딩된 벡터열을 생성하는 원-핫 인코딩부; 및상기 원-핫 인코딩된 벡터열을 화자 임베딩 매트릭스와 곱하여 화자 데이터 특징벡터로 변환하는 특징벡터 변환부를 포함하는, 음성 합성 시스템
|
13 |
13
삭제
|
14 |
14
삭제
|
15 |
15
제10항에 있어서, 합성된 상기 음성 특징벡터를 그리핀-림 알고리즘(Griffin-lim algorithm)을 이용하여 음성으로 변환하는 음성 재구성부를 더 포함하는, 음성 합성 시스템
|