1 |
1
컴퓨터에 의해 구현되는 뉴럴 보코더(neural vocoder)에 의해 수행되는 음성 신호 생성 방법에 있어서, 스펙트럼 관련 파라미터들(spectral parameter) 및 여기(excitation)의 주기성에 따라 구분되는 여기 관련 파라미터들을 포함하는 복수의 음향 파라미터들을 획득하는 단계;상기 복수의 음향 파라미터들에 기반하여 여기 신호(excitation signal)를 추정하는 단계; 및상기 추정된 여기 신호에 대해 상기 스펙트럼 관련 파라미터들 중 적어도 하나에 기반한 선형 합성 필터를 적용함으로써 타겟 음성 신호를 생성하는 단계 를 포함하는, 음성 신호 생성 방법
|
2 |
2
제1항에 있어서,상기 여기 관련 파라미터들은 소정의 컷오프 주파수를 이하의 여기를 나타내는 제1 여기 파라미터 및 상기 컷오프 주파수 초과의 여기를 나타내는 제2 여기 파라미터를 포함하는, 음성 신호 생성 방법
|
3 |
3
제2항에 있어서,상기 제1 여기 파라미터는 상기 여기의 고조파 스펙트럼(harmonic spectrum)을 나타내고, 상기 제2 여기 파라미터는 상기 여기의 그 외의 부분을 나타내는, 음성 신호 생성 방법
|
4 |
4
제1항에 있어서,상기 스펙트럼 관련 파라미터들은, 음성 신호의 피치를 나타내는 주파수 파라미터, 음성 신호의 에너지를 나타내는 에너지 파라미터, 음성 신호의 유성음(voice) 또는 무성음(unvoice) 여부를 나타내는 파라미터 및 음성 신호의 라인 스펙트럼 주파수(Line Spectral Frequency; LSF)를 나타내는 파라미터를 포함하는, 음성 신호 생성 방법
|
5 |
5
제4항에 있어서,상기 타겟 음성 신호를 생성하는 단계는, 상기 LSF를 나타내는 파라미터를 선형 예측 코딩(Linear Predictive Coding; LPC)으로 변환하는 단계; 및상기 추정된 여기 신호에 대해 상기 변환된 LPC에 기반한 상기 선형 합성 필터를 적용하는 단계를 포함하는, 음성 신호 생성 방법
|
6 |
6
제1항에 있어서,상기 복수의 음향 파라미터들은 입력된 텍스트 또는 입력된 음성 신호에 기반하여 음향 모델(acoustic model)에 의해 생성된 것인, 음성 신호 생성 방법
|
7 |
7
제1항에 있어서,상기 뉴럴 보코더는 훈련을 위해 입력된 음성 신호에 기반하여 훈련된 것이고, 상기 훈련은,상기 입력된 음성 신호에 대해 선형 예측 분석 필터(Linear prediction analysis filter)를 적용함으로써 상기 입력된 음성 신호로부터 여기 신호를 분리하는 단계; 및상기 분리된 여기 신호의 확률 분포를 모델링하는 단계를 포함하고, 상기 여기 신호를 추정하는 단계는,상기 모델링된 여기 신호의 확률 분포를 사용하여, 상기 복수의 음향 파라미터들에 대한 여기 신호를 추정하는, 음성 신호 생성 방법
|
8 |
8
제7항에 있어서,상기 여기 신호를 분리하는 단계는, 상기 입력된 음성 신호의 LSF를 나타내는 파라미터를 선형 예측 코딩(Linear Predictive Coding; LPC)으로 변환하는 단계; 및상기 입력된 음성 신호에 대해 상기 입력된 음성 신호의 변환된 LPC에 기반한 상기 선형 예측 분석 필터를 적용하는 단계를 포함하는, 음성 신호 생성 방법
|
9 |
9
제7항에 있어서,상기 분리된 여기 신호는 상기 입력된 음성 신호에 대한 잔차 성분(residual component)인, 음성 신호 생성 방법
|
10 |
10
컴퓨터에 의해 구현되는 뉴럴 보코더의 훈련 방법에 있어서, 음성 신호를 입력 받는 단계;상기 입력된 음성 신호로부터 스펙트럼 관련 파라미터들 및 여기의 주기성에 따라 구분되는 여기 관련 파라미터들을 포함하는 복수의 음향 파라미터들을 추출하는 단계;상기 입력된 음성 신호에 대해 상기 스펙트럼 관련 파라미터들 중 적어도 하나에 기반한 선형 예측 분석 필터를 적용함으로써 상기 입력된 음성 신호로부터 여기 신호를 분리하는 단계; 및상기 분리된 여기 신호의 확률 분포를 모델링하는 단계를 포함하는, 뉴럴 보코더의 훈련 방법
|
11 |
11
제10항에 있어서,상기 여기 신호를 분리하는 단계는, 상기 스펙트럼 관련 파라미터들 중 상기 입력된 음성 신호의 LSF를 나타내는 파라미터를 LPC로 변환하는 단계; 및상기 입력된 음성 신호에 대해 상기 입력된 음성 신호의 변환된 LPC에 기반한 상기 선형 예측 분석 필터를 적용하는 단계를 포함하는, 뉴럴 보코더의 훈련 방법
|
12 |
12
제10항에 있어서,상기 여기 관련 파라미터들은 소정의 컷오프 주파수를 이하의 여기를 나타내는 제1 여기 파라미터 및 상기 컷오프 주파수 초과의 여기를 나타내는 제2 여기 파라미터를 포함하는, 뉴럴 보코더의 훈련 방법
|
13 |
13
제1항 내지 제12항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 비-일시적인 컴퓨터 판독가능한 기록 매체
|
14 |
14
뉴럴 보코더에 있어서,스펙트럼 관련 파라미터들(spectral parameter) 및 여기(excitation)의 주기성에 따라 구분되는 여기 관련 파라미터들을 포함하는 복수의 음향 파라미터들을 획득하는 파라미터 획득부;상기 복수의 음향 파라미터들에 기반하여 여기 신호(excitation signal)를 추정하는 여기 신호 추정부; 및상기 추정된 여기 신호에 대해 상기 스펙트럼 관련 파라미터들 중 적어도 하나에 기반한 선형 합성 필터를 적용함으로써 타겟 음성 신호를 생성하는 음성 신호 생성부 를 포함하는, 뉴럴 보코더
|
15 |
15
제14항에 있어서,상기 음성 신호 생성부는 상기 스펙트럼 관련 파라미터들 중 음성 신호의 LSF를 나타내는 파라미터를 선형 예측 코딩(Linear Predictive Coding; LPC)으로 변환하는 변환부를 포함하고, 상기 추정된 여기 신호에 대해 상기 변환된 LPC에 기반한 상기 선형 합성 필터를 적용하는, 뉴럴 보코더
|
16 |
16
제14항에 있어서,상기 뉴럴 보코더는 훈련을 위해 입력된 음성 신호에 기반하여 훈련된 것이고, 상기 입력된 음성 신호에 대해 선형 예측 분석 필터(linear prediction analysis filter)를 적용함으로써 상기 입력된 음성 신호로부터 여기 신호를 분리하는 여기 신호 분리부; 및상기 분리된 여기 신호의 확률 분포를 모델링하는 모델링부를 더 포함하고, 상기 여기 신호 추정부는, 상기 모델링된 여기 신호의 확률 분포를 사용하여, 상기 복수의 음향 파라미터들에 대한 여기 신호를 추정하는, 뉴럴 보코더
|
17 |
17
제16항에 있어서, 상기 여기 신호 분리부는 상기 입력된 음성 신호의 LSF를 나타내는 파라미터를 선형 예측 코딩(Linear Predictive Coding; LPC)으로 변환하는 변환부를 포함하고, 상기 입력된 음성 신호에 대해 상기 입력된 음성 신호의 변환된 LPC에 기반한 상기 선형 예측 분석 필터를 적용하는, 뉴럴 보코더
|