1 |
1
말장애 환자로부터 단모음 음성을 수집하는 단모음 음성 수집부;상기 단모음 음성 수집부에서 수집된 단모음 음성 데이터를 프레임 단위로 구분하는 프레임 단위 구분부와, 프레임 에너지가 가장 큰 프레임 및 그 전후 K개의 프레임들로 이루어진 2K + 1개의 프레임에 대해 제1 포먼트(F1), 제2 포먼트(F2), 제3 포먼트(F3) 주파수를 추출하는 포먼트 주파수 추출부와, 포먼트 주파수 추출부에서 추출된 각 프레임의 포먼트 주파수들의 중앙값(median)으로 결정하는 중앙값 결정부와, 말장애 환자의 특정 단모음으로부터 추출한 포먼트 주파수(F1,F2 및 F3)들을 이 단모음에 해당하는 음향모델의 포먼트 주파수(F1M,F2M 및 F3M)들의 쌍선형 변환(bilinear transform)으로 표현할 때 가중제곱오차합이 최소가 되는 쌍선형 변환 계수αSA를 화자적응 파라미터로 구하는 화자적응 파라미터 결정부를 포함하여, 포먼트 기반의 쌍선형 변환 화자적응 파라미터를 추출하는 화자적응 파라미터 추출부;상기 화자적응 파라미터 추출부에서 추출된 화자적응 파라미터를 적용하여 화자 특성을 반영하는 합성음을 생성하는 합성음 생성부;상기 합성음 생성부에서 생성된 합성음의 음색을 선택적으로 튜닝하는 합성음 튜닝부;를 포함하는 것을 특징으로 하는 개인 음색을 반영한 통계적 음성합성 시스템
|
2 |
2
삭제
|
3 |
3
말장애 환자로부터 단모음 음성을 수집하는 단계;수집된 단모음 음성 데이터를 프레임 단위로 구분하는 단계와, 프레임 에너지가 가장 큰 프레임 및 그 전후 K개의 프레임들로 이루어진 2K + 1개의 프레임에 대해 제1 포먼트(F1), 제2 포먼트(F2), 제3 포먼트(F3) 주파수를 추출하는 단계와, 추출된 각 프레임의 포먼트 주파수들의 중앙값(median)으로 결정하는 단계와, 말장애 환자의 특정 단모음으로부터 추출한 포먼트 주파수(F1,F2 및 F3)들을 이 단모음에 해당하는 음향모델의 포먼트 주파수(F1M,F2M 및 F3M)들의 쌍선형 변환(bilinear transform)으로 표현할 때 가중제곱오차합이 최소가 되는 쌍선형 변환 계수αSA를 화자적응 파라미터로 구하는 단계를 포함하고, 포먼트 기반의 쌍선형 변환 화자적응 파라미터를 추출하는 단계;추출된 화자적응 파라미터를 적용하여 화자 특성을 반영하는 합성음을 생성하는 단계;를 포함하는 것을 특징으로 하는 개인 음색을 반영한 통계적 음성합성 방법
|
4 |
4
제 3 항에 있어서, 상기 추출된 화자적응 파라미터를 적용하여 화자 특성을 반영하는 합성음을 생성하는 단계에서,생성된 합성음의 청취 결과를 기반으로 음색을 튜닝하는 단계를 선택적으로 더 수행하는 것을 특징으로 하는 개인 음색을 반영한 통계적 음성합성 방법
|
5 |
5
삭제
|
6 |
6
제 3 항에 있어서, 가중제곱오차합이 최소가 되는 쌍선형 변환 계수αSA를 화자적응 파라미터로 구하는 단계에서,주파수(Hz 단위) 영역에서의 쌍선형 변환식은이고,여기서 와 는 각각 쌍선형 변환 이전 및 이후의 주파수를 의미하며, α는 쌍선형 변환 파라미터인 것을 특징으로 하는 개인 음색을 반영한 통계적 음성합성 방법
|
7 |
7
제 6 항에 있어서, 주파수(Hz 단위) 영역에서의 쌍선형 변환식을 에 대해 정리한 함수 는이고,쌍선형 변환 함수 를 이용하여 말장애 환자의 특정 단모음으로부터 추출한 포먼트 주파수(F1,F2 및 F3)들과 이 단모음에 해당하는 음향모델의 포먼트 주파수(F1M,F2M 및 F3M)의 쌍선형 변환 값들과의 가중제곱오차합은,이고,여기서 가중치 는, 말장애 환자의 음성의 경우 일반인의 음성에 비해 포먼트 주파수 추출의 신뢰도가 떨어짐을 감안하여, 추정된 i번째 포먼트 주파수의 신뢰도를 고려한 가중치인 것을 특징으로 하는 개인 음색을 반영한 통계적 음성합성 방법
|
8 |
8
제 7 항에 있어서, 개별 포먼트 주파수의 신뢰도를 고려하는 가중치 계산은,이고,여기서 와 는 사용된 2K + 1개 프레임의 i번째 포먼트 주파수 들의 평균과 표준 편차값, 함수 g(x)는 x ≥ 0인 범위에 대해 단조증가 특성을 가지는 함수인 것을 특징으로 하는 개인 음색을 반영한 통계적 음성합성 방법
|
9 |
9
제 4 항에 있어서, 생성된 합성음의 청취 결과를 기반으로 음색을 튜닝하는 단계에서,합성음의 운율 특성 중, 음의 고저를 나타내는 억양 특성은 음향 모델의 log F0 파라미터로 표현하며, 합성음의 j번째 프레임에 대해 기존의 log F0 값을 LF0(j),음색변환된 log F0 값을 라고 하면, 음색 변환은,으로 이루어지고,여기서 LF0SA는 합성음의 억양 특성 변환을 위한 사용자 지정 파라미터이고, LF0SA 003e# 0이면 음이 높아지고, LF0SA 003c# 0이면 음이 낮아지게 되고, LF0SA 값을 조절하면서 합성음을 듣고 LF0SA 값을 선정하는 것을 특징으로 하는 개인 음색을 반영한 통계적 음성합성 방법
|
10 |
10
제 4 항에 있어서, 생성된 합성음의 청취 결과를 기반으로 음색을 튜닝하는 단계에서,구해진 화자적응 파라미터를 이용한 쌍선형 변환과 멜-스케일 주파수 변환을 위한 쌍선형 변환을 직렬 연결하여 단일 쌍선형 변환으로 표현하면,쌍선형 변환 파라미터 αF는,이고,여기서, αSA는 가중제곱오차합이 최소가 되는 쌍선형 변환 계수, αM은 멜-스케일 주파수 변환을 위한 쌍선형 변환 계수이고,쌍선형 변환 파라미터 αF를 이용한 스펙트럼 변환의 경우에도, 말장애 환자 본인이 추가적으로 스펙트럼 특성의 변경을 원할 경우, αF 값을 조절하면서 합성음을 들어보고 말장애 환자 본인에게 가장 만족스러운 αF 값을 선정하는 것을 특징으로 하는 개인 음색을 반영한 통계적 음성합성 방법
|