1 |
1
(a) 평가 모듈이 임의의 원음성 및 보코더에 의해 생성되는 보코더 통과 음성을 입력받는 단계;(b) 상기 평가 모듈이 상기 임의의 원음성 및 보코더 통과 음성을 시간 단위의 프레임으로 나누고 각각의 프레임으로부터 음성 특징을 추출하여 특징 벡터로 사용하는 단계;(c) 상기 평가 모듈이 상기 특징 벡터를 DNN(Deep Neural Network) 회귀 모델에 인가하여 각 프레임별 음성 명료도 차이를 산출하는 단계; 및(d) 상기 평가 모듈이 상기 각 프레임별 음성 명료도 차이를 합산하여 상기 임의의 원음성의 전체에 대한 명료도 차이 점수를 산출하는 단계;를 포함하며,상기 (d) 단계는, 상기 임의의 원음성에 대해 voice activity detection(VAD)를 활용해 각 프레임별 음성 존재 확률을 계산하는 단계;상기 각 프레임별 음성 명료도 차이 점수를 상기 음성 존재 확률에 비례하여 가중치를 주어 전제 음성에 대해 합산하는 단계; 및 각 프레임별 가중치값의 합으로 나누어 미리 설정되는 범위로 스케일링 한 후 최종 음성 명료도 차이 점수를 출력하는 단계;를 포함하는 것을 특징으로 하는 딥 러닝 기반 보코더 통과 음성 명료도 평가 방법
|
2 |
2
제 1 항에 있어서, 상기 (b) 단계는, 상기 임의의 원음성 및 보코더 통과 음성을 시간 단위의 프레임으로 나누고 각각의 프레임으로부터 음성 특징 벡터들을 추출하는 단계; 및상기 음성 특징 벡터들을 하나의 벡터로 합쳐서 각 프레임의 특징 벡터로 사용하는 단계;를 포함하는 것을 특징으로 하는 딥 러닝 기반 보코더 통과 음성 명료도 평가 방법
|
3 |
3
제1항에 있어서, 상기 (c) 단계는, 상기 임의의 원음성의 특징 벡터 및 보코더 통과 음성의 특징 벡터의 선형적인 상관관계 및 DNN 회귀 모델 사이의 복합적인 비선형성 관계를 모델링하여 음성 명료도 차이를 판단하는 것을 특징으로 하는 딥 러닝 기반 보코더 통과 음성 명료도 평가 방법
|
4 |
4
제1항에 있어서, 상기 DNN 회귀 모델은 특징 벡터가 입력될 때 해당 입력에 대한 음성 명료도 차이를 출력하도록 DNN 훈련 절차에 의해 생성되며, 상기 DNN 훈련 절차는, DNN 훈련을 위한 훈련 데이터를 준비하는 단계;상기 훈련 데이터로부터 특징 벡터를 추출하는 단계; 상기 특징 벡터를 입력으로 하고, 미리 설정되는 목표 MOS(mean opinion score) 점수로 훈련하는 단계;상기 목표 MOS 점수와 DNN(Deep Neural Network)의 출력 점수간의 차이가 줄어드는 방향으로 가중치값을 조정하는 단계; 및 최종적으로 상기 DNN의 출력이 상기 목표 MOS와 동일한 값이 나올 수 있도록 조정하는 단계;를 포함하는 것을 특징으로 하는 딥 러닝 기반 보코더 통과 음성 명료도 평가 방법
|
5 |
5
삭제
|
6 |
6
제2항에 있어서,상기 음성 특징 벡터들은 시간-주파수(spectro-temporal) 특징, 피치(pitch), 선형 예측 계수(LPC: linear prediction coefficient)를 포함하는 것을 특징으로 하는 딥 러닝 기반 보코더 통과 음성 명료도 평가 방법
|
7 |
7
제 4 항에 있어서,상기 훈련 데이터는, 음성 데이터에 실제 환경 고려를 위하여 잡음을 인가한 원음성 데이터, 상기 원음성 데이터를 여러 종류의 보코더에 통과시켜 생성한 보코더 통과 음성 데이터, 및 상기 원음성과 보코더 통과 음성간의 명료도 차이를 평가하여 평균한 음성 명료도 차이 점수인 목표 MOS(mean opinion score) 점수로 이루어지는 것을 특징으로 하는 딥 러닝 기반 보코더 통과 음성 명료도 평가 방법
|
8 |
8
임의의 원음성을 이용하여 보코더 통과 음성을 생성하는 보코더; 및상기 임의의 원음성 및 보코더 통과 음성을 입력받아
|