1 |
1
음성 검출 장치에서 수행되는 통계모델 기반의 음성 검출 방법으로서, 음성 검출 장치가,(1) 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비(SNR) 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하는 단계;(2) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키는 단계;(3) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키는 단계; 및(4) 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 단계를 포함하되,상기 단계 (1)은,(1-1) 상기 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환하는 단계;(1-2) 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출하는 단계;(1-3) 산출된 주파수 대역의 분산을 이용하여 사후 신호 대 잡음비 및 사전신호 대 잡음비를 산출하는 단계; 및(1-4) 사전 신호 대 잡음비 및 사후 신호 대 잡음비를 이용하여 주파수 대역의 우도비를 산출하는 단계를 포함하며,상기 심화 신경망은 딥 빌리프 네트워크(deep belief network, DBN)에 기초한 신경망이고,상기 단계 (2)는,(2-1) 상기 선행 학습을 위하여, 각각의 제한 볼츠만 기계(restricted Boltzmann machine, RBM)를 순차적으로 초기화하는 단계를 포함하며,상기 단계 (2)에서는,상기 선행 학습에 의해, 하기의 [수학식 1]과 같이 에너지 함수 E(v,h)가 최소화되되,[수학식 1]v는 가시 층의 노드 벡터를 나타내고, h는 은닉 층의 노드 벡터를 나타내며, a와 b는 각각 바이어스 벡터를 나타내며, w는 은닉 층의 가중치 매트릭스를 나타내고,상기 단계 (2)에서는,하기의 [수학식 2]에 따른 학습 규칙을 갖되,[수학식 2]i 및 j는 각각 가시 노드 및 은닉 노드의 인덱스를 나타내고, ε은 학습률을 나타내며, 연산 003c#·003e#는 각 분포의 기대치를 나타내며,상기 학습 규칙은,하기의 [수학식 3]에 따른 확률 p의 로그 확률 미분으로부터 유도되고,[수학식 3]상기 확률 p는 가시 층 및 은닉 층 사이의 확률로서, 하기의 [수학식 4]과 같이 상기 에너지 함수를 이용해 나타내어지는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법
|
2 |
2
삭제
|
3 |
3
삭제
|
4 |
4
삭제
|
5 |
5
제1항에 있어서, 상기 단계 (3)에서,상기 역전이 알고리즘을 위한 비용 함수는 하기의 [수학식 5]와 같이 정의되되,[수학식 5]M은 학습에 사용되는 데이터의 개수를 나타내고, K는 출력 노드의 개수를 나타내며, yij 및 tij는 각각, i번째 데이터의 j번째 출력 노드의 음성 신호 및 결과 값을 나타내며,상기 단계 (4)에서는,특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과가 하기의 [수학식 6]과 같이 나타나되,[수학식 6]w는 은닉 층의 가중치 매트릭스를 나타내고, b는 바이어스 벡터를 나타내며, 아래첨자 숫자는 은닉 층의 인덱스를 나타내고, g는 활성 함수로서 시그모이드(sigmoid) 함수를 나타내며, y는 결과 값을 나타내고,특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과는 하기의 [수학식 7]과 같이 단순화되되,[수학식 7]yout은 단순화된 결과 값을 나타내며,상기 단계 (4)에서,상기 결정 함수는, 상기 단순화된 결과 값을 미리 설정된 문턱 값과 비교하여, 상기 단순화된 결과 값이 상기 문턱 값보다 큰 경우 상기 음성 구간으로 분류하고, 상기 단순화된 결과 값이 상기 문턱 값보다 작은 경우, 상기 잡음 구간으로 분류하는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법
|
6 |
6
통계모델 기반의 음성 검출 장치로서,학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하며, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키고, 상기 추출된 특징 벡터의 결과를 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키며, 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 제어부를 포함하되,상기 특징 벡터는,(1-1) 상기 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환하는 단계;(1-2) 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출하는 단계;(1-3) 산출된 주파수 대역의 분산을 이용하여 사후 신호 대 잡음비 및 사전신호 대 잡음비를 산출하는 단계; 및(1-4) 사전 신호 대 잡음비 및 사후 신호 대 잡음비를 이용하여 주파수 대역의 우도비를 산출하는 단계를 통해 추출되고,상기 심화 신경망은 딥 빌리프 네트워크(deep belief network, DBN)에 기초한 신경망이고, 상기 선행 학습에서는 각각의 제한 볼츠만 기계(restricted Boltzmann machine, RBM)가 순차적으로 초기화되며, 상기 선행 학습에 의해, 가시 층 및 은닉 층의 노드 벡터에 의해 표현되는 에너지 함수가 최소화되며,상기 에너지 함수는, 하기의 [수학식 1]과 같이 정의되되,[수학식 1]v는 가시 층의 노드 벡터를 나타내고, h는 은닉 층의 노드 벡터를 나타내고, a와 b는 각각 바이어스 벡터를 나타내며, w는 은닉 층의 가중치 매트릭스를 나타내며,상기 선행 학습에서는 하기의 [수학식 2]에 따른 학습 규칙을 갖되,[수학식 2]i 및 j는 각각 가시 노드 및 은닉 노드의 인덱스를 나타내고, ε은 학습률을 나타내며, 연산 003c#·003e#는 각 분포의 기대치를 나타내고,상기 학습 규칙은,하기의 [수학식 3]에 따른 확률 p의 로그 확률 미분으로부터 유도되며,[수학식 3]상기 확률 p는 가시 층 및 은닉 층 사이의 확률로서, 하기의 [수학식 4]와 같이 상기 에너지 함수를 이용해 나타내어지는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치
|
7 |
7
삭제
|
8 |
8
삭제
|
9 |
9
삭제
|
10 |
10
제6항에 있어서,상기 심화 신경망의 최적화에 사용되는 상기 역전이 알고리즘을 위한 비용 함수는 하기의 [수학식 5]와 같이 정의되되,[수학식 5]M은 학습에 사용되는 데이터의 개수를 나타내고, K는 출력 노드의 개수를 나타내며, yij 및 tij는 각각, i번째 데이터의 j번째 출력 노드의 음성 신호 및 결과 값을 나타내고,특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과는 하기의 [수학식 6]과 같이 나타나되,[수학식 6]w는 은닉 층의 가중치 매트릭스를 나타내고, b는 바이어스 벡터를 나타내며, 아래첨자 숫자는 은닉 층의 인덱스를 나타내고, g는 활성 함수로서 시그모이드(sigmoid) 함수를 나타내며, y는 결과 값을 나타내고,특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 벡터의 결과는 하기의 [수학식 7]과 같이 단순화되되,[수학식 7]yout은 단순화된 결과 값으로서,상기 결정 함수는, 상기 단순화된 결과 값을 미리 설정된 문턱 값과 비교하여, 상기 단순화된 결과 값이 상기 문턱 값보다 큰 경우 상기 음성 구간으로 분류하고, 상기 단순화된 결과 값이 상기 문턱 값보다 작은 경우, 상기 잡음 구간으로 분류하는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치
|