1 |
1
입력 스펙트로그램을 전처리하여 음성 스펙트로그램과 잡음 스펙트로그램을 출력하는 전처리부;상기 음성 스펙트로그램과 잡음 스펙트로그램을 이용하여 음성과 잡음으로 구분되는 이진 마스크를 추정하는 이진 마스크 추정부; 및상기 추정된 이진 마스크를 이용하여 상기 입력 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수에 기초하여 상기 스펙트로그램 내에서 음성활성구간 검출(VAD: Voice Activity Detection)을 수행하는 VAD 수행부;를 포함하는 것을 특징으로 하는 톤 카운팅 기반의 음성활성구간 검출 장치
|
2 |
2
제1항에 있어서,상기 전처리부가 상기 음성 스펙트로그램과 잡음 스펙트로그램 모두를 출력하는 경우, 상기 이진 마스크 추정부는 다음 식을 이용하여 이진 마스크를 추정하는 것을 특징으로 하는 톤 카운팅 기반의 음성활성구간 검출 장치:여기서, Mi(t,k)는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 k에 해당하는 위치의 마스킹값, Xi(t,k)는 i번째 음성 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값, Di(t, k)는 i번째 잡음 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값
|
3 |
3
제1항에 있어서,상기 VAD 수행부는,상기 스펙트로그램을 구성하는 다수의 프레임들 별로 톤의 개수를 카운팅하고, 프레임들 별로 카운팅된 톤의 개수가 음성활성구간 판단을 위해 사전에 정해진 최저 톤 개수 및 최대 톤 개수 사이에 속하면 해당 프레임은 음성활성구간을 포함하는 것으로 판단하는 것을 특징으로 하는 톤 카운팅 기반의 음성활성구간 검출 장치
|
4 |
4
제3항에 있어서,상기 VAD 수행부는 다음 식을 이용하여 프레임 별로 톤의 개수를 카운팅하는 것을 특징으로 하는 톤 카운팅 기반의 음성활성구간 검출 장치:여기서, Tonei(t)는 i번째 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수, BL과 BH는 각각 음성 대역에 해당하는 주파수 인덱스의 처음과 끝, Mi는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 2k에 해당하는 위치의 마스킹값임
|
5 |
5
(A) 전자장치가, 입력 스펙트로그램을 전처리하여 음성 스펙트로그램과 잡음 스펙트로그램을 출력하는 단계;(B) 상기 전자장치가, 상기 음성 스펙트로그램과 잡음 스펙트로그램을 이용하여 음성과 잡음으로 구분되는 이진 마스크를 추정하는 단계; 및(C) 상기 전자장치가, 상기 추정된 이진 마스크를 이용하여 상기 입력 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수에 기초하여 상기 스펙트로그램 내에서 음성활성구간 검출(VAD: Voice Activity Detection)을 수행하는 단계;를 포함하는 것을 특징으로 하는 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법
|
6 |
6
제5항에 있어서,상기 (A) 단계가 상기 음성 스펙트로그램과 잡음 스펙트로그램 모두를 출력하는 경우, 상기 (B) 단계는 다음 식을 이용하여 이진 마스크를 추정하는 것을 특징으로 하는 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법:여기서, Mi(t,k)는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 k에 해당하는 위치의 마스킹값, Xi(t,k)는 i번째 음성 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값, Di(t, k)는 i번째 잡음 스펙트로그램의 t번째 프레임 중 주파수 k에 해당하는 위치의 에너지값
|
7 |
7
제5항에 있어서,상기 (C) 단계는,상기 스펙트로그램을 구성하는 다수의 프레임들 별로 톤의 개수를 카운팅하고, 프레임들 별로 카운팅된 톤의 개수가 음성활성구간 판단을 위해 사전에 정해진 최저 톤 개수 및 최대 톤 개수 사이에 속하면 해당 프레임은 음성활성구간을 포함하는 것으로 판단하는 것을 특징으로 하는 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법
|
8 |
8
제5항에 있어서,상기 (C) 단계는 다음 식을 이용하여 프레임 별로 톤의 개수를 카운팅하는 것을 특징으로 하는 전자장치의 톤 카운팅 기반의 음성활성구간 검출 방법:여기서, Tonei(t)는 i번째 스펙트로그램의 t번째 프레임에 존재하는 톤의 개수, BL과 BH는 각각 음성 대역에 해당하는 주파수 인덱스의 처음과 끝, Mi는 i번째 스펙트로그램에서 t번째 프레임 중 주파수 2k에 해당하는 위치의 마스킹값임
|