1 |
1
음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하고, 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 음성 판별부; 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하는 프레임 레벨 WFST; 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST; 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하는 WFST 결합부; 및 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST가 결합된 결합 WFST를 최소 경로를 갖도록 최적화하는 최적화부;를 포함하는 음성 끝점 검출 장치
|
2 |
2
제1 항에 있어서, 상기 WFST 결합부는 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식 (여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다
|
3 |
3
제2 항에 있어서, 상기 최적화부는 상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식 (여기서, D 는 최적화된 WFST이다
|
4 |
4
제3 항에 있어서, 상기 음성 레벨 WFST는 상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식(여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다
|
5 |
5
제4 항에 있어서, 상기 음성 레벨 WFST는 음성 대기 상태(Sn)의 개수를 기설정된 최소 음성 프레임 카운트(Tm)에 대응하여 설정하고, 노이즈 대기 상태(Nn)의 개수를 기설정된 후단 묵음 프레임 카운트(Tb)에 대응하여 설정하는 것을 특징으로 하는 음성 끝점 검출 장치
|
6 |
6
제5 항에 있어서, 상기 음성 레벨 WFST는 상기 음성 클래스 및 상기 노이즈 클래스의 오분류에 따른 오류가 발생하는 것을 방지하기 위해 행오버 기법을 추가로 적용하여, 상기 음성 레벨 WFST가 수학식(여기서, Vn 은 n 번째 행오버 상태이다
|
7 |
7
제4 항에 있어서, 상기 음성 레벨 WFST는 상기 음성 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 후단 묵음 프레임 카운트(Tb)보다 작게 설정하고, 상기 노이즈 대기 상태 각각에 대한 상기 행오버 상태의 개수를 상기 최소 음성 프레임 카운트(Tm)보다 작게 설정하는 것을 특징으로 하는 음성 끝점 검출 장치
|
8 |
8
음성 신호를 변환한 프레임 단위의 특징 벡터를 수신하여, 음성 끝점을 검출하는 음성 끝점 검출 장치를 이용한 음성 끝점 검출 방법에 있어서, 상기 음성 끝점 검출 장치가 수신된 상기 특징 벡터를 분석하여 음성 클래스 및 노이즈 클래스로 분류하는 단계; 분류된 상기 음성 클래스 및 상기 노이즈 클래스를 수신하여, WFST 형식으로 변환하여 프레임 레벨 WFST를 생성하는 단계; 분류된 상기 음성 클래스 및 상기 노이즈 클래스와 기설정된 상태 사이의 관계를 분석하여 음성의 끝점을 검출하는 음성 레벨 WFST를 생성하는 단계; 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 결합하여 결합 WFST를 획득하는 단계; 및 상기 결합 WFST를 최적화하는 단계;를 포함하는 음성 끝점 검출 방법
|
9 |
9
제8 항에 있어서, 상기 결합 WFST를 획득하는 단계는 상기 프레임 레벨 WFST와 상기 음성 레벨 WFST를 WFST 기본 연산 중 결합 연산(°)을 이용하여 수학식 (여기서, C는 결합 WFST이고, F는 프레임 레벨 WFST이며, U는 음성 레벨 WFST이다
|
10 |
10
제9 항에 있어서, 상기 결합 WFST를 최적화하는 단계는 상기 WFST 기본 연산 중 최소화 연산(min)을 이용하여 수학식 (여기서, D 는 최적화된 WFST이다
|
11 |
11
제9 항에 있어서, 상기 결합 WFST를 최적화하는 단계는 상기 음성 클래스 및 상기 노이즈 클래스에 따른 6개의 상태(NOISE, SPEECH, Sn, Nn, BOU(Begin of utterance), EOU(End of utterance)를 포함하여 수학식(여기서, NOISE는 노이즈 상태를 나타내고, SPEECH 상태는 음성 상태를, BOU는 음성 시작 상태를, EOU는 음성 종료 상태를, Sn 은 n번째(여기서 n은 자연수) 음성 대기 상태를 나타내며, 마지막으로 Nn 은 n번째 노이즈 대기 상태를 나타낸다
|
12 |
12
제8 항 내지 제11 항 중 어느 한 항에 따른 상기 음성 끝점 검출 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록 매체
|