1 |
1
(a) 음성 인식 장치에 입력되는 제1음성을 소정의 프레임으로 분할하는 단계;(b) 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 단계; 및(c) 상기 음성 인식 장치가 상기 변환된 제2음성의 프레임을 인식하는 단계를 포함하되,상기 (b) 단계는,상기 제1음성의 제 n-1 프레임 및 제 n-1 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여 상기 제1음성의 제 n 프레임을 상기 제2음성의 제 n 프레임으로 변환하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법
|
2 |
2
제1항에 있어서, 상기 제1음성 및 제2음성의 프레임은,프레임에 포함되는 음성 신호를 나타내는 특징값을 포함하는 것을 특징으로 하는 음성 인식 방법
|
3 |
3
제1항에 있어서,상기 (b) 단계는,(b-1) 상기 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링하는 단계;(b-2) 상기 복수의 그룹에 각각 대응되는 변환 규칙을 적용하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하는 단계; 및(b-3) 상기 변환된 제2음성의 프레임들을 조합하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법
|
4 |
4
제3항에 있어서,상기 (b-1)단계는,VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 수행되는 것을 특징으로 하는 음성 인식 방법
|
5 |
5
제1항에 있어서, 상기 제1음성은 상기 제2음성보다 더 낮은 음성 인식 우도(likelihood)를 갖는 것을 특징으로 하는 음성 인식 방법
|
6 |
6
제1항에 있어서, 상기 변환 규칙은,상기 음성 인식 장치에 입력된 제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 결정된 변환 규칙인 것을 특징으로 하는 음성 인식 방법
|
7 |
7
(a) 음성 인식 장치에 입력되는 제1음성을 소정의 프레임으로 분할하는 단계;(b) 상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 단계;(c) 상기 음성 인식 장치가 상기 변환된 제2음성의 프레임을 인식하는 단계; 및(d) 상기 음성 인식 장치에 입력된 제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 상기 변환 규칙을 결정하는 단계를 포함하며,상기 (b) 단계는,상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하는 단계를 포함하고,상기 (d) 단계는,(d-1) 상기 제1음성 데이터와 상기 제2음성 데이터를 상기 소정의 프레임으로 분할하는 단계;(d-2) 상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제1변환 규칙을 임의의 값으로 설정하는 단계;(d-3) 상기 프레임들 및 상기 제1변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출하는 단계;(d-4) 상기 제1변수값을 이용하여 상기 제2변환 규칙을 결정하는 단계;(d-5) 상기 프레임들 및 상기 제2변환 규칙을 기초로 상기 프레임들간의 제3변환 규칙에 영향을 미치는 제2변수값을 도출하는 단계;(d-6) 상기 제2변수값을 이용하여 상기 제3변환 규칙을 결정하는 단계; 및(d-7) 상기 프레임들간의 상관 관계를 나타내는 제n변환 규칙의 값이 소정 값으로 수렴할 때까지 상기 (d-5) 및 (d-6) 단계를 반복하여 상기 변환 규칙을 결정하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법
|
8 |
8
제7항에 있어서, 상기 음성 인식 방법은,(k) 상기 제1음성 데이터와 상기 제2음성 데이터의 분할된 프레임들을 복수의 그룹으로 클러스터링하는 단계; 및(l) 상기 복수의 그룹 각각에 대해 상기 (d-2) 내지 (d-7) 단계를 수행하여 상기 복수의 그룹에 각각 대응되는 상기 변환 규칙을 결정하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법
|
9 |
9
제7항에 있어서, 상기 (d-3) 및 (d-5) 단계는,EM(Expectation Maximization) 알고리즘 중 기대(expectation) 단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것을 특징으로 하는 음성 인식 방법
|
10 |
10
제7항에 있어서, 상기 (d-4) 및 (d-6) 단계는,EM(Expectation Maximization) 알고리즘 중 최대화(maximization) 단계로서 우도(likelihood)가 최대화되도록 수행되는 것을 특징으로 하는 음성 인식 방법
|
11 |
11
제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부;상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부; 및상기 제2음성의 프레임들을 인식하는 인식부를 포함하되,상기 음성 변환부는,상기 제1음성의 제 n-1 프레임 및 제 n-1 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 제 n 프레임을 상기 제2음성의 제 n 프레임으로 변환하는 것을 특징으로 하는 음성 인식 장치
|
12 |
12
제11항에 있어서, 상기 제1음성 및 상기 제2음성의 프레임은,프레임에 포함되는 음성 신호를 나타내는 특징값을 포함하는 것을 특징으로 하는 음성 인식 장치
|
13 |
13
제11항에 있어서, 상기 음성 인식 장치는,상기 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링하는 클러스터링부를 더 포함하되,상기 음성 변환부는,상기 복수의 그룹에 각각 대응되는 변환 규칙을 적용하여 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하고, 상기 변환된 제2음성의 프레임들을 조합하는 것을 특징으로 하는 음성 인식 장치
|
14 |
14
제13항에 있어서,상기 클러스터링부는,VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 상기 분할된 제1음성의 프레임들을 클러스터링하는 것을 특징으로 하는 음성 인식 장치
|
15 |
15
제11항에 있어서,상기 제1음성은 상기 제2음성보다 더 낮은 음성 인식 우도를 갖는 것을 특징으로 하는 음성 인식 장치
|
16 |
16
제11항에 있어서,상기 음성 인식 장치는,제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 상기 변환 규칙을 결정하는 변환 규칙 결정부를 더 포함하는 것을 특징으로 하는 음성 인식 장치
|
17 |
17
제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부;제1음성 데이터와 상기 제1음성 데이터보다 음성 인식 우도가 더 큰 제2음성 데이터와의 관계에서 변환 규칙을 결정하는 변환 규칙 결정부;상기 분할된 각각의 프레임에 상기 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부; 및상기 제2음성의 프레임들을 인식하는 인식부를 포함하되,상기 음성 변환부는,상기 제1음성의 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 프레임을 상기 제2음성의 프레임으로 변환하고,상기 변환 규칙 결정부는,(a) 상기 제1음성 데이터와 상기 제2음성 데이터를 소정의 프레임으로 분할하는 단계;(b) 상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들간의 상관 관계를 나타내는 제1변환 규칙을 임의의 값으로 설정하는 단계;(c) 상기 프레임들 및 상기 제1변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제2변환 규칙에 영향을 미치는 제1변수값을 도출하는 단계;(d) 상기 제1변수값을 이용하여 상기 제2변환 규칙을 결정하는 단계;(e) 상기 프레임들 및 상기 제2변환 규칙을 기초로 상기 프레임들간의 상관 관계를 나타내는 제3변환 규칙에 영향을 미치는 제2변수값을 도출하는 단계;(f) 상기 제2변수값을 이용하여 상기 제3변환 규칙을 결정하는 단계; 및(g) 상기 프레임들간의 상관 관계를 나타내는 제n변환 규칙의 값이 소정 값으로 수렴할 때까지 상기 (e) 및 (f) 단계를 반복하는 단계를 포함하여 상기 변환 규칙을 결정하는 것을 특징으로 하는 음성 인식 장치
|
18 |
18
제17항에 있어서, 상기 음성 인식 장치는,상기 제1음성 데이터와 상기 제2음성 데이터의 프레임들을 복수의 그룹으로 클러스터링하는 클러스터링부를 더 포함하되,상기 변환 규칙 결정부는, 상기 복수의 그룹 각각에 대해 상기 (b) 내지 (g)단계를 수행하여 상기 복수의 그룹에 각각 대응되는 상기 변환 규칙을 결정하는 것을 특징으로 하는 음성 인식 장치
|
19 |
19
제17항에 있어서, 상기 (c) 및 (e) 단계는,EM(Expectation Maximization) 알고리즘 중 기대(expectation) 단계로서 칼만 필터링(Kalman filtering)에 의해 수행되는 것을 특징으로 하는 음성 인식 장치
|
20 |
20
제17항에 있어서, 상기 (d) 및 (f) 단계는,EM(Expectation Maximization) 알고리즘 중 최대화(maximization) 단계로서 우도(likelihood)가 최대화되도록 수행되는 것을 특징으로 하는 음성 인식 장치
|
21 |
21
제1음성을 입력받아 소정의 프레임으로 분할하는 음성 입력부; 및상기 분할된 각각의 프레임에 변환 규칙을 적용하여 상기 제1음성의 프레임을 제2음성의 프레임으로 변환하는 음성 변환부를 포함하되,상기 음성 변환부는,상기 제1음성의 제 n-1 프레임 및 제 n-1 프레임의 이전에 위치한 프레임들 중 적어도 하나를 반영하여, 상기 제1음성의 제 n 프레임을 상기 제2음성의 제 n 프레임으로 변환하는 것을 특징으로 하는 음성 인식을 위한 전처리 장치
|