1 |
1
자동 음소 생성이 가능한 음성 인식 방법에 있어서,음성 데이터의 특징 벡터를 비지도 학습하는 단계;상기 비지도 학습 결과에 기초하여 선정된 음향학적 특성을 클러스터링하여 음소 세트를 생성하는 단계;상기 생성된 음소 세트에 기초하여 상기 음성 데이터에 음소열을 할당하는 단계;상기 음소열이 할당된 음성 데이터 및 상기 음소열에 기초하여 음향 모델을 생성하는 단계; 및상기 음향 모델 및 언어 네트워크가 적용된 음성인식 디코더를 통해 음싱 인식 결과를 생성하는 단계를 포함하는 음성 인식 방법
|
2 |
2
제 1 항에 있어서,상기 음성 데이터는 비전사 음성 데이터인 것인 음성 인식 방법
|
3 |
3
제 2 항에 있어서,상기 음성 데이터의 특징 벡터를 비지도 학습하는 단계는,상기 음성 데이터로부터 상기 특징벡터를 추출하는 단계;상기 추출된 특징벡터를 비지도 학습하는 단계 및상기 비지도 학습 결과에 기초하여 상기 특징벡터에 대응하는 음향학적 패턴을 포함하는 인공 신경망을 생성하는 단계를 포함하는 음성 인식 방법
|
4 |
4
제 3 항에 있어서,상기 음성 데이터로부터 특징벡터를 추출하는 단계는,상기 음성 데이터를 스펙트로그램으로 변환하는 단계;상기 스펙트로그램으로 변환된 음성 데이터를 기 설정된 시간 프레임 단위의 멜-스케일 필터뱅크(mel-scale filterbank)로 변환시켜 제 1 특징벡터를 생성하는 단계 및상기 제 1 특징벡터를 좌우로 기 설정된 프레임 수만큼의 윈도우를 스플라이싱(splicing)하여 제 2 특징벡터를 생성하는 단계를 포함하되,상기 생성된 제 2 특징벡터를 상기 특징벡터로 추출하는 것인 음성 인식 방법
|
5 |
5
제 4 항에 있어서,상기 추출된 특징벡터를 비지도 학습하는 단계는,상기 추출된 특징벡터를 적층 오토인코더(stacked autoencoder)의 입력 노드 및 출력 노드에 배치시켜 상기 특징벡터를 비지도 학습하는 것인 음성 인식 방법
|
6 |
6
제 3 항에 있어서,상기 음성 데이터로부터 특징벡터를 추출하는 단계는,상기 음성 데이터를 스펙트로그램으로 변환하는 단계 및상기 스펙트로그램으로 변환된 음성 데이터를 x 프레임 기준의 2차원 단위로 그룹화하여 특징 매트릭스를 생성하는 단계를 포함하되,상기 생성된 특징 매트릭스를 상기 특징벡터로 추출하는 것인 음성 인식 방법
|
7 |
7
제 6 항에 있어서,상기 추출된 특징벡터를 비지도 학습하는 단계는,상기 추출된 특징벡터를 합성곱 오토인코더(convolutional autoencoder)의 입력 노드 및 출력 노드에 배치시켜 상기 특징벡터를 비지도 학습하는 것인 음성 인식 방법
|
8 |
8
제 3 항에 있어서,상기 비지도 학습 결과에 기초하여 선정된 음향학적 특성을 클러스터링하여 음소 세트를 생성하는 단계는,상기 인공 신경망의 매 입력 데이터에 대한 출력값을 나열하여 상기 음소 세트를 생성하는 것인 음성 인식 방법
|
9 |
9
제 8 항에 있어서,상기 음소 세트를 생성하는 단계는,상기 매 입력 데이터에 대한 출력값을 벡터로 표현하여 나열하는 단계;상기 나열된 벡터 중 벡터 클러스터링에 기초하여 벡터간 거리가 특정 경계값 이하인 벡터들을 추출하는 단계;상기 추출된 벡터들을 평균화하여 그룹 벡터를 생성하는 단계 및상기 나열된 벡터 및 생성된 그룹 벡터에 기초하여 상기 음소 세트를 생성하는 단계를 포함하는 음성 인식 방법
|
10 |
10
제 8 항에 있어서,상기 음소 세트를 생성하는 단계는,상기 매 입력 데이터에 대한 출력값으로 노드의 인덱스를 나열하는 단계 및상기 나열된 인덱스 중 출력 빈도가 기 설정된 횟수 이상인 인덱스를 중심으로 상기 클러스터링을 수행하여 상기 음소 세트를 생성하는 단계를 포함하는 음성 인식 방법
|
11 |
11
제 8 항에 있어서,상기 음성 데이터에 음소열을 할당하는 단계는,상기 인공 신경망에 기초하여 후보 음소열을 나열하는 단계 및상기 생성된 음소 세트와 상기 후보 음소열에 기초하여 최종 음소열을 추출하여 상기 음성 데이터에 상기 최종 음소열을 할당하는 단계를 포함하는 음성 인식 방법
|
12 |
12
제 11 항에 있어서,상기 음향 모델을 생성하는 단계는,상기 음소열이 재할당된 음성 데이터 및 상기 음소열을 이용하여 문맥 독립적인 음소열 모델을 생성하는 단계;상기 문맥 독립적인 음소열 모델 및 상기 음소열의 문맥에 따른 조합에 기초하여 문맥 의존 트리를 생성하는 단계;상기 문맥 의존 트리에 기초하여 문맥 의존 음소에 대한 문맥 의존 상태를 정의하는 단계;상기 음소열을 이용하여 상기 음성 데이터에 상기 정의된 문맥 의존 상태를 할당하는 단계 및상기 할당된 문맥 의존 상태의 정보와 상기 음성 데이터에 기초하여 상기 문맥 의존 상태를 학습시키는 단계를 포함하는 음성 인식 방법
|
13 |
13
제 12 항에 있어서,상기 문맥 의존 상태를 학습시키는 단계는,상기 학습된 문맥 의존 상태의 모델들을 상기 음성 데이터에 재할당시키는 단계 및상기 재할당된 문맥 의존 상태의 정보와 상기 음성 데이터에 기초하여 상기 재할당된 문맥 의존 상태를 학습시키는 단계를 포함하는 음성 인식 방법
|
14 |
14
제 1 항에 있어서,전사 음성 데이터에 기초하여 어절 단위의 발음사전을 생성하는 단계를 더 포함하되,상기 발음사전을 생성하는 단계는,전사 음성 데이터를 어절단위의 구간으로 분할하는 단계;상기 어절단위로 분할된 전사 음성 데이터에 상기 음소열을 할당하는 단계;상기 음소열이 할당된 전사 음성 데이터의 어절에 대응하는 음소열을 정렬하는 단계;상기 정렬된 음소열을 시간축 및 프레임 횟수에 기초하여 정제하는 단계 및상기 정제된 음소열에 기초하여 상기 어절 단위의 발음사전을 생성하는 단계를 포함하는 음성 인식 방법
|
15 |
15
제 14 항에 있어서,상기 어절 단위의 발음사전을 생성하는 단계는,상기 전사 음성 데이터의 어절을 분할하여 생성된 부분 어절 또는 음절 단위의 발음사전을 생성하는 것인 음성 인식 방법
|
16 |
16
제 15 항에 있어서,학습 코퍼스에 의해 생성된 어절기반의 언어모델을 상기 생성된 발음사전과 연동시키는 단계 및상기 연동 결과에 의해 상기 언어 네트워크를 생성하는 단계를 더 포함하는 음성 인식 방법
|
17 |
17
제 16 항에 있어서,상기 발음사전과 연동시키는 단계는,상기 언어모델의 단어 중 상기 어절단위의 발음사전에 포함되지 않은 단어들은 상기 부분 어절 또는 음절 단위의 발음사전과 연동하여 상기 어절단위의 발음사전을 확장하는 단계를 포함하는 음성 인식 방법
|
18 |
18
제 16 항에 있어서,사용자에 의해 입력된 음성 데이터로부터 특징 벡터를 추출하는 단계;상기 생성된 음향 모델 및 상기 언어 네트워크가 적용된 상기 음성인식 디코더에 상기 특징 벡터를 입력시키는 단계 및상기 입력 결과에 기초하여 상기 입력된 음성 데이터의 단어열을 추출하여 상기 음성 인식 결과를 생성하는 단계를 더 포함하는 음성 인식 방법
|
19 |
19
자동 음소 생성이 가능한 음성 인식 시스템에 있어서,음성 인식을 위한 프로그램이 저장된 메모리 및상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,상기 프로세서는 상기 프로그램을 실행시킴에 따라, 비전사 음성 데이터로부터 특징 벡터를 추출하여 비지도 학습을 수행하고, 상기 비지도 학습 결과에 기초하여 선정된 음향학적 특성을 클러스터링하여 음소 세트를 생성하며, 상기 생성된 음소 세트에 기초하여 상기 음성 데이터에 음소열을 할당하며, 상기 음소열이 할당된 음성 데이터 및 상기 음소열에 기초하여 음향 모델을 생성하고, 상기 음향 모델 및 언어 네트워크가 적용된 음성인식 디코더를 통해 음싱 인식 결과를 생성하는 것인 음성 인식 시스템
|