1 |
1
음성 신호를 복수의 프레임으로 분할하고, 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 주파수 변환부;상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 크기 특징 추출부;상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 위상 특징 추출부;상기 크기 특징과 상기 위상 특징을 심층 신경망의 입력으로 하고, 음절 핵을 검출하되, 상기 심층 신경망은 음소의 분류 항목을 다중 프레임 출력으로 구성하는 것인 음절 핵 검출부; 상기 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출하는 음성 검출부;상기 검출된 음절 핵과 상기 검출된 음성 구간의 시간을 이용하여 발성 속도를 결정하는 발성 속도 결정부;상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 계산부; 및상기 시간축 변환 정도를 이용하여 음향 모델에 적합한 음성의 길이로 변환하는 시간축 변환부;를 포함하는 자연어 인식 성능 개선 장치
|
2 |
2
제1항에 있어서,상기 크기 특징은 멜-스케일 필터뱅크 로그 에너지, MFCC, LPC, 피치, 하모닉 성분, 스펙트럼 평탄도 중 적어도 하나를 포함하는 것인 자연어 인식 성능 개선 장치
|
3 |
3
제1항에 있어서,상기 위상 특징은 델타-위상 스펙트럼, 위상 왜곡 편차, 그룹 지연, 순환 분산 중 적어도 하나를 포함하는 것인 자연어 인식 성능 개선 장치
|
4 |
4
제1항에 있어서,상기 시간축 변환 정도는 변화율 또는 중첩률 중 어느 하나인 것인 자연어 인식 성능 개선 장치
|
5 |
5
제1항에 있어서,상기 음성 검출부는,깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하고 우도비 검정을 수행하는 것인 자연어 인식 성능 개선 장치
|
6 |
6
제1항에 있어서,상기 음절 핵 검출부에서 사용하는 심층 신경망은,훈련 음성 신호와, 훈련 음성 신호의 전사 정보를 입력으로 하고,상기 훈련 음성 신호를 주파수 영역으로 변환하여 크기 특징 및 위상 특징을 추출하고, 상기 훈련 음성 신호의 전사 정보로부터 상기 음소의 분류 항목을 상기 다중 프레임 출력으로 구성하고, 상기 크기 특징, 위상 특징을 입력으로 하고 상기 다중 프레임 출력으로 구성된 음소의 분류 항목을 출력으로 하는 심층 신경망을 훈련하고, 크로스 엔트로피를 기준치로 하여 역전파 알고리즘으로 훈련하는 것인 자연어 인식 성능 개선 장치
|
7 |
7
제6항에 있어서,상기 음소의 분류 항목은묵음, 자음, 음절 핵 및 연속 음절 핵을 포함하는 것인 자연어 인식 성능 개선 장치
|
8 |
8
제6항에 있어서,상기 다중 프레임 출력은음성 신호의 전사 정보와 음성 인식기를 사용하여 강제 정렬을 수행함으로써 음소의 분류 항목에 해당하는 음성 신호 구간을 추정하고, 이웃 프레임들의 음소의 분류 항목을 묶어 다중 프레임 출력하는 것인 자연어 인식 성능 개선 장치
|
9 |
9
(1) 소정의 시간 간격으로 음성 신호를 복수의 프레임으로 분할하고 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 단계; (2) 상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 단계; (3) 상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 단계; (4) 상기 크기 특징과 위상 특징을 심층 신경망의 입력으로 사용하여 음절 핵을 검출하되, 음소의 분류 항목을 다중 프레임 출력으로 구성하는 단계; (5) 상기 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출하는 단계;(6) 상기 검출된 음절 구간의 시간을 이용하여 발성 속도를 결정하는 단계; (7) 상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 단계; 및 (8) 상기 시간축 변환 정도를 이용하여 음향 모델에 적합하게 음성의 길이를 변환하는 단계;를 포함하는 자연어 인식 성능 개선 방법
|
10 |
10
제9항에 있어서,상기 (2) 단계는, 상기 크기 특징으로서, 멜-스케일 필터뱅크 로그 에너지, MFCC, LPC, 피치, 하모닉 성분, 스펙트럼 평탄도를 추출하는 단계인 것인 자연어 인식 성능 개선 방법
|
11 |
11
제9항에 있어서,상기 (3) 단계는, 상기 위상 특징으로서, 델타-위상 스펙트럼, 위상 왜곡 편차, 그룹 지연, 순환 분산를 추출하는 단계인 것인 자연어 인식 성능 개선 방법
|
12 |
12
제9항에 있어서,상기 (7) 단계는, 상기 시간축 변환 정도로서, 변화율 또는 중첩률 중 어느 하나를 계산하는 단계인 것인 자연어 인식 성능 개선 방법
|
13 |
13
제9항에 있어서,상기 (5) 단계는, 깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하고 우도비 검정을 수행하는 단계인 것인 자연어 인식 성능 개선 방법
|
14 |
14
제9항에 있어서,상기 (4) 단계는, 상기 심층 신경망의 입력으로서, 훈련 음성 신호와, 훈련 음성 신호의 전사 정보를 이용하고,상기 훈련 음성 신호를 주파수 영역으로 변환하여 크기 특징 및 위상 특징을 추출하고, 상기 훈련 음성 신호의 전사 정보로부터 상기 음소의 분류 항목을 상기 다중 프레임 출력으로 구성하고, 상기 크기 특징, 위상 특징을 입력으로 하고 상기 다중 프레임 출력으로 구성된 음소의 분류 항목을 출력으로 하는 심층 신경망을 훈련하고, 크로스 엔트로피를 기준치로 하여 역전파 알고리즘으로 훈련하는 단계인 것인 자연어 인식 성능 개선 방법
|
15 |
15
제14항에 있어서,상기 음소의 분류 항목은,묵음, 자음, 음절 핵 및 연속 음절 핵을 포함하는 것인 자연어 인식 성능 개선 방법
|
16 |
16
제14항에 있어서,상기 다중 프레임 출력은음성 신호의 전사 정보와 음성 인식기를 사용하여 강제 정렬을 수행함으로써 음소의 분류 항목에 해당하는 음성 신호 구간을 추정하고, 이웃 프레임들의 음소의 분류 항목을 묶어 다중 프레임 출력하는 것인 자연어 인식 성능 개선 방법
|