1 |
1
DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치에 있어서, 다수의 마이크로부터 입력되는 마이크 입력신호들을 각각 입력받아 STFT(Short-Time Fourier Transform) 처리하는 다수의 STFT;상기 다수의 STFT 처리부가 출력하는 STFT 처리된 마이크 입력신호들을 입력받아 DCICA 처리를 이행하며, 타겟추정신호와 잡음추정신호를 생성하는 DCICA(Direction of arrival(DOA) Constrained Independent Component Analysis(ICA))부;상기 STFT 처리된 마이크 입력신호들 중 어느 하나인 제1마이크 입력신호와, 상기 DCICA부가 출력하는 타겟추정신호와 잡음추정신호를 입력받아 LMPSC(logarithmic mel-frequency power spectral coefficient) 처리하여 스펙트럴 형태로 변환하여 출력하는 다수의 LMPSC 처리부; 상기 LMPSC 처리부가 출력하는 스펙트럴 형태로 변환되어 출력되는 제1마이크 입력신호와 타겟추정신호와 잡음추정신호를 입력받아 특징강화된 최종 타겟추정신호를 생성하는 DNN 기반 FE(DNN-Based Feature Enhancement) 처리부; 및 상기 최종 타겟추정신호를 제공받아 음성인식을 수행하는 ASR(Automatic Speech Recognition) 처리부;로 구성됨을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치
|
2 |
2
제1항에 있어서, 상기 DCICA부가 출력하는 잡음추정신호의 스케일을 가변하는 스케일링부;상기 스케일링부가 출력하는 스케일링된 잡음추정신호를 입력받아 LMPSC 처리하여 스펙트럴 형태로 변환하여 출력하는 LMPSC;상기 LMPSC가 출력하는 스펙트럴 형태로 변환된 스케일링된 잡음추정신호와 상기 DCICA가 출력하는 타겟추정신호를 입력받아 HMM(hidden markov model) 기반 FE 처리하여 특징 강화된 타켓추정신호를 생성하여 상기 DNN 기반 FE 처리부로 제공하는 HMM 기반 FE 처리부;를 더 구비하며, 상기 DNN 기반 FE 처리부는 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟신호를 생성하며, 상기 DNN 기반 FE 처리부로 입력되는 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호는 스펙트럴 형태임을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치
|
3 |
3
제1항에 있어서, 상기 특징 강화된 최종 타겟추정신호를 DCT 처리하여 상기 ASR 처리부로 제공하는 DCT 처리부를 더 구비함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치
|
4 |
4
제1항에 있어서, 상기 DNN 기반 FE 처리부는 다수의 인접 프레임으로부터의 상기 마이크 입력신호와 상기 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟추정신호를 생성함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식장치
|
5 |
5
DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법에 있어서, 다수의 마이크로부터 입력되는 마이크 입력신호들을 각각 입력받아 STFT 처리하여 STFT 처리된 마이크 입력신호들을 생성하는 단계;상기 STFT 처리된 마이크 입력신호들을 DCICA 처리를 이행하며, 타겟추정신호와 잡음추정신호를 생성하는 단계;상기 STFT 처리된 마이크 입력신호들 중 어느 하나인 제1마이크 입력신호와, DCICA부가 출력하는 타겟추정신호와 잡음추정신호에 대해 LMPSC 처리하여 스펙트럴 형태로 변환하는 단계; 상기 스펙트럴 형태로 변환되어 출력되는 제1마이크 입력신호와 타겟추정신호와 잡음추정신호에 대해 DNN 기반 FE 처리하여 특징강화된 최종 타겟추정신호를 생성하는 단계; 및 상기 최종 타겟추정신호로부터 음성인식을 수행하는 단계;를 구비함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법
|
6 |
6
제5항에 있어서, 상기 잡음추정신호의 스케일을 가변하는 단계; 상기 스케일링된 잡음추정신호에 대해 LMPSC 처리하여 스펙트럴 형태로 변환하는 단계;상기 스펙트럴 형태로 변환된 스케일링된 잡음추정신호와 상기 타겟추정신호에 따라 HMM 기반 FE 처리하여 특징 강화된 타켓추정신호를 생성하는 단계;를 더 구비하며,상기 DNN 기반 FE 처리시에, 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟신호를 생성하며, 상기 DNN 기반 FE 처리시에, 상기 제1마이크 입력신호와 상기 특징 강화된 타켓추정신호와 상기 잡음추정신호는 스펙트럴 형태임을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법
|
7 |
7
제5항에 있어서, 상기 특징 강화된 최종 타겟추정신호에 대한 음성인식 전에 DCT 처리하는 단계;를 더 구비함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법
|
8 |
8
제5항에 있어서, 상기 DNN 기반 FE 처리시에는 다수의 인접 프레임으로부터의 상기 마이크 입력신호와 상기 타켓추정신호와 상기 잡음추정신호를 입력받아 특징강화된 최종 타겟추정신호를 생성함을 특징으로 하는 DCICA를 이용한 DNN 기반 특징향상을 수행하는 음성인식방법
|