1 |
1
심화신경망(DNN, Deep Neural Network)을 이용한 2 채널 마이크 기반의 음성 검출 방법에 있어서, 분류 단계에서, 잡음환경에 의해 오염된 음성 신호인 입력 신호로부터 기초벡터들을 추출하는 단계; 및 상기 분류 단계에서, 상기 기초벡터들을 미리 학습된 심화신경망을 통과시켜 음성존재확률을 결정하고, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계를 포함하고, 상기 입력 신호는 복수의 마이크로부터 입력되며, 상기 입력 신호들 사이에 상대적인 공간 정보를 포함하며, 상기 입력 신호로부터 기초벡터들을 추출하는 단계는, 두 개의 마이크를 통해 입력된 상기 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하는 단계; 및 고유 분해된 고유벡터 행렬을 정규화하여 위상벡터를 산출하는 단계를 포함하고, 상기 기초벡터는, 롱텀 전력레벨 차이비율(Long-term Power Level Difference Ratio, LT-PLDR), 숏텀 전력레벨 차이비율(Short-term Power Level Difference Ratio, ST-PLDR), 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 어느 하나인 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
|
2 |
2
제1항에 있어서, 상기 심화신경망을 학습시키는 단계를 더 포함하고, 상기 심화신경망(DNN, deep neural network)을 학습시키는 단계는, 상기 학습 단계에서, 주변 잡음환경에 의해 오염된 음성 신호를 입력 받고 이산 푸리에 변환(Discrete Fourier Transform, DFT) 후, 기초벡터들을 추출하는 단계; 및 상기 학습 단계에서, 각 상기 잡음환경에서 추출된 상기 기초벡터들을 이용하여 선행 학습(pre-training) 과정과 미세 조정(fine-tuning) 과정을 통해서 상기 심화신경망을 학습시키는 단계를 포함하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
|
3 |
3
삭제
|
4 |
4
심화신경망(DNN, Deep Neural Network)을 이용한 2 채널 마이크 기반의 음성 검출 방법에 있어서, 분류 단계에서, 잡음환경에 의해 오염된 음성 신호인 입력 신호로부터 기초벡터들을 추출하는 단계; 및 상기 분류 단계에서, 상기 기초벡터들을 미리 학습된 심화신경망을 통과시켜 음성존재확률을 결정하고, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계를 포함하고, 상기 입력 신호는 복수의 마이크로부터 입력되며, 상기 입력 신호들 사이에 상대적인 공간 정보를 포함하며, 상기 입력 신호로부터 기초벡터들을 추출하는 단계는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하는 단계; 및 상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율(LT-PLDR)을 산출하는 단계를 포함하고, 상기 입력 신호로부터 기초벡터들을 추출하는 단계는, 상기 두 개의 마이크로 입력된 상기 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 상기 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여 코히어런스(Coherence) 함수를 구하며, 상기 기초벡터는, 롱텀 전력레벨 차이비율(Long-term Power Level Difference Ratio, LT-PLDR), 숏텀 전력레벨 차이비율(Short-term Power Level Difference Ratio, ST-PLDR), 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 어느 하나인 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
|
5 |
5
제1항 또는 제4항에 있어서, 상기 입력 신호로부터 기초벡터들을 추출하는 단계는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 숏텀 전력레벨 차이(Short-term Power Level Difference, ST-PLD)를 산정하는 단계; 및 상기 숏텀 전력레벨 차이(ST-PLD)로부터 상기 숏텀 전력레벨 차이비율(ST-PLDR)을 산출하는 단계를 포함하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
|
6 |
6
삭제
|
7 |
7
삭제
|
8 |
8
제1항 또는 제4항에 있어서, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계는, 상기 기초벡터들은 학습된 상기 심화신경망으로 입력되어 다수의 은닉층을 통하여 변별력을 가지는 기초벡터들로 재표현되고, 최종적으로 상기 음성존재확률로 나타나 상기 음성 구간 또는 상기 비음성 구간으로 분류되는 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
|
9 |
9
제8항에 있어서, 상기 음성존재확률의 값이 미리 설정된 문턱값보다 클 경우 상기 입력 신호는 상기 음성 신호로 판단되며, 상기 미리 설정된 문턱값보다 작을 경우 상기 입력 신호는 상기 비음성 신호로 판단되는 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
|
10 |
10
심화신경망(DNN, Deep Neural Network)을 이용한 2 채널 마이크 기반의 음성 검출 장치에 있어서, 잡음환경에 의해 오염된 음성 신호인 입력 신호를 입력 받는 입력부; 상기 입력 신호로부터 기초벡터들을 추출하는 기초벡터 추출부; 및 상기 기초벡터들을 미리 학습된 심화신경망을 통과시키는 심화신경망 적용부; 및 상기 기초벡터들의 음성존재확률을 결정하고, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 음성존재확률 결정부를 포함하고, 상기 입력 신호는 복수의 마이크로부터 입력되며, 상기 입력 신호들 사이에 상대적인 공간 정보를 포함하며, 상기 기초벡터 추출부는, 두 개의 마이크를 통해 입력된 상기 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하고, 고유 분해된 고유벡터 행렬을 정규화하여 위상벡터를 산출하며, 상기 기초벡터는, 롱텀 전력레벨 차이비율(Long-term Power Level Difference Ratio, LT-PLDR), 숏텀 전력레벨 차이비율(Short-term Power Level Difference Ratio, ST-PLDR), 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 어느 하나인 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치
|
11 |
11
제10항에 있어서, 상기 심화신경망(DNN, deep neural network)을 학습시키는 학습부를 더 포함하고, 상기 학습부는, 학습 단계에서, 주변 잡음환경에 의해 오염된 음성 신호를 입력 받는 학습부의 입력부; 입력 받은 상기 오염된 음성 신호를 이산 푸리에 변환(Discrete Fourier Transform, DFT)하는 이산 푸리에 변환부; 이산 푸리에 변환 후, 기초벡터들을 추출하는 학습부의 기초벡터 추출부; 및 각 상기 잡음환경에서 추출된 상기 기초벡터들을 이용하여 선행 학습(pre-training) 과정과 미세 조정(fine-tuning) 과정을 통해서 상기 심화신경망을 학습시키는 선행 학습부 및 미세 조정부를 포함하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치
|
12 |
12
삭제
|
13 |
13
심화신경망(DNN, Deep Neural Network)을 이용한 2 채널 마이크 기반의 음성 검출 장치에 있어서, 잡음환경에 의해 오염된 음성 신호인 입력 신호를 입력 받는 입력부; 상기 입력 신호로부터 기초벡터들을 추출하는 기초벡터 추출부; 및 상기 기초벡터들을 미리 학습된 심화신경망을 통과시키는 심화신경망 적용부; 및 상기 기초벡터들의 음성존재확률을 결정하고, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 음성존재확률 결정부를 포함하고, 상기 입력 신호는 복수의 마이크로부터 입력되며, 상기 입력 신호들 사이에 상대적인 공간 정보를 포함하며, 상기 기초벡터 추출부는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하고, 상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율(LT-PLDR)을 산출하며, 상기 두 개의 마이크로 입력된 상기 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 상기 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여 코히어런스(Coherence) 함수를 구하고, 상기 기초벡터는, 롱텀 전력레벨 차이비율(Long-term Power Level Difference Ratio, LT-PLDR), 숏텀 전력레벨 차이비율(Short-term Power Level Difference Ratio, ST-PLDR), 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 어느 하나인 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치
|
14 |
14
삭제
|
15 |
15
제10항 또는 제13항에 있어서, 상기 음성존재확률 결정부는, 상기 기초벡터들은 학습된 상기 심화신경망으로 입력되어 다수의 은닉층을 통하여 변별력을 가지는 기초벡터들로 재표현되고, 최종적으로 상기 음성존재확률로 나타나 상기 음성 구간 또는 상기 비음성 구간으로 분류되는 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치
|