1 |
1
N*1 차원의 입력 음성에 대한 시간 도메인 샘플을 밀집 연결된 하이브리드 네트워크에 입력하는 단계;상기 시간 도메인 샘플들을 밀집 연결된 하이브리드 네트워크를 구성하는 복수의 밀집 블록(dense block)들에 통과시키는 단계;상기 시간 도메인 샘플들을 상기 복수의 밀집 블록(dense block)들에 통과시켜 M개의 서브 프레임들로 리쉐이핑하는 단계;상기 M개의 서브 프레임들을 N/M 차원의 GRU(gated recurrent unit) 컴포넌트들에 입력하는 단계;상기 M개의 서브 프레임들을 GRU 컴포넌트들에 통과시킴으로써 상기 입력 음성 신호에 대해 노이즈가 제거된 클린 음성을 출력하는 단계를 포함하고,상기 밀집 연결된 하이브리드 네트워크는 컨볼루션 신경망(Convoulution Neural Netrowk: CNN)과 반복 신경망(recurrent neural networks: RNN))이 조합된 네트워크인 음성 처리 방법
|
2 |
2
제1항에 있어서,상기 밀집 연결된 하이브리드 네트워크는, 복수의 밀집 블록들을 포함하고,상기 밀집 블록들 각각은, 복수의 컨볼루션 계층으로 구성되는 음성 처리 방법
|
3 |
3
제1항에 있어서,상기 N*1 차원의 시간 도메인 샘플은, N*D 차원 내지 N*MD 차원의 컨볼루션 계층들로 확장되며, 상기 N*D 차원 내지 N*MD 차원의 컨볼루션 계층들 각각은 연결될 수 있으며,상기 D는 확장율을 의미하고, M은 상기 밀집 블록을 구성하는 컨볼루션 계층의 개수인 음성 처리 방법
|
4 |
4
제1항에 있어서,상기 밀집 연결된 하이브리드 네트워크에 포함된 복수의 밀집 블록들 각각은, 서로 동일한 컨볼루션 계층들을 가짐으로써 반복 신경망으로 표현되는 음성 처리 방법
|
5 |
5
제1항에 있어서,상기 밀집 연결된 하이브리드 네트워크의 가장 마지막 밀집 블록의 출력은 M개의 서브 프레임으로 리쉐이핑되고,상기 M개의 서브 프레임은, N/M 차원의 GRU 컴포넌트들에 입력되는 음성 처리 방법
|
6 |
6
제1항에 있어서,상기 밀집 블록들 각각은, 1D 컨볼루션 연산을 수행함으로써 피쳐와 채널로 조합된 형태의 데이터 텐서를 출력하는 음성 처리 방법
|
7 |
7
제1항에 있어서,상기 밀집 블록들 각각은, 확장률에 따라 1D 컨볼루션 연산 또는 확장된 컨볼루션 연산을 수행하는 음성 처리 방법
|
8 |
8
제1항에 있어서,상기 GRU 컴포넌트들은, 제1 히든 스테이트와 제2 히든 스테이트를 업데이트 게이트에 의해 혼합된 형태로 음성을 향상시키는 음성 처리 방법
|
9 |
9
제8항에 있어서,상기 제2 히든 스테이트는, 상기 GRU 컴포넌트의 입력과 게이트된 이전 히든 스테이트인 제1 히든 스테이트의 선형 조합을 이용하여 결정되는 음성 처리 방법
|
10 |
10
음성 처리 장치에 있어서,상기 음성 처리 장치는, 프로세서를 포함하고,상기 프로세서는, N*1 차원의 입력 음성에 대한 시간 도메인 샘플을 밀집 연결된 하이브리드 네트워크에 입력하고,상기 시간 도메인 샘플들을 밀집 연결된 하이브리드 네트워크를 구성하는 복수의 밀집 블록(dense block)들에 통과시키고,상기 시간 도메인 샘플들을 상기 복수의 밀집 블록(dense block)들에 통과시켜 M개의 서브 프레임들로 리쉐이핑하고,상기 M개의 서브 프레임들을 N/M 차원의 GRU(gated recurrent unit) 컴포넌트들에 입력하고,상기 M개의 서브 프레임들을 GRU 컴포넌트들에 통과시킴으로써 상기 입력 음성 신호에 대해 노이즈가 제거된 클린 음성을 출력하며,상기 밀집 연결된 하이브리드 네트워크는 컨볼루션 신경망(Convoulution Neural Netrowk: CNN)과 반복 신경망(recurrent neural networks: RNN))이 조합된 네트워크인 음성 처리 장치
|
11 |
11
제10항에 있어서,상기 밀집 연결된 하이브리드 네트워크는, 복수의 밀집 블록들을 포함하고,상기 밀집 블록들 각각은, 복수의 컨볼루션 계층으로 구성되는 음성 처리 장치
|
12 |
12
제10항에 있어서,상기 N*1 차원의 시간 도메인 샘플은, N*D 차원 내지 N*MD 차원의 컨볼루션 계층들로 확장되며, 상기 N*D 차원 내지 N*MD 차원의 컨볼루션 계층들 각각은 연결될 수 있으며,상기 D는 확장율을 의미하고, M은 상기 밀집 블록을 구성하는 컨볼루션 계층의 개수인 음성 처리 장치
|
13 |
13
제10항에 있어서,상기 밀집 연결된 하이브리드 네트워크에 포함된 복수의 밀집 블록들 각각은, 서로 동일한 컨볼루션 계층들을 가짐으로써 반복 신경망으로 표현되는 음성 처리 장치
|
14 |
14
제10항에 있어서,상기 밀집 연결된 하이브리드 네트워크의 가장 마지막 밀집 블록의 출력은 M개의 서브 프레임으로 리쉐이핑되고,상기 M개의 서브 프레임은, N/M 차원의 GRU 컴포넌트들에 입력되는 음성 처리 장치
|
15 |
15
제10항에 있어서,상기 밀집 블록들 각각은, 1D 컨볼루션 연산을 수행함으로써 피쳐와 채널로 조합된 형태의 데이터 텐서를 출력하는 음성 처리 장치
|
16 |
16
제10항에 있어서,상기 밀집 블록들 각각은, 확장률에 따라 1D 컨볼루션 연산 또는 확장된 컨볼루션 연산을 수행하는 음성 처리 장치
|
17 |
17
제10항에 있어서,상기 GRU 컴포넌트들은, 제1 히든 스테이트와 제2 히든 스테이트를 업데이트 게이트에 의해 혼합된 형태로 음성을 향상시키는 음성 처리 장치
|
18 |
18
제17항에 있어서,상기 제2 히든 스테이트는, 상기 GRU 컴포넌트의 입력과 게이트된 이전 히든 스테이트인 제1 히든 스테이트의 선형 조합을 이용하여 결정되는 음성 처리 장치
|