1 |
1
적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법에 있어서,잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계;상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 단계;상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 상기 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계;상기 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계; 및상기 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계; 를 포함하는 음성 향상 훈련 방법
|
2 |
2
제1항에 있어서,상기 적대적 학습은,상기 제3 인공 신경망에서의 역전파(back-propagation) 시, 상기 그레이디언트 반전 레이어를 통해 그레이디언트(gradient)의 부호를 반대로 변환하여 상기 추출된 잠재 변수에서 잡음 특성이 제거되도록 학습하는 것을 특징으로 하는 음성 향상 훈련 방법
|
3 |
3
제1항에 있어서,상기 제1 동작은,상기 추출된 잠재변수를 디코딩하여 원음을 추정하고, 상기 음성 특징 벡터로부터, 상기 추정된 원음의 매그니튜드 스펙트럼(magnitude spectrum)을 출력하는 것을 특징으로 하는 음성 향상 훈련 방법
|
4 |
4
적대적 학습(adversarial training) 모델을 이용한 음성 향상 훈련 장치에 있어서,잡음이 섞인 음성으로부터 특징 벡터를 추출하는 특징 벡터 추출부;상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 인코더;상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 디코더;상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 잡음잠재변수 제거부; 및복원 음성을 생성하는 음성복원부; 를 포함하고,상기 디코더 및 잡음잠재변수 제거부는,서로 적대적 학습을 수행하여 잡음 성분이 제거된 잠재 변수를 출력하고,상기 음성복원부는,상기 출력된 잠재 변수에 기초하여 복원된 상기 복원 음성을 생성하는 것을 특징으로 하는 음성 향상 훈련 장치
|
5 |
5
제4항에 있어서,상기 적대적 학습은,상기 제3 인공 신경망에서의 역전파(back-propagation) 시, 상기 그레이디언트 반전 레이어를 통해 그레이디언트(gradient)의 부호를 반대로 변환하여 상기 추출된 잠재 변수에서 잡음 특성이 제거되도록 학습하는 것을 특징으로 하는 음성 향상 훈련 장치
|
6 |
6
제5항에 있어서,상기 제1 동작은,상기 추출된 잠재변수를 디코딩하여 원음을 추정하고, 상기 음성 특징 벡터로부터, 상기 추정된 원음의 매그니튜드 스펙트럼(magnitude spectrum)을 출력하는 것을 특징으로 하는 음성 향상 훈련 장치
|
7 |
7
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계;상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 단계;상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 상기 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계;상기 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계; 및상기 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계; 를 포함하는 음성 향상 훈련 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는, 컴퓨터 판독 가능한 기록매체
|
8 |
8
컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계;상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 단계;상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 상기 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계;상기 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계; 및상기 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계;를 포함하는 음성 향상 훈련 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는, 컴퓨터 프로그램
|