1 |
1
음성 검출을 위한 통합 훈련 방법에 있어서, 훈련 시 발생하는 내부 공변량 이동(internal covariate shift) 현상을 감소시키기 위해 배치 정규화(batch normalization)를 이용하는 단계; 음질 개선 DNN(Deep neural network)이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅(gradient weighting) 기법을 이용하는 단계; 및 음질 개선 DNN에서 잡음제거 변분 오토인코더(denoising variational autoencoder)를 이용하는 단계 를 포함하고,상기 음성 검출을 위한 통합 훈련 방법은 음질 개선 DNN을 통해 음성 특징에서 잡음을 제거하도록 음성 특징을 변환하고, 잡음이 제거된 음성 특징을 이용하여 음성 검출 DNN을 통해 음성 검출을 수행하고, 음질 개선 DNN이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅 기법을 이용하는 단계는, 음질 개선 DNN의 비용 함수와 음성 검출 DNN의 비용 함수를 계산하고, 역전파 방식을 이용하여 각 비용 함수에 대한 그레디언트를 구한 후, 계산된 음질 개선 DNN의 비용 함수와 음성 검출 DNN의 비용 함수 각각에 대한 두 개의 그레디언트를 모두 이용하여 두 네트워크의 파라미터를 업데이트하고,음질 개선 DNN에서 잡음제거 변분 오토인코더를 이용하는 단계는, 인코더 확률 분포와 디코더 확률 분포를 모두 대각 가우시안 분포로 가정하고, 인코더 DNN과 디코더 DNN를 통해 각각 대응되는 확률 분포의 평균 및 로그 분산을 예측하기 위하여, 잡음제거 변분 오토인코더의 인코더는 잡음이 있는 음성 특징을 입력으로 이용하여 사후 분포를 매개 변수로 하는 로그 분산 로그와 평균을 예측하고, 잡음제거 변분 오토인코더의 디코더는 인코더의 출력을 샘플링한 값을 입력으로 이용하여 조건부 우도를 매개 변수로 하는 평균 및 로그 분산 로그를 예측하며, 사전 확률을 등방 가우시안 분포로 가정하여, 인코더 확률 분포와 디코더 확률 분포로부터 잠재변수와 관측 변수를 구하여, 변분 하한을 최대화하도록 네트워크 파라미터를 업데이트하는 음성 검출을 위한 통합 훈련 방법
|
2 |
2
제1항에 있어서,훈련 시 발생하는 내부 공변량 이동 현상을 감소시키기 위해 배치 정규화를 이용하는 단계는, 두 네트워크를 결합하여 통합 훈련을 수행하는 경우 발생하는 음질 개선 DNN의 출력 분포의 변분을 감소시키기 위해 두 네트워크 사이에 배치 정규화 레이어를 추가하여 비정규적인 입력 분포를 처리함으로써 내부 공변량 이동 현상을 감소시키는 음성 검출을 위한 통합 훈련 방법
|
3 |
3
삭제
|
4 |
4
제1항에 있어서, 음질 개선 DNN의 파라미터 업데이트를 통해 음성 검출 DNN의 비용 함수를 줄이도록 훈련을 수행하고, 음질 개선 DNN을 통한 음성 검출에 필요한 특징을 출력하는음성 검출을 위한 통합 훈련 방법
|
5 |
5
삭제
|
6 |
6
음성 검출을 위한 통합 훈련 장치에 있어서, 훈련 시 발생하는 내부 공변량 이동(internal covariate shift) 현상을 감소시키기 위해 배치 정규화(batch normalization)를 이용하는 정규화부; 음질 개선 DNN(Deep neural network)이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅(gradient weighting) 기법을 이용하는 가중치부; 및 음질 개선 DNN에서 잡음제거 변분 오토인코더(denoising variational autoencoder)를 이용하는 부호화부를 포함하고,상기 음성 검출을 위한 통합 훈련 장치는 음질 개선 DNN을 통해 음성 특징에서 잡음을 제거하도록 음성 특징을 변환하고, 잡음이 제거된 음성 특징을 이용하여 음성 검출 DNN을 통해 음성 검출을 수행하고, 가중치부는, 음질 개선 DNN의 비용 함수와 음성 검출 DNN의 비용 함수를 계산하고, 역전파 방식을 이용하여 각 비용 함수에 대한 그레디언트를 구한 후, 계산된 음질 개선 DNN의 비용 함수와 음성 검출 DNN의 비용 함수 각각에 대한 두 개의 그레디언트를 모두 이용하여 두 네트워크의 파라미터를 업데이트하고,부호화부는, 인코더 확률 분포와 디코더 확률 분포를 모두 대각 가우시안 분포로 가정하고, 인코더 DNN과 디코더 DNN를 통해 각각 대응되는 확률 분포의 평균 및 로그 분산을 예측하기 위하여, 잡음제거 변분 오토인코더의 인코더는 잡음이 있는 음성 특징을 입력으로 이용하여 사후 분포를 매개 변수로 하는 로그 분산 로그와 평균을 예측하고, 잡음제거 변분 오토인코더의 디코더는 인코더의 출력을 샘플링한 값을 입력으로 이용하여 조건부 우도를 매개 변수로 하는 평균 및 로그 분산 로그를 예측하며, 사전 확률을 등방 가우시안 분포로 가정하여, 인코더 확률 분포와 디코더 확률 분포로부터 잠재변수와 관측 변수를 구하여, 변분 하한을 최대화하도록 네트워크 파라미터를 업데이트하는음성 검출을 위한 통합 훈련 장치
|
7 |
7
제6항에 있어서, 정규화부는, 두 네트워크를 결합하여 통합 훈련을 수행하는 경우 발생하는 음질 개선 DNN의 출력 분포의 변분을 감소시키기 위해 두 네트워크 사이에 배치 정규화 레이어를 추가하여 비정규적인 입력 분포를 처리함으로써 내부 공변량 이동 현상을 감소시키는음성 검출을 위한 통합 훈련 장치
|
8 |
8
삭제
|
9 |
9
제6항에 있어서,음질 개선 DNN의 파라미터 업데이트를 통해 음성 검출 DNN의 비용 함수를 줄이도록 훈련을 수행하고, 음질 개선 DNN을 통한 음성 검출에 필요한 특징을 출력하는음성 검출을 위한 통합 훈련 장치
|
10 |
10
삭제
|