1 |
1
잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법에 있어서, 음성 데이터베이스(DB)와 실내 임펄스 응답(RIR) 데이터베이스(DB)로부터 훈련을 위한 잔향 음성을 생성하는 단계; 생성된 상기 잔향 음성에 대한 다중 선형 예측을 수행하여 다중 선형 예측 결과를 출력하는 단계; 상기 다중 선형 예측 결과들의 가중합을 위한 가중치를 추정하는 단계; 상기 다중 선형 예측 결과들과 추정된 상기 가중치로부터 최종 잔향 제거 음성을 추정하는 단계; 및 상기 가중치를 추정하는 가중치 추정 모델로부터 잔향 환경 임베딩 벡터를 추출하는 단계를 포함하는, 잔향 환경 임베딩 추출 방법
|
2 |
2
제1항에 있어서,추정된 상기 최종 잔향 제거 음성과 잔향이 추가되기 이전의 원본 음성의 손실 함수를 통해 전체 모델을 훈련하는 단계를 더 포함하는, 잔향 환경 임베딩 추출 방법
|
3 |
3
제1항에 있어서,상기 다중 선형 예측 결과를 출력하는 단계는, 상기 잔향 음성을 멜 스펙트로그램(mel spectrogram)으로 변환 후 선형 예측 모델에 입력하여 제로 패딩(zero padding)을 적용하고, 선형 예측 계수들로 이루어진 합성곱 신경망(Convolutional Neural Network)을 통과시켜 상기 다중 선형 예측 결과를 출력하는 것을 특징으로 하는, 잔향 환경 임베딩 추출 방법
|
4 |
4
제1항에 있어서,상기 가중치를 추정하는 단계는, 상기 잔향 음성을 로그 멜 스펙트로그램(log mel spectrogram)으로 변환 후 가중치 추정 모델에 입력하여 제로 패딩을 적용하고, 합성곱 신경망을 통과시켜 출력을 획득하고, 각각의 시간-주파수 인덱스에 속하는 값들에 소프트맥스(softmax) 함수를 적용하여 0 내지 1 사이 값을 가지며 합이 1이 되는 가중치로 변환하는 것을 특징으로 하는, 잔향 환경 임베딩 추출 방법
|
5 |
5
제1항에 있어서,상기 최종 잔향 제거 음성을 추정하는 단계는, 상기 다중 선형 예측 결과들과 추정된 상기 가중치들을 요소별 곱셈(element-wise multiplication)을 함에 따라, 각각의 시간-주파수 인덱스에 대해 선형 예측 결과와 가중치가 곱해진 결과를 획득한 후, 각각의 시간-주파수 인덱스에서 선형 예측 계수의 집합 C개의 값을 더하여 상기 최종 잔향 제거 음성의 추정 값을 획득하는 것을 특징으로 하는, 잔향 환경 임베딩 추출 방법
|
6 |
6
제1항에 있어서,상기 잔향 환경 임베딩 벡터를 추출하는 단계는, 대상 음성 신호를 로그 멜 스펙트로그램으로 변환한 후, 상기 가중치 추정 모델에 입력하여 출력을 획득하고, 획득된 상기 가중치에서 각 채널-주파수에 대해 프레임 값들의 평균을 취하여 행렬을 획득하며, 상기 행렬의 요소들을 재배열하여 상기 잔향 환경 임베딩 벡터를 추출하는 것을 특징으로 하는, 잔향 환경 임베딩 추출 방법
|
7 |
7
제2항에 있어서,상기 손실 함수를 통해 전체 모델을 훈련하는 단계는, 획득한 상기 최종 잔향 제거 음성과 상기 음성 데이터베이스(DB)의 원본 음성을 각각 로그 멜 스펙트로그램으로 변환한 후, 두 개의 로그 멜 스펙트로그램 사이의 손실 함수가 수렴할 때까지 역전파 알고리즘을 통한 신경망 훈련을 반복하는 것을 특징으로 하는, 잔향 환경 임베딩 추출 방법
|
8 |
8
잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 장치에 있어서, 음성 데이터베이스(DB)와 실내 임펄스 응답(RIR) 데이터베이스(DB)로부터 훈련을 위한 잔향 음성을 생성하는 잔향 음성 생성부; 생성된 상기 잔향 음성에 대한 다중 선형 예측을 수행하여 다중 선형 예측 결과를 출력하는 선형 예측 모델; 상기 다중 선형 예측 결과들의 가중합을 위한 가중치를 추정하는 가중치 추정 모델; 상기 다중 선형 예측 결과들과 추정된 상기 가중치로부터 최종 잔향 제거 음성을 추정하는 잔향 제거 음성 추정부; 및 상기 가중치를 추정하는 가중치 추정 모델로부터 잔향 환경 임베딩 벡터를 추출하는 임베딩 추출부를 포함하는, 잔향 환경 임베딩 추출 장치
|
9 |
9
제8항에 있어서,추정된 상기 최종 잔향 제거 음성과 잔향이 추가되기 이전의 원본 음성의 손실 함수를 통해 전체 모델을 훈련하는 잔향 제거 오토 인코더 훈련부를 더 포함하는, 잔향 환경 임베딩 추출 장치
|
10 |
10
제8항에 있어서,상기 임베딩 추출부는, 대상 음성 신호를 로그 멜 스펙트로그램으로 변환한 후, 상기 가중치 추정 모델에 입력하여 출력을 획득하고, 획득된 상기 가중치에서 각 채널-주파수에 대해 프레임 값들의 평균을 취하여 행렬을 획득하며, 상기 행렬의 요소들을 재배열하여 상기 잔향 환경 임베딩 벡터를 추출하는 것을 특징으로 하는, 잔향 환경 임베딩 추출 장치
|