1 |
1
훈련 데이터셋으로부터 시간-주파수 이득값을 추출하고, 행동 가치(action-value) 함수를 선행 학습시키는 초기화 단계; 및 보상(reward)을 통해 학습한 상기 행동 가치 함수를 이용하여 강화학습하여 최적의 시간-주파수 이득값 선택 정책을 획득하고, 상기 최적의 시간-주파수 이득값 선택 정책에 따른 시간-주파수 이득값을 이용하여 음성신호를 향상시키는 훈련 단계를 포함하고, 상기 보상은, PESQ(Perceptual Evaluation of Speech Quality), LLR(Log Likelihood Ratio) 및 WSS(Weighted Spectral Slope)로 구성된 복합 측정(composite measure)을 기반으로 설계되어 상기 강화학습에 적용하는 것을 특징으로 하는, 강화학습 기반의 음성 향상 방법
|
2 |
2
제1항에 있어서, 상기 보상은, 음성 인식률과 상관관계가 있는 복합 측정(composite measure)을 기반으로 설계되어 상기 강화학습에 적용하는 것을 특징으로 하는, 강화학습 기반의 음성 향상 방법
|
3 |
3
삭제
|
4 |
4
제1항에 있어서, 상기 초기화 단계는, 상기 훈련 데이터셋으로부터 시간-주파수 이득값을 추출하는 단계; 추출된 상기 시간-주파수 이득값을 이용하여 K-평균(K-means) 군집화하는 단계; 상기 K-평균 군집화 결과 값을 이용하여 시간-주파수 이득값 템플릿을 생성하는 단계; 및 상기 훈련 데이터셋으로부터 MMSE 기반으로 행동 가치(action-value) 함수를 선행 학습시키는 단계를 포함하는, 강화학습 기반의 음성 향상 방법
|
5 |
5
제4항에 있어서, 상기 훈련 단계는, 상기 보상을 통해 학습한 상기 행동 가치(action-value) 함수를 이용하여 강화학습하여 최적의 시간-주파수 이득값 선택 정책을 획득하는 단계; 상기 최적의 시간-주파수 이득값 선택 정책에 따른 상기 시간-주파수 이득값 템플릿의 해당 시간-주파수 이득값을 이용하여 음성신호를 향상시키는 단계; 및 향상된 상기 음성신호의 복합 측정(composite measure)을 통해 상기 보상을 계산하는 단계를 포함하는, 강화학습 기반의 음성 향상 방법
|
6 |
6
제5항에 있어서, 상기 훈련 단계는, 계산된 상기 보상을 이용한 상기 강화학습을 통해 상기 최적의 시간-주파수 이득값 선택 정책의 업데이트를 반복하는 단계 를 더 포함하는, 강화학습 기반의 음성 향상 방법
|
7 |
7
훈련 데이터셋으로부터 시간-주파수 이득값을 추출하고, 행동 가치(action-value) 함수를 선행 학습시키는 초기화 단계; 및 보상(reward)을 통해 학습한 상기 행동 가치 함수를 이용하여 강화학습하여 최적의 시간-주파수 이득값 선택 정책을 획득하고, 상기 최적의 시간-주파수 이득값 선택 정책에 따른 시간-주파수 이득값을 이용하여 음성신호를 향상시키는 훈련 단계를 포함하고, 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 학습된 강화학습 기반의 심화신경망의 입력으로 인가하는 단계; 상기 학습된 강화학습 기반의 심화신경망을 기반으로 최적의 Q 값을 도출하는 단계; 및 상기 Q 값이 가리키는 상기 최적의 시간-주파수 이득값을 도출하여 향상된 음성신호를 획득하는 단계 를 더 포함하는, 강화학습 기반의 음성 향상 방법
|
8 |
8
훈련 데이터셋으로부터 시간-주파수 이득값을 추출하고, 행동 가치(action-value) 함수를 선행 학습시키는 초기화부; 및 보상(reward)을 통해 학습한 상기 행동 가치 함수를 이용하여 강화학습하여 최적의 시간-주파수 이득값 선택 정책을 획득하고, 상기 최적의 시간-주파수 이득값 선택 정책에 따른 시간-주파수 이득값을 이용하여 음성신호를 향상시키는 훈련부를 포함하고, 상기 보상은, PESQ(Perceptual Evaluation of Speech Quality), LLR(Log Likelihood Ratio) 및 WSS(Weighted Spectral Slope)로 구성된 복합 측정(composite measure)을 기반으로 설계되어 상기 강화학습에 적용하는 것을 특징으로 하는, 강화학습 기반의 음성 향상 시스템
|
9 |
9
제8항에 있어서, 상기 보상은, 음성 인식률과 상관관계가 있는 복합 측정(composite measure)을 기반으로 설계되어 상기 강화학습에 적용하는 것을 특징으로 하는, 강화학습 기반의 음성 향상 시스템
|
10 |
10
삭제
|
11 |
11
제8항에 있어서, 상기 초기화부는, 상기 훈련 데이터셋으로부터 시간-주파수 이득값을 추출하는 이득값 추출부; 추출된 상기 시간-주파수 이득값을 이용하여 K-평균(K-means) 군집화하는 군집화부; 상기 K-평균 군집화 결과 값을 이용하여 시간-주파수 이득값 템플릿을 생성하는 이득값 템플릿부; 및 상기 훈련 데이터셋으로부터 MMSE 기반으로 행동 가치(action-value) 함수를 선행 학습시키는 선행 학습부를 포함하는, 강화학습 기반의 음성 향상 시스템
|
12 |
12
제11항에 있어서, 상기 훈련부는, 상기 보상을 통해 학습한 상기 행동 가치(action-value) 함수를 이용하여 강화학습하여 최적의 시간-주파수 이득값 선택 정책을 획득하는 강화학습부; 상기 최적의 시간-주파수 이득값 선택 정책에 따른 상기 시간-주파수 이득값 템플릿의 해당 시간-주파수 이득값을 이용하여 음성신호를 향상시키는 음성신호 향상부; 및 향상된 상기 음성신호의 복합 측정(composite measure)을 통해 상기 보상을 계산하는 보상 산정부를 포함하는, 강화학습 기반의 음성 향상 시스템
|
13 |
13
제12항에 있어서, 상기 훈련부는, 계산된 상기 보상을 이용한 상기 강화학습을 통해 상기 최적의 시간-주파수 이득값 선택 정책의 업데이트를 반복하는 것을 특징으로 하는, 강화학습 기반의 음성 향상 시스템
|
14 |
14
훈련 데이터셋으로부터 시간-주파수 이득값을 추출하고, 행동 가치(action-value) 함수를 선행 학습시키는 초기화부; 및 보상(reward)을 통해 학습한 상기 행동 가치 함수를 이용하여 강화학습하여 최적의 시간-주파수 이득값 선택 정책을 획득하고, 상기 최적의 시간-주파수 이득값 선택 정책에 따른 시간-주파수 이득값을 이용하여 음성신호를 향상시키는 훈련부를 포함하고, 로그 파워 스펙트럼(Log Power Spectrum, LPS)을 학습된 강화학습 기반의 심화신경망의 입력으로 인가하는 입력부; 상기 학습된 강화학습 기반의 심화신경망을 기반으로 최적의 Q 값을 도출하는 심화신경망; 및 상기 Q 값이 가리키는 상기 최적의 시간-주파수 이득값을 도출하여 향상된 음성신호를 획득하는 출력부 를 더 포함하는, 강화학습 기반의 음성 향상 시스템
|