1 |
1
오디오 신호를 입력받아 멀티레졸루션 단시간 푸리에 변환(Multi-resolution Short-Time Fourier Transform)과 멜프리퀀시 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜스펙트로그램을 획득하는 멀티레졸루션 분석부;상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산 및 풀링 연산을 실행하여 환경음 라벨 데이터를 출력하는 합성곱 신경망 모듈부;를 포함하는 합성곱 신경망 기반 환경음 인식 시스템
|
2 |
2
제1 항에 있어서,상기 멀티레졸루션 분석부는, 상기 입력된 오디오 신호를 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)을 통해 멀티레졸루션 스펙트로그램(Multi-resolution Spectrogram)으로 변환하고, 상기 멀티레졸루션 스펙트로그램을 비선형 주파수 변환인 멜프리퀀시(mel-frequency)와 삼각 필터뱅크에 기반한 멜프리퀀시 필터뱅크를 통해 멀티레졸루션 멜스펙트로그램(Multi-resolution mel-spectrogram)으로 변환하며, 상기 멀티레졸루션 멜스펙트로그램을 로그 변환해 멀티레졸루션 로그 멜스펙트로그램(Multi-resolution log mel-spectrogram)을 획득하여 상기 합성곱 신경망 모듈부에 출력하는 합성곱 신경망 기반 환경음 인식 시스템
|
3 |
3
제1 항에 있어서,상기 오디오 신호를 학습하기 위해 적어도 하나 이상 학습 데이터를 저장하고 있는 학습 데이터 저장부;를 더 포함하는 합성곱 신경망 기반 환경음 인식 시스템
|
4 |
4
제1 항에 있어서,상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산 및 풀링 연산을 실행하여 획득한 환경음 라벨 데이터를 학습하는 합성곱 신경망 학습 모듈부;를 더 포함하는 합성곱 신경망 기반 환경음 인식 시스템
|
5 |
5
제1 항에 있어서,상기 합성곱 신경망 모듈부는, 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산을 수행하는 적어도 하나 이상의 컨볼루션 레이어(Convolution Layer);상기 컨볼루션 레이어에서 출력된 합성곱 연산 데이터를 풀링 연산하는 적어도 하나 이상의 풀링 레이어(Pooling Layer); 상기 적어도 하나 이상의 풀링 레이어에서 출력된 풀링 연산 데이터를 병합하는 병합 레이어(Merging Layer); 및상기 병합 레이어에서 출력되는 데이터를 입력받아 각 환경음에 대한 확률을 출력하는 연결 레이어(fully connected layer);를 포함하는 합성곱 신경망 기반 환경음 인식 시스템
|
6 |
6
제5 항에 있어서,상기 컨볼루션 레이어는, 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 각 주파수(f) 별로 레이어의 출력을 제곱하고 시간축으로 평균하여 에너지(e_f)를 산출하며, 산출된 에너지(e_f)를 기반으로 각 주파수마다 드랍 아웃(dropout) 확률(p_f)을 결정하는 합성곱 신경망 기반 환경음 인식 시스템
|
7 |
7
제5 항에 있어서,상기 연결 레이어는, 상기 병합 레이어에서 출력되는 데이터를 입력받아 신경망(neural network)을 통해 환경음의 각 클래스에 대한 스코어를 계산하고, softmax 함수를 이용하여 각 환경음에 대한 확률을 출력하는 합성곱 신경망 기반 환경음 인식 시스템
|
8 |
8
제7 항에 있어서,상기 드랍 아웃(dropout) 확률(p_f)은, 다음 수학식에 따라 산출되는,(a, b는 hyper-parameter)합성곱 신경망 기반 환경음 인식 시스템
|
9 |
9
(a) 멀티레졸루션 분석부에서 오디오 신호를 입력받는 단계;(b) 멀티레졸루션 분석부에서 상기 오디오 신호를 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)과 멜프리퀀시(mel-frequency) 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜스펙트로그램을 획득하는 단계;(c) 합성곱 신경망 모듈부에서 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받는 단계;(d) 컨볼루션 레이어에서 상기 멀티레졸루션 로그 멜스펙트로그램을 합성곱 연산하는 단계;(e) 풀링 레이어에서 상기 합성곱 연산 데이터를 풀링 연산하는 단계;(f) 병합 레이어에서 상기 풀링 연산 데이터를 병합하는 단계; 및(g) 연결 레이어에서 상기 병합 데이터를 입력받아 각 환경음에 대한 확률을 출력하는 단계;를 포함하는 합성곱 신경망 기반 환경음 인식 방법
|
10 |
10
제9 항에 있어서,상기 (b) 단계에서 상기 멀티레졸루션 분석부는, 상기 입력된 오디오 신호를 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)을 통해 멀티레졸루션 스펙트로그램(Multi-resolution Spectrogram)으로 변환하고, 상기 멀티레졸루션 스펙트로그램을 비선형 주파수 변환인 멜프리퀀시(mel-frequency)와 삼각 필터뱅크에 기반한 멜프리퀀시 필터뱅크를 통해 멀티레졸루션 멜스펙트로그램(Multi-resolution mel-spectrogram)으로 변환하며, 상기 멀티레졸루션 멜스펙트로그램을 로그 변환해 멀티레졸루션 로그 멜스펙트로그램(Multi-resolution log mel-spectrogram)을 획득하여 상기 합성곱 신경망 모듈부에 출력하는 합성곱 신경망 기반 환경음 인식 방법
|
11 |
11
제9 항에 있어서,상기 (d) 단계에서 상기 컨볼루션 레이어는, 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 각 주파수(f) 별로 레이어의 출력을 제곱하고 시간축으로 평균하여 에너지(e_f)를 산출하며, 산출된 에너지(e_f)를 기반으로 각 주파수마다 드랍 아웃(dropout) 확률(p_f)을 결정하는 합성곱 신경망 기반 환경음 인식 방법
|
12 |
12
제11 항에 있어서,상기 드랍 아웃(dropout) 확률(p_f)은, 다음 수학식에 따라 산출되는,(a, b는 하이퍼 파라미터(hyper-parameter)를 나타냄)합성곱 신경망 기반 환경음 인식 방법
|
13 |
13
제9 항에 있어서,상기 (g) 단계에서 상기 연결 레이어는, 상기 병합 레이어에서 출력되는 데이터를 입력받아 신경망(neural network)을 통해 환경음의 각 클래스에 대한 스코어를 계산하고, softmax 함수를 이용하여 각 환경음에 대한 확률을 출력하는 합성곱 신경망 기반 환경음 인식 방법
|