1 |
1
배경음악과 소리신호가 혼합된 혼합신호를 입력받아 STFT(Short-term Fourier Transform)하여, 상기 혼합신호의 스펙트로그램과 위상을 출력하는 STFT부;상기 STFT부에서 출력한 상기 스펙트로그램 신호를 입력받아, Densenet(Densely Connected Convolutional Networks) 신경망 모델을 이용하여, 상기 배경음악의 마스크를 추정하는 처리부; 및상기 처리부에서 추정된 마스크와 상기 혼합신호의 스펙트로그램을 합성곱하여 분리신호를 출력하고, 상기 분리신호와 상기 STFT부에서 출력된 위상을 이용해 inverse STFT하여, 상기 혼합신호에 혼합된 배경음악을 복원하는 복원부;를 포함하되,상기 처리부는, 입력되는 신호를 dilated 합성곱(Convolution)하여 출력하는 dilated블록과, 상기 dilated블록의 후단에 연결되되, 연속된 구조의 composite function으로 구성되어 상기 dilated블록의 출력신호를 입력받아 각 단계별 composite function의 입력과 출력을 서로 연결해 출력하는 dense블록으로 구성되는 dilated dense블록을 포함하는 것을 특징으로 하는 배경음악 분리 시스템
|
2 |
2
제1항에 있어서,상기 dilated블록은,입력된 상기 스펙트로그램 신호를 순서대로 batch normalization, rectified linear unit을 한 후 dilated 합성곱한 제1신호와, 상기 스펙트로그램 신호를 composite function한 제2신호와, 입력된 상기 스펙트로그램 신호를 합성곱한 신호를 출력하는 것을 특징으로 하는 배경음악 분리 시스템
|
3 |
3
제2항에 있어서,상기 dilated블록은, 입력된 상기 스펙트로그램 신호를 순서대로 batch normalization과 rectified linear unit을 거친 신호에 소정 확장비율(dilation ratio)을 가지는 커널을 합성곱하여 상기 제1신호를 출력하는 것을 특징으로 하는 배경음악 분리 시스템
|
4 |
4
제1항에 있어서,상기 처리부는,상기 dilated dense블록을 포함하여, 상기 입력부로부터 스펙트로그램을 입력받아 수용범위를 확장하여 출력하는 전처리부; 및단일의 상기 dilated dense블록을 포함하여, 상기 전처리부로부터 신호를 입력받아 추정된 상기 마스크를 출력하는 후처리부;를 포함하는 것을 특징으로 하는 배경음악 분리 시스템
|
5 |
5
제4항에 있어서,상기 전처리부에 포함되는 단일의 상기 dilated dense블록은, 상기 dense블록에서 출력되는 신호의 확장성을 줄이기 위해, 상기 dense블록의 후단에 연결되는 compression블록을 포함하는 것을 특징으로 하는 배경음악 분리 시스템
|
6 |
6
제5항에 있어서,상기 전처리부는,다수개의 상기 dilated dense블록;서로 인접하게 배치된 두 개의 상기 dilated dense블록 사이에 배치되어, 전단에 배치된 상기 dilated dense블록에서 출력되는 신호를 입력받아 down-sampling하여 후단에 배치된 상기 dilated dense블록에 입력하는 자연수 n개의 down-sampling블록; 및서로 인접하게 배치된 두 개의 상기 dilated dense블록 사이에 배치되되, 상기 down-sampling블록보다 후단에 배치되어, 전단에 배치된 상기 dilated dense블록에서 출력되는 신호를 입력받아 up-sampling하여 후단에 배치된 상기 dilated dense블록에 입력하는 자연수 m개의 up-sampling블록;를 포함하는 것을 특징으로 하는 배경음악 분리 시스템
|
7 |
7
제6항에 있어서,상기 down-sampling블록과 상기 up-sampling블록의 개수는 동일하고,m번째 상기 up-sampling블록은, up-sampling한 신호와 n-m번째 상기 down-sampling블록의 출력신호를 합성곱하여, m번째 상기 up-sampling블록의 후단에 위치한 상기 dilated dense블록에 입력하는 것을 특징으로 하는 배경음악 분리 시스템
|
8 |
8
제6항에 있어서,상기 STFT부는 상기 혼합신호를 시간축과 주파수축을 가지는 스펙트로그램을 출력하고,상기 STFT부에서 출력된 스펙트로그램을 주파수대역별로 나누고, 나눠진 주파수대역별 스펙트로그램과 전체 주파수대역에 걸친 스펙트로그램을 상기 처리부에 입력하는 입력부;를 더 포함하는 것을 특징으로 하는 배경음악 분리 시스템
|
9 |
9
제8항에 있어서,상기 전처리부에 포함되는 상기 dilated dense블록들 중, 가장 후단에 위치하는 dilated dense블록은, 상기 입력부에서 입력되는 나눠진 주파수대역별 스펙트로그램과, 전체 주파수대역의 스펙트로그램에 각각에 대해, 상기 시간축, 상기 주파수축, 제1축을 포함하는 3차원 신호들을 출력한 후, 나눠진 주파수대역별 스펙트로그램에 대한 3차원 신호들을 상기 주파수축을 기준으로 병합하고, 병합된 3차원 신호와 전체 주파수대역의 스펙트로그램에 대한 3차원 신호를 상기 제1축을 기준으로 병합하여 상기 후처리부에 출력하는 것을 특징으로 하는 배경음악 분리 시스템
|