1 |
1
음향적 장면으로 분할하고자 하는 오디오자료 혹은 영상물에 등장하는 대상물(사람, 동물, 악기, 음향기기 등을 모두 지칭)이 내는 소리(대상물이 내는 모든 소리를 지칭)별로 소리모델을 생성하여 저장하는 제1단계와, 상기 오디오자료 혹은 영상물로부터 제공되는 임의의 소리의 시작부터 종료까지의 분할구간에서 상기 임의의 소리와 유사도가 가장 높은 소리모델을 해당 분할구간의 소리모델로 설정하는 제2단계, 및 상기 오디오자료 혹은 영상물을 상기 소리모델별로 음향적 장면분할하는 제3단계를 포함한 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
2 |
2
제1항에 있어서, 상기 제1단계는, 상기 대상물이 내는 소리들을 디지털 형태로 변환하는 제1소단계와, 각각의 소리에서 특징 파라미터를 추출하는 제2소단계, 상기 소리의 특징 파라미터를 음성인식에 사용되는 인식모델을 사용하여 모델링하는 제3소단계, 및 상기 각각의 소리에 대한 소리모델을 데이터베이스에 저장하는 제4소단계를 포함하는 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
3 |
3
제2항에 있어서, 상기 인식모델은 은닉 마르코프모델인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
4 |
4
제2항에 있어서, 상기 인식모델은 동적정합모델인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
5 |
5
제2항에 있어서, 상기 인식모델은 신경회로망인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
6 |
6
제2항에 있어서, 상기 인식모델은 벡터양자화모델인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
7 |
7
제2항에 있어서, 상기 인식모델은 음향-지식기반모델인 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
8 |
8
제2항에 있어서, 상기 소리모델은, 소리모델명, 성별, 대상물, 연령, 직업 등 소리모델이 가지는 여러 가지 속성들과 함께 저장되는 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
9 |
9
제1항에 있어서, 상기 제2단계는, 상기 분할구간에서의 소리를 디지털 형태로 변환하는 제1소단계와, 상기 소리에서 특징 파라미터를 추출하는 제2소단계, 상기 분할구간의 소리 특징 파라미터와 소리모델을 정합하는 제3소단계, 및 정합도가 가장 큰 소리모델을 상기 분할구간의 소리모델로 설정하는 제4소단계를 포함하는 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
10 |
10
제9항에 있어서, 상기 제1소단계에서 상기 분할구간은 오디오자료의 분석 단위인 프레임단위로 이루어지는 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
11 |
11
제1항에 있어서, 상기 연결이 단절된 소리모델 구간(disconnected region)을 하나의 구간으로 연결하고, 지나치게 짧은 소리모델 구간은 삭제하며, 중첩된 소리모델 구간(overlapped region)은 소리모델별로 분리하는 등의 처리를 수행하는 후처리단계를 더 포함한 것을 특징으로 하는 오디오/영상물의 음향적 장면분할방법
|
12 |
12
컴퓨터에, 음향적 장면으로 분할하고자 하는 오디오자료 혹은 영상물에 등장하는 대상물(사람, 동물, 악기, 음향기기 등을 모두 지칭)이 내는 소리(대상물이 내는 모든 소리를 지칭)별로 소리모델을 생성하여 저장하는 제1단계와; 상기 오디오자료 혹은 영상물로부터 제공되는 임의의 소리의 시작부터 종료까지의 분할구간에서 상기 임의의 소리와 유사도가 가장 높은 소리모델을 해당 분할구간의 소리모델로 설정하는 제2단계; 상기 오디오자료 혹은 영상물을 상기 소리모델별로 음향적 장면분할하는 제3단계; 및 상기 음향적 장면분할단계 후, 연결이 단절된 소리모델 구간(disconnected region)을 하나의 구간으로 연결하고, 지나치게 짧은 소리모델 구간은 삭제하며, 중첩된 소리모델 구간(overlapped region)은 소리모델별로 분리하는 등의 처리를 수행하는 제4단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
|