1 |
1
영상 정보로부터 사용자 명령에 해당하는 제스처 특징 정보를 추출하고, 상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 제스처 인식부;음향 정보로부터, 상기 제스처 인식 정보를 이용하여 선정된 음향 구간에서 사용자 명령에 해당하는 음향 특징 정보를 추출하고, 상기 음향 특징 정보로부터 음향 인식 정보를 획득하는 음향 인식부; 및상기 제스처 인식 정보와 상기 음향 인식 정보를 융합하여 융합 인식 정보를 생성하는 융합 인식부를 포함하고,상기 음향 인식부는음향 명령 후보 구간 내에서 윈도우를 프레임 단위로 이동시키는 동적 EPD(End Point Detection) 모듈; 상기 이동된 각 윈도우에 대하여 음향 특징을 추출하고 각 음향 특징에 해당하는 확률 정보와 미리 구축된 EPD 확률 모델을 이용하여 음향 명령 구간과 상기 음향 특징 정보를 추출하는 음향 특징 추출 모듈; 및상기 음향 특징 정보로부터 상기 음향 인식 정보를 획득하는 음향 인식 모듈을 포함하고,상기 EPD 확률 모델은상기 사용자 명령에 해당하는 상기 음향의 시작점과 끝점의 위치를 확률 분포로 저장한 것이고,상기 음향 특징 추출 모듈은상기 EPD 확률 모델을 이용하여 상기 각 윈도우 중에서 확률적으로 가장 높은 윈도우에 해당하는 구간에서 상기 음향 인식 정보를 추출하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템
|
2 |
2
제1항에 있어서,배경음을 수집하고, 상기 수집된 배경음의 음향 특징 정보를 추출하고, 상기 추출된 음향 특징 정보를 기반으로 배경음을 분류하여 모델링한 배경음 모델을 더 포함하고,상기 음향 인식부는 상기 배경음 모델과 음향 모델을 이용하여 배경음과 상기 음향 인식 정보를 획득하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템
|
3 |
3
제1항에 있어서,상기 제스처 인식부는,상기 영상 정보로부터 사람의 신체의 일부를 검출하여 추적하는 휴먼 검출 모듈;상기 휴먼 검출 모듈의 검출 및 추적 결과로부터 상기 제스처 특징 정보를 추출하는 제스처 특징 추출 모듈; 및상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 제스처 인식 모듈을 포함하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템
|
4 |
4
제1항에 있어서,상기 영상 정보의 영상 프레임과 상기 음향 정보의 음향 프레임을 동기화시키는 동기화부를 더 포함하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템
|
5 |
5
제4항에 있어서,상기 동기화부는 상기 음향 프레임에서 제스처가 최초 인식된 시점을 기초로 음향 명령 후보 구간을 선정하고,상기 음향 인식부는 상기 음향 명령 후보 구간 내에서 상기 음향 특징 정보를 추출하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템
|
6 |
6
제5항에 있어서,상기 동기화부는 상기 제스처가 최초 인식된 시점으로부터 일정 구간을 상기 음향 명령 후보 구간으로 선정하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템
|
7 |
7
제5항에 있어서,상기 동기화부는 상기 제스처가 최초 인식된 시점의 일정 시간 이후 시점으로부터 일정 구간을 상기 음향 명령 후보 구간으로 선정하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템
|
8 |
8
삭제
|
9 |
9
제7항에 있어서,상기 음향 인식 모듈은 미리 구축된 음향 모델을 바탕으로 상기 음향 인식 정보를 획득하는 것을 특징으로 하는 제스처/음향 융합 인식 시스템
|
10 |
10
영상 정보로부터 사용자 명령에 해당하는 제스처 특징 정보를 추출하고, 상기 제스처 특징 정보로부터 제스처 인식 정보를 획득하는 단계;음향 정보로부터, 상기 제스처 인식 정보를 이용하여 선정된 음향 구간에서 사용자 명령에 해당하는 음향 특징 정보를 추출하고, 상기 음향 특징 정보로부터 음향 인식 정보를 획득하는 단계; 및상기 제스처 인식 정보와 상기 음향 인식 정보를 융합하여 융합 인식 정보를 생성하는 단계를 포함하고,상기 음향 인식 정보를 획득하는 단계는,음향 명령 후보 구간 내에서 윈도우를 프레임 단위로 이동시키면서 이동된 각 윈도우에 대하여 음향 특징을 추출하고, 각 음향 특징에 해당하는 확률 정보와 미리 구축된 EPD(End Point Detection) 확률 모델을 이용하여 음향 명령 구간과 상기 음향 특징 정보를 추출하는 단계; 및상기 음향 특징 정보로부터 상기 음향 인식 정보를 획득하는 단계를 포함하고,상기 EPD 확률 모델은상기 사용자 명령에 해당하는 상기 음향의 시작점과 끝점의 위치를 확률 분포로 저장한 것이고,상기 음향 특징 정보를 추출하는 단계는상기 EPD 확률 모델을 이용하여 상기 각 윈도우 중에서 확률적으로 가장 높은 윈도우에 해당하는 구간에서 상기 음향 인식 정보를 추출하는 것을 특징으로 하는 제스처/음향 융합 인식 방법
|
11 |
11
제10항에 있어서,상기 음향 정보의 음향 프레임에서 제스처가 최초 인식된 시점을 기초로 음향 명령 후보 구간을 선정하는 단계를 더 포함하고,상기 음향 인식 정보를 획득하는 단계는 상기 음향 명령 후보 구간 내에서 상기 음향 특징 정보를 추출하는 것을 특징으로 하는 제스처/음향 융합 인식 방법
|
12 |
12
삭제
|
13 |
13
제11항에 있어서,상기 음향 인식 정보를 획득하는 단계는, 미리 구축된 배경음 모델과 음향 모델을 이용하여 배경음과 상기 음향 인식 정보를 획득하는 것을 특징으로 하는 제스처/음향 융합 인식 방법
|