1 |
1
멀티 모달 사용자 인식 방법에 있어서,얼굴 모델 템플릿(face model templates)을 이용하여 입력 영상의 얼굴 특징 벡터에 대한 얼굴 유사도를 계산하는 단계;음성 모델 템플릿(speech model templates)을 이용하여 입력 오디오의 음성 특징 벡터에 대한 음성 유사도를 계산하는 단계;상기 입력 영상과 연관된 조명의 크기를 이용하여 얻어진 제1 가중치를 상기 얼굴 유사도에 적용하여 제1 값을 생성하는 단계;상기 입력 오디오와 연관된 잡음의 크기를 이용하여 얻어진 제2 가중치를 상기 음성 유사도에 적용하여 제2 값을 생성하는 단계; 및상기 제1 값 및 상기 제2 값을 결합하여 얻어진 최종 스코어를 이용하여, 사용자를 인식하는 단계를 포함하고,상기 제1 가중치는, 얼굴 학습 데이터의 조명 크기 및 얼굴 테스트 데이터의 조명 크기에 따른 인식률을 이용하여 획득하고,상기 제2 가중치는, 음성 학습 데이터의 잡음 크기 및 음성 테스트 데이터의 잡음 크기에 따른 인식률을 이용하여 획득하는 것을 특징으로 하는 멀티 모달 사용자 인식 방법
|
2 |
2
제1항에 있어서,상기 입력 영상과 연관된 조명의 크기를 이용하여 얻어진 제1 가중치를 상기 얼굴 유사도에 적용하여 제1 값을 생성하는 단계는,상기 얼굴 학습 데이터의 조명 크기 및 상기 얼굴 테스트 데이터의 조명 크기에 따른 인식률을 저장하는 얼굴 인식률 테이블을 유지하는 단계;상기 입력 영상과 연관된 상기 조명의 크기를 추정하는 단계;상기 얼굴 인식률 테이블 및 상기 추정된 조명의 크기를 이용하여 상기 제1 가중치를 계산하는 단계; 및상기 얼굴 유사도에 상기 제1 가중치를 적용하여 상기 제1 값을 생성하는 단계를 포함하는 멀티 모달 사용자 인식 방법
|
3 |
3
제2항에 있어서,상기 입력 영상과 연관된 상기 조명의 크기를 추정하는 단계는,레티넥스(Retinex) 알고리즘을 이용하여 상기 입력 영상과 연관된 상기 조명의 크기를 추정하는 단계를 포함하는 멀티 모달 사용자 인식 방법
|
4 |
4
제1항에 있어서,상기 입력 오디오와 연관된 잡음의 크기를 이용하여 얻어진 제2 가중치를 상기 음성 유사도에 적용하여 제2 값을 생성하는 단계는,상기 음성 학습 데이터의 잡음 크기 및 상기 음성 테스트 데이터의 잡음 크기에 따른 인식률을 저장하는 음성 인식률 테이블을 유지하는 단계;상기 입력 오디오와 연관된 잡음의 크기를 추정하는 단계;상기 음성 인식률 테이블 및 상기 추정된 잡음의 크기를 이용하여 상기 제2 가중치를 계산하는 단계; 및상기 음성 유사도에 상기 제2 가중치를 적용하여 상기 제2 값을 생성하는 단계를 포함하는 멀티 모달 사용자 인식 방법
|
5 |
5
제4항에 있어서,상기 입력 오디오와 연관된 잡음의 크기를 추정하는 단계는,SNNR을 이용하여 상기 입력 오디오와 연관된 잡음의 크기를 추정하는 단계를 포함하는 멀티 모달 사용자 인식 방법
|
6 |
6
제2항 또는 제4항에 있어서,상기 얼굴 모델 템플릿은 상기 얼굴 학습 데이터와 연관되고,상기 음성 모델 템플릿은 상기 음성 학습 데이터와 연관되는멀티 모달 사용자 인식 방법
|
7 |
7
제1항에 있어서,상기 제1 가중치를 계산하는 단계 및 상기 제2 가중치를 계산하는 단계는,얼굴 학습 데이터의 조명 크기 및 얼굴 테스트 데이터의 조명 크기에 따른 인식률을 저장하는 얼굴 인식률 테이블을 유지하는 단계;음성 학습 데이터의 잡음 크기 및 음성 테스트 데이터의 잡음 크기에 따른 인식률을 저장하는 음성 인식률 테이블을 유지하는 단계;상기 얼굴 인식률 테이블, 상기 얼굴 유사도가 가장 높은 것으로 결정된 얼굴 학습 데이터 및 추정된 조명의 크기를 이용하여 제1 인식률을 계산하는 단계;상기 음성 인식률 테이블, 상기 음성 유사도가 가장 높은 것으로 결정된 음성 학습 데이터 및 추정된 잡음의 크기를 이용하여 제2 인식률을 계산하는 단계;상기 제1 인식률 및 상기 제2 인식률을 이용하여 상기 얼굴 유사도에 대한 제1 가중치를 계산하는 단계; 및상기 제1 인식률 및 상기 제2 인식률을 이용하여 상기 음성 유사도에 대한 제2 가중치를 계산하는 단계를 포함하는 멀티 모달 사용자 인식 방법
|
8 |
8
멀티 모달 사용자 인식 방법에 있어서,얼굴 학습 데이터의 조명 크기 및 얼굴 테스트 데이터의 조명 크기에 따른 인식률을 저장하는 얼굴 인식률 테이블을 유지하는 단계;음성 학습 데이터의 잡음 크기 및 음성 테스트 데이터의 잡음 크기에 따른 인식률을 저장하는 음성 인식률 테이블을 유지하는 단계;입력 영상과 연관된 조명의 크기 및 입력 오디오와 연관된 잡음의 크기를 추정하는 단계;상기 얼굴 인식률 테이블 및 상기 추정된 조명의 크기를 이용하여 제1 인식률을 계산하는 단계;상기 음성 인식률 테이블 및 상기 추정된 음성의 크기를 이용하여 제2 인식률을 계산하는 단계;상기 제1 인식률 및 상기 제2 인식률의 차가 미리 정해진 임계값보다 큰 경우 더 큰 인식률을 가진 모달리티를 이용하여 사용자를 인식하는 단계를 포함하는 멀티 모달 사용자 인식 방법
|
9 |
9
제8항에 있어서,상기 입력 영상으로부터 얼굴 영역을 검출하는 단계;상기 입력 오디오로부터 음성 영역을 검출하는 단계;상기 검출된 얼굴 영역으로부터 얼굴 특징 벡터를 추출하는 단계;상기 검출된 음성 영역으로부터 음성 특징 벡터를 추출하는 단계;얼굴 모델 템플릿(face model templates)을 이용하여 입력 영상의 얼굴 특징 벡터에 대한 얼굴 유사도를 계산하는 단계; 및음성 모델 템플릿(speech model templates)을 이용하여 입력 오디오의 음성 특징 벡터에 대한 음성 유사도를 계산하는 단계를 더 포함하는 멀티 모달 사용자 인식 방법
|