1 |
1
감정 인식 시스템에 의해 수행되는 감정 인식 방법에 있어서, 비디오 신호와 EEG 신호로부터 각각의 모달리티 특징을 추출하는 단계;상기 추출된 각각의 모달리티 특징을 멀티모달 어텐션 네트워크(Multimodal attention network)에 입력하여 모달리티에 대한 어텐션 가중치를 결정하는 단계; 및 상기 결정된 어텐션 가중치를 상기 추출된 각각의 모달리티 특징에 반영하여 융합된 감정 정보를 출력하는 단계를 포함하는 감정 인식 방법
|
2 |
2
제1항에 있어서, 상기 결정하는 단계는,상기 비디오 신호로부터 추출된 제1 비디오 모달리티 특징과 상기 EEG 신호로부터 추출된 제1 EEG 모달리티 특징을 융합하여 제1 융합 특징을 생성하고, 상기 제1 비디오 모달리티 특징 및 상기 제1 EEG 모달리티 특징을 상기 멀티모달 어텐션 네트워크의 완전 연결 레이어를 통과시킴에 따라 제2 비디오 모달리티 특징 및 제2 EEG 모달리티 특징을 획득하는 단계를 포함하는 감정 인식 방법
|
3 |
3
제2항에 있어서, 상기 결정하는 단계는,상기 생성된 제1 융합 특징과 상기 제2 비디오 모달리티 특징 및 상기 제2 EEG 모달리티 특징을 융합하여 제2 융합 특징을 획득하고, 상기 획득된 제2 융합 특징을 이용하여 각각의 모달리티의 어텐션을 계산하는 단계를 포함하는 감정 인식 방법
|
4 |
4
제1항에 있어서,상기 멀티모달 어텐션 네트워크는, 하위 계층 분해(low-rank decomposition) 기반 쌍선형 풀링(bilinear pooling)을 멀티-레이어(multi-layer)로 구성되고, 상기 각각의 모달리티 특징을 융합시킴에 따라 획득된 발란스 정보는, 상기 멀티모달 어텐션 네트워크를 통해 각각 출력된 정보가 어텐션 가중치로 가중합(weight sum)되어 출력되는, 감정 인식 방법
|
5 |
5
제1항에 있어서, 상기 추출하는 단계는,입력 영상 시퀀스에서 크롭(crop)된 얼굴 이미지를 획득하고, 상기 획득된 얼굴 이미지를 딥 컨볼루션 인코더(deep convolution encoder)를 이용하여 비디오 모달리티 특징을 추출하고, 상기 추출된 비디오 모달리티 특징을 비디오 모달리티 네트워크를 통해 회귀(regression)를 수행하는 단계를 포함하는 감정 인식 방법
|
6 |
6
제5항에 있어서, 상기 추출하는 단계는,상기 획득된 얼굴 이미지를 CNN 기반의 딥 컨볼루션 인코더를 이용하여 비디오 신호를 1차원의 특징 벡터로 변환하고, 상기 변환된 1차원의 특징 벡터를 비디오 모달리티 네트워크를 통과시킴에 따라 출력되는 히든 스테이트 벡터(hidden state vector)를 완전 연결 레이어에 통과시켜 입력 영상 시퀀스의 발란스 라벨 값을 출력하는 단계를 포함하고,상기 비디오 모달리티 네트워크는, LSTM 네트워크를 포함하고, 상기 변환된 1차원의 특징 벡터를 상기 LSTM 네트워크를 통과시키기 전에 완전 연결 레이어를 통과시켜 특징 벡터의 차원이 조정되는, 감정 인식 방법
|
7 |
7
제1항에 있어서, 상기 추출하는 단계는,상기 EEG 신호로부터 시간 영역, 주파수 영역 및 시간-주파수 영역에 대한 EEG 모달리티 특징을 추출하고, 상기 추출된 EEG 모달리티 특징을 EEG 모달리티 네트워크에 입력하여 EEG 신호의 발란스 라벨 값을 출력하는 단계를 포함하고,상기 EEG 모달리티 네트워크는, LSTM 네트워크를 포함하는, 감정 인식 방법
|
8 |
8
제2항에 있어서, 상기 결정하는 단계는,상기 추출된 제1 비디오 모달리티 특징과 상기 추출된 제1 EEG 모달리티 특징을 하위 계층 분해를 적용함에 따라 획득된 가중치들을 각각의 모달리티 특징 벡터에 적용시켜 멀티곱을 통해 융합시키는 단계를 포함하는 감정 인식 방법
|
9 |
9
제3항에 있어서, 상기 결정하는 단계는,상기 제1 융합 특징과 상기 제2 비디오 모달리티 특징 및 상기 제2 EEG 모달리티 특징을 하위 계층 분해(low-rank decomposition)에 기반하여 융합시키는 단계 를 포함하는 감정 인식 방법
|
10 |
10
제1항에 있어서,상기 결정하는 단계는,상기 비디오 신호를 비디오 모달리티 네트워크를 통해 추출된 제1 비디오 모달리티 특징, 상기 EEG 신호를 EEG 모달리티 네트워크를 통해 추출된 제1 EEG 모달리티 특징을 멀티모달 어텐션 네트워크에 입력함에 따라 출력된 어텐션 가중치를 어텐션 라벨과 오차를 측정하여 트레이닝 손실을 계산하는 단계를 포함하는 감정 인식 방법
|
11 |
11
감정 인식 시스템에 있어서, 비디오 신호와 EEG 신호로부터 각각의 모달리티 특징을 추출하는 추출부;상기 추출된 각각의 모달리티 특징을 멀티모달 어텐션 네트워크(Multimodal attention network)에 입력하여 모달리티에 대한 어텐션 가중치를 결정하는 결정부; 및 상기 결정된 어텐션 가중치를 상기 추출된 각각의 모달리티 특징에 반영하여 융합된 감정 정보를 출력하는 출력부를 포함하는 감정 인식 시스템
|