1 |
1
미리 학습된 인공 신경망으로 구현되어 각각 T개의 연속하는 프레임을 포함하는 깊이 시퀀스 영상과 열 시퀀스 영상 및 컬러 시퀀스 영상 각각을 프레임 순서에 따라 순차적으로 인가받아, 학습된 방식에 따라 인가되는 프레임들의 공간적 특징을 순차적으로 추출하여 각각 T개의 깊이 특징맵과 열 특징맵 및 컬러 특징맵을 획득하는 공간적 인코더; 미리 학습된 인공 신경망으로 구현되어 각각 T개의 깊이 특징맵과 열 특징맵 및 컬러 특징맵을 순차적으로 인가받아, 학습된 방식에 따라 순차적으로 인가되는 특징맵들 사이의 시간적 특징을 추가하고 융합 디코딩하여 융합 컬러 시공간 특징을 획득하는 시간적 디코더; 미리 학습된 인공 신경망으로 구현되어 학습되는 방식에 따라 컬러 시퀀스 영상으로부터 3D 특징 볼륨을 추출하고, 순차적으로 획득되는 T개의 융합 컬러 시공간 특징을 누적하여 시공간 주의 볼륨을 획득하며, 3D 특징 볼륨과 시공간 주의 볼륨을 결합하여 주의 강화 특징 볼륨을 획득하는 시공간 주의 볼륨 획득부; 및 미리 학습된 인공 신경망으로 구현되어 학습되는 방식에 따라 시공간 주의 볼륨으로부터 감정값을 추정하여 획득하는 감정 추정부를 포함하는 감정 인식 장치
|
2 |
2
제1항에 있어서, 상기 공간적 인코더는 학습된 방식에 따라 상기 깊이 시퀀스 영상의 T개의 프레임 각각에 대한 공간적 특징을 순차적으로 추출하여 T개의 깊이 특징맵을 추출하는 깊이 인코더; 학습된 방식에 따라 상기 열 시퀀스 영상의 T개의 프레임 각각에 대한 공간적 특징을 순차적으로 추출하여 T개의 열 특징맵을 추출하는 열 인코더; 및 학습된 방식에 따라 상기 컬러 시퀀스 영상의 T개의 프레임 각각에 대한 공간적 특징을 순차적으로 추출하여 T개의 컬러 특징맵을 추출하는 컬러 인코더를 포함하는 감정 인식 장치
|
3 |
3
제2항에 있어서, 상기 시간적 디코더는 학습된 방식에 따라 순차적으로 인가되는 T개의 깊이 특징맵 각각에 대해 이전 인가된 깊이 특징맵에서 추출된 히든 특징을 이전 깊이 시공간 특징으로서 함께 디코딩하여 순차적으로 T개의 깊이 시공간 특징을 획득하는 깊이 디코더; 학습된 방식에 따라 순차적으로 인가되는 T개의 열 특징맵 각각에 대해 이전 인가된 열 특징맵에서 추출된 히든 특징을 이전 열 시공간 특징으로서 함께 디코딩하여 순차적으로 T개의 열 시공간 특징을 획득하는 열 디코더; 및 학습된 방식에 따라 순차적으로 인가되는 T개의 컬러 특징맵 각각과 대응하는 깊이 시공간 특징과 열 시공간 특징 및 이전 획득된 융합 컬러 시공간 특징이 융합된 융합 히든 특징을 함께 디코딩하여 순차적으로 T개의 융합 컬러 시공간 특징을 획득하는 융합 컬러 디코더를 포함하는 감정 인식 장치
|
4 |
4
제3항에 있어서, 상기 융합 컬러 디코더는 대응하는 깊이 시공간 특징과 열 시공간 특징 및 이전 획득된 융합 컬러 시공간 특징 각각에 대해 기지정된 가중치로 가중하고 합하여 상기 융합 히든 특징을 획득하는 감정 인식 장치
|
5 |
5
제3항에 있어서, 상기 깊이 디코더와 상기 열 디코더 및 상기 융합 컬러 디코더는 각각 ConvLSTM(Convolutional Long Short-Term Memory)으로 구현되는 감정 인식 장치
|
6 |
6
제3항에 있어서, 상기 시공간 주의 볼륨 획득부는 미리 학습된 인공 신경망으로 구현되어 학습되는 방식에 따라 T개의 프레임을 포함하는 컬러 시퀀스 영상을 3D의 단일 이미지로 인지하여 특징을 추출하여 3D 특징 볼륨을 획득하는 3D 특징 추출부; 순차적으로 획득되는 T개의 융합 컬러 시공간 특징을 누적하여, 시공간 특징 볼륨을 획득하고, 획득된 시공간 특징 볼륨을 기지정된 정규화하여 상기 시공간 주의 볼륨을 획득하는 정규화부; 및 상기 3D 특징 볼륨과 상기 시공간 주의 볼륨을 하다마드 곱셈하여 상기 주의 강화 특징 볼륨을 획득하는 주의 강화부를 포함하는 감정 인식 장치
|
7 |
7
제6항에 있어서, 상기 3D 특징 추출부는 미리 학습된 3D CNN(3D Convolutional Neural Networks)으로 구현되는 감정 인식 장치
|
8 |
8
제6항에 있어서, 상기 정규화부는 시공간 특징 볼륨(H)을 소프트 맥스 함수를 이용하여 수학식 (여기서 Ht,i 는 시공간 특징 볼륨(H)에 포함된 시간(t)에서의 융합 컬러 시공간 특징(htI)인 시공간 특징맵(Ht)에서 i(i ∈ {1,ㅇㅇㅇ , H ㅧ W}) 픽셀 위치의 특징을 나타내고, At,i 는 시공간 특징 볼륨(H)의 위치별 특징(Ht,i)에 대응하는 시공간 주의 볼륨(A)의 가중치를 나타낸다
|
9 |
9
제6항에 있어서, 상기 감정 추정부는 상기 시공간 주의 볼륨으로부터 각성(Arousal) 및 유인가(Valence)를 2개의 축으로 하는 2차원 상의 기지정된 범위 이내의 스칼라 좌표값으로 상기 감정값을 추정하여 획득하는 감정 인식 장치
|
10 |
10
제1항에 있어서, 상기 감정 인식 장치는 상기 감정값(y)과 미리 획득된 진리값()을 비교하여 수학식(여기서 ∥∥2 는 L2-norm 함수이다
|
11 |
11
미리 학습된 인공 신경망을 이용하여 각각 T개의 연속하는 프레임을 포함하는 깊이 시퀀스 영상과 열 시퀀스 영상 및 컬러 시퀀스 영상 각각을 프레임 순서에 따라 순차적으로 인가받아, 학습된 방식에 따라 인가되는 프레임들의 공간적 특징을 순차적으로 추출하여 각각 T개의 깊이 특징맵과 열 특징맵 및 컬러 특징맵을 획득하는 단계; 미리 학습된 인공 신경망을 이용하여 각각 T개의 깊이 특징맵과 열 특징맵 및 컬러 특징맵을 순차적으로 인가받아, 학습된 방식에 따라 순차적으로 인가되는 특징맵들 사이의 시간적 특징을 추가하고 융합 디코딩하여 융합 컬러 시공간 특징을 획득하는 단계; 미리 학습된 인공 신경망을 이용하여 학습되는 방식에 따라 컬러 시퀀스 영상으로부터 3D 특징 볼륨을 추출하고, 순차적으로 획득되는 T개의 융합 컬러 시공간 특징을 누적하여 시공간 주의 볼륨을 획득하며, 3D 특징 볼륨과 시공간 주의 볼륨을 결합하여 주의 강화 특징 볼륨을 획득하는 단계; 및 미리 학습된 인공 신경망으로 구현되어 학습되는 방식에 따라 시공간 주의 볼륨으로부터 감정값을 추정하여 획득하는 단계를 포함하는 감정 인식 방법
|
12 |
12
제11항에 있어서, 상기 컬러 특징맵을 획득하는 단계는 학습된 방식에 따라 상기 깊이 시퀀스 영상의 T개의 프레임 각각에 대한 공간적 특징을 순차적으로 추출하여 T개의 깊이 특징맵을 추출하는 단계; 학습된 방식에 따라 상기 열 시퀀스 영상의 T개의 프레임 각각에 대한 공간적 특징을 순차적으로 추출하여 T개의 열 특징맵을 추출하는 단계; 및 학습된 방식에 따라 상기 컬러 시퀀스 영상의 T개의 프레임 각각에 대한 공간적 특징을 순차적으로 추출하여 T개의 컬러 특징맵을 추출하는 단계를 포함하는 감정 인식 방법
|
13 |
13
제12항에 있어서, 상기 융합 컬러 시공간 특징을 획득하는 단계는 학습된 방식에 따라 순차적으로 인가되는 T개의 깊이 특징맵 각각에 대해 이전 인가된 깊이 특징맵에서 추출된 히든 특징을 이전 깊이 시공간 특징으로서 함께 디코딩하여 순차적으로 T개의 깊이 시공간 특징을 획득하는 단계; 학습된 방식에 따라 순차적으로 인가되는 T개의 열 특징맵 각각에 대해 이전 인가된 열 특징맵에서 추출된 히든 특징을 이전 열 시공간 특징으로서 함께 디코딩하여 순차적으로 T개의 열 시공간 특징을 획득하는 단계; 및 학습된 방식에 따라 순차적으로 인가되는 T개의 컬러 특징맵 각각과 대응하는 깊이 시공간 특징과 열 시공간 특징 및 이전 획득된 융합 컬러 시공간 특징이 융합된 융합 히든 특징을 함께 디코딩하여 순차적으로 T개의 융합 컬러 시공간 특징을 획득하는 단계를 포함하는 감정 인식 방법
|
14 |
14
제13항에 있어서, 상기 융합 히든 특징은 대응하는 깊이 시공간 특징과 열 시공간 특징 및 이전 획득된 융합 컬러 시공간 특징 각각에 대해 기지정된 가중치로 가중하고 합하여 획득되는 감정 인식 방법
|
15 |
15
제13항에 있어서, 상기 융합 컬러 시공간 특징을 획득하는 단계는 다수의 ConvLSTM(Convolutional Long Short-Term Memory)을 이용하여, 상기 T개의 깊이 시공간 특징과 상기 T개의 열 시공간 특징 및 상기 T개의 융합 컬러 시공간 특징을 획득하는 감정 인식 방법
|
16 |
16
제13항에 있어서, 상기 주의 강화 특징 볼륨을 획득하는 단계는 미리 학습된 인공 신경망을 이용하여 학습되는 방식에 따라 T개의 프레임을 포함하는 컬러 시퀀스 영상을 3D의 단일 이미지로 인지하여 특징을 추출하여 3D 특징 볼륨을 획득하는 단계; 순차적으로 획득되는 T개의 융합 컬러 시공간 특징을 누적하여, 시공간 특징 볼륨을 획득하고, 획득된 시공간 특징 볼륨을 기지정된 정규화하여 상기 시공간 주의 볼륨을 획득하는 단계; 및 상기 3D 특징 볼륨과 상기 시공간 주의 볼륨을 하다마드 곱셈하여 상기 주의 강화 특징 볼륨을 획득하는 단계를 포함하는 감정 인식 방법
|
17 |
17
제16항에 있어서, 상기 3D 특징 볼륨을 획득하는 단계는 미리 학습된 3D CNN(3D Convolutional Neural Networks)을 이용하여 상기 3D 특징 볼륨을 획득하는 감정 인식 방법
|
18 |
18
제16항에 있어서, 상기 시공간 주의 볼륨을 획득하는 단계는 시공간 특징 볼륨(H)을 소프트 맥스 함수를 이용하여 수학식 (여기서 Ht,i 는 시공간 특징 볼륨(H)에 포함된 시간(t)에서의 융합 컬러 시공간 특징(htI)인 시공간 특징맵(Ht)에서 i(i ∈ {1,ㅇㅇㅇ , H ㅧ W}) 픽셀 위치의 특징을 나타내고, At,i 는 시공간 특징 볼륨(H)의 위치별 특징(Ht,i)에 대응하는 시공간 주의 볼륨(A)의 가중치를 나타낸다
|
19 |
19
제16항에 있어서, 상기 감정값을 추정하여 획득하는 단계는 상기 시공간 주의 볼륨으로부터 각성(Arousal) 및 유인가(Valence)를 2개의 축으로 하는 2차원 상의 기지정된 범위 이내의 스칼라 좌표값으로 상기 감정값을 추정하여 획득하는 감정 인식 방법
|
20 |
20
제11항에 있어서, 상기 감정 인식 방법은 상기 감정값(y)과 미리 획득된 진리값()을 비교하여 수학식(여기서 ∥∥2 는 L2-norm 함수이다
|