1 |
1
입력 얼굴 영상 을 입력받고 두 스칼라 변수 , 로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 상기 입력 얼굴 영상 에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보 , 과 함께 얼굴 영상 생성부에 입력하는 얼굴 특징 추출부; 및 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보 , 를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상 의 사람이 입력 감정 정보(, )와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 얼굴 영상 생성부; 를 포함하는 감정 기반의 얼굴 영상 생성 시스템
|
2 |
2
제1항에 있어서, 상기 입력 얼굴 영상 는 상기 얼굴 특징 추출부로 입력되고 얼굴의 Appearance 정보를 포함하는 32차원의 벡터 와 감정 정보를 포함하는 두 스칼라 변수 , 을 출력하는, 감정 기반의 얼굴 영상 생성 시스템
|
3 |
3
제1항에 있어서, 상기 감정 인식 모델은 사람의 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 Valence/Arousal 모델을 사용하고, 상기 감정 인식 모델은 딥러닝을 이용한 감정인식을 하기 위해 ResNet34를 이용한 감정 인식 모델을 사용하는, 감정 기반의 얼굴 영상 생성 시스템
|
4 |
4
제1항에 있어서, 인코더는 입력 영상을 입력으로 받아 latent vector를 출력하고, 디코더는 latent vector를 입력으로 받아 새로운 영상을 출력하며, 상기 인코더-디코더의 latent vector는 appearance feature와 valence, arousal의 값을 포함하고,상기 인코더-디코더가 학습되면, 감정 인식 모델인 ResNet34는 균일한 데이터셋을 통해 학습될 수 있으며, 균일한 데이터셋을 만들기 위해, 인코더를 통해 입력 영상에 대해 latent vector를 얻고, 얻어진 latent vector의 valence와 arousal의 값을 새로운 valence와 arousal의 값으로 대체하여 새로운 latent vector를 생성하며, 새로운 valence와 arousal의 값은 의 범위에서 uniform sampling을 통해 얻어지며, 디코더는 새로운 latent vector를 입력으로 받아 이에 대응하는 3x64x64의 해상도를 갖는 새로운 영상을 생성하고, 상기 인코더-디코더에서 얻어진 새로운 영상은 3 x 224 x 224로 변형되어, 새롭게 sampling된 valence 및 arousal 값과 함께 감정 인식 모델인 ResNet34의 학습을 위한 학습 데이터로 사용되며, 앞의 과정을 통해 ResNet34가 학습되면, ResNet34는 3 x 224 x 224의 해상도를 갖는 영상을 입력받아 그 영상에 대응하는 valence와 arousal의 값을 출력하며, 즉, 인코더-디코더 네트워크는 입력 영상과 appearance 특징은 동일하지만, 새로운 valence와 arousal 값에 대응하는 영상을 생성하는, 감정 기반의 얼굴 영상 생성 시스템
|
5 |
5
제4항에 있어서, 인코더-디코더 네트워크의 전체적인 구조에서, 인코더는 3 x 64 x 64 영상 I을 입력받아 3 x 3 convolution 연산, batch-normalization, ReLU, max-pooling을 반복하여 30차원의 appearance feature와 valence, arousal의 값을 포함하는 32차원의 latent vector를 출력하며, 디코더는 32차원의 latent vector를 입력받아 up-sampling, 3 x 3 convolution 연산, batch-normalization, ReLU를 반복하여 새로운 이미지 을 출력하며, 상기 인코더를 통해 출력되는 latent vector는 의도하는 대로 입력 얼굴의 appearance feature와 valence, arousal의 값을 나타냄을 보장하도록 인코더-디코더의 전체적인 학습이 필요하며, 인코더-디코더의 전체적인 학습 방법은 먼저 동일한 사람의 이미지 두 장을 가져오며, 는 각각 동일한 사람에 대한 번째 이미지이고, 번째 이미지를 인코더에 통과시켜 appearance feature와 valence 값 , arousal 값 를 얻으며, 예측된 와 는 각각 i번째 이미지에 대응하는 실제 valence 값 와 arousal 값 와 같아야 하며, 이를 위해 식 (1)과 같이 loss를 정의하고, (1)그리고 번째 이미지에 대해서 인코더를 통과시켜서 얻은 appearance feature와 번째 이미지 에 해당하는 실제 valence 값 , 실제 arousal 값 로 구성된 latent vector를 디코더의 입력으로 넣어주면, 디코더는 번째 이미지를 생성하며, 그 두 영상은 동일한 사람의 얼굴 영상이기 때문에, 디코더를 통해 생성된 이미지 는 실제 번째 이미지 와 같아야 하고, 이를 위해 식 (2)와 같이 loss를 정의하고, (2)여기서 는 각각 영상의 채널의 수, 가로, 세로를 의미하며, 이를 종합하면, 인코더-디코더를 학습하기 위한 loss는 식 (3)과 같이 표시되고, (3)여기서 와 는 각각 와 의 세기를 조절하기 위해 사용되는 가중치이며, 감정 인식 모델은 ResNet34를 사용하였으며, 기존의 ResNet34는 분류 문제를 위해 설계된 모델이기 때문에, 감정 인식을 위해 마지막 softmax layer를 제거하고, valence와 arousal 값을 출력하기 위해 2개의 node를 갖는 linear layer를 추가하였으며, 감정 인식을 수행하고자 하는 얼굴 이미지를 224×224×3으로 크기를 변형시켜 네트워크의 입력으로 사용하고, 출력은 입력 얼굴 이미지에 대응하는 valence와 arousal 값이 제공하며감정 인식 모델을 훈련시키기 위해 사용된 loss는 식 (4)와 같이 표시되며, (4)여기서, V와 A는 실제 이미지에 대응하는 valence와 arousal 값이고, 와 는 감정 인식 모델이 예측한 valence와 arousal 값 인 것을 특징으로 하는 감정 기반의 얼굴 영상 생성 시스템
|
6 |
6
제1항에 있어서, 상기 인코더-디코더를 학습하기 위한 데이터셋은 다양한 사람의 얼굴 이미지와 그에 대응하는 valence와 arousal 값을 포함하는 AFEW-VA 데이터셋을 이용하였으며, 학습 데이터와 테스트 데이터는 각각 24,757장과 5,294장의 이미지로 구성되어 있고, AFEW-VA는 얼굴 영역의 bounding box 정보를 포함하지 않으므로 bounding box의 좌표를 얻기 위해 dlib의 cnn 기반 face detection 모델을 사용하였고, 학습 알고리즘으로 Adam을 사용하였으며, learning rate, batch size, number of epoch를 각각 0
|
7 |
7
제1항에 있어서, 인코더-디코더가 다양한 valence, arousal 값에 대응하는 이미지를 생성한 결과, 의도한 대로 valence가 양수일 경우 긍정적인 이미지가, valence가 음수일 경우 부정적인 이미지가 생성되며, 또한 arousal 값이 커질수록 감정 변화가 큰 이미지가 생성되었음을, arousal 값이 작을수록 감정 변화가 작은 이미지가 생성되는, 감정 기반의 얼굴 영상 생성 시스템
|
8 |
8
(a) 입력 얼굴 영상 을 입력받고 두 스칼라 변수 , 로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 얼굴 특징 추출부가 상기 입력 얼굴 영상 에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보 , 과 함께 얼굴 영상 생성부로 입력하는 단계; 및 (b) 상기 얼굴 영상 생성부가 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보 , 를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상 의 사람이 입력 감정 정보(, )와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 단계; 를 포함하는 감정 기반의 얼굴 영상 생성 방법
|
9 |
9
제8항에 있어서, 상기 입력 얼굴 영상 는 상기 얼굴 특징 추출부로 입력되어 얼굴의 Appearance 정보를 포함하는 32차원의 벡터 와 감정 정보를 포함하는 두 스칼라 변수 , 을 출력하는, 감정 기반의 얼굴 영상 생성 방법
|
10 |
10
제8항에 있어서, 상기 감정 인식 모델은 사람의 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 Valence/Arousal 모델을 사용하고, 상기 감정 인식 모델은 딥러닝을 이용한 감정인식을 하기 위해 ResNet34를 이용한 감정 인식 모델을 사용하는, 감정 기반의 얼굴 영상 생성 방법
|
11 |
11
제8항에 있어서, 인코더는 입력 영상을 입력으로 받아 latent vector를 출력하고, 디코더는 latent vector를 입력으로 받아 새로운 영상을 출력하며, 상기 인코더-디코더의 latent vector는 appearance feature와 valence, arousal의 값을 포함하고,상기 인코더-디코더가 학습되면, 감정 인식 모델인 ResNet34는 균일한 데이터셋을 통해 학습될 수 있으며, 균일한 데이터셋을 만들기 위해, 인코더를 통해 입력 영상에 대해 latent vector를 얻고, 얻어진 latent vector의 valence와 arousal의 값을 새로운 valence와 arousal의 값으로 대체하여 새로운 latent vector를 생성하며, 새로운 valence와 arousal의 값은 의 범위에서 uniform sampling을 통해 얻어지며, 디코더는 새로운 latent vector를 입력으로 받아 이에 대응하는 3x64x64의 해상도를 갖는 새로운 영상을 생성하고, 상기 인코더-디코더에서 얻어진 새로운 영상은 3 x 224 x 224로 변형되어, 새롭게 sampling된 valence 및 arousal 값과 함께 감정 인식 모델인 ResNet34의 학습을 위한 학습 데이터로 사용되며, 앞의 과정을 통해 ResNet34가 학습되면, ResNet34는 3 x 224 x 224의 해상도를 갖는 영상을 입력받아 그 영상에 대응하는 valence와 arousal의 값을 출력하며, 즉, 인코더-디코더 네트워크는 입력 영상과 appearance 특징은 동일하지만, 새로운 valence와 arousal 값에 대응하는 영상을 생성하는, 감정 기반의 얼굴 영상 생성 방법
|
12 |
12
제11항에 있어서, 인코더-디코더 네트워크의 전체적인 구조에서, 인코더는 3 x 64 x 64 영상 I을 입력받아 3 x 3 convolution 연산, batch-normalization, ReLU, max-pooling을 반복하여 30차원의 appearance feature와 valence, arousal의 값을 포함하는 32차원의 latent vector를 출력하며, 디코더는 32차원의 latent vector를 입력받아 up-sampling, 3 x 3 convolution 연산, batch-normalization, ReLU를 반복하여 새로운 이미지 을 출력하며, 상기 인코더를 통해 출력되는 latent vector는 의도하는 대로 입력 얼굴의 appearance feature와 valence, arousal의 값을 나타냄을 보장하도록 인코더-디코더의 전체적인 학습이 필요하며, 인코더-디코더의 전체적인 학습 방법은 먼저 동일한 사람의 이미지 두 장을 가져오며, 는 각각 동일한 사람에 대한 번째 이미지이고, 번째 이미지를 인코더에 통과시켜 appearance feature와 valence 값 , arousal 값 를 얻으며, 예측된 와 는 각각 i번째 이미지에 대응하는 실제 valence 값 와 arousal 값 와 같아야 하며, 이를 위해 식 (1)과 같이 loss를 정의하고, (1)그리고 번째 이미지에 대해서 인코더를 통과시켜서 얻은 appearance feature와 번째 이미지 에 해당하는 실제 valence 값 , 실제 arousal 값 로 구성된 latent vector를 디코더의 입력으로 넣어주면, 디코더는 번째 이미지를 생성하며, 그 두 영상은 동일한 사람의 얼굴 영상이기 때문에, 디코더를 통해 생성된 이미지 는 실제 번째 이미지 와 같아야 하고, 이를 위해 식 (2)와 같이 loss를 정의하고, (2)여기서 는 각각 영상의 채널의 수, 가로, 세로를 의미하며, 이를 종합하면, 인코더-디코더를 학습하기 위한 loss는 식 (3)과 같이 표시되고, (3)여기서 와 는 각각 와 의 세기를 조절하기 위해 사용되는 가중치이며, 감정 인식 모델은 ResNet34를 사용하였으며, 기존의 ResNet34는 분류 문제를 위해 설계된 모델이기 때문에, 감정 인식을 위해 마지막 softmax layer를 제거하고, valence와 arousal 값을 출력하기 위해 2개의 node를 갖는 linear layer를 추가하였으며, 감정 인식을 수행하고자 하는 얼굴 이미지를 224×224×3으로 크기를 변형시켜 네트워크의 입력으로 사용하고, 출력은 입력 얼굴 이미지에 대응하는 valence와 arousal 값이 제공하며감정 인식 모델을 훈련시키기 위해 사용된 loss는 식 (4)와 같이 표시되며, (4)여기서, V와 A는 실제 이미지에 대응하는 valence와 arousal 값이고, 와 는 감정 인식 모델이 예측한 valence와 arousal 값 인 것을 특징으로 하는 감정 기반의 얼굴 영상 생성 방법
|
13 |
13
제8항에 있어서, 상기 인코더-디코더를 학습하기 위한 데이터셋은 다양한 사람의 얼굴 이미지와 그에 대응하는 valence와 arousal 값을 포함하는 AFEW-VA 데이터셋을 이용하였으며, 학습 데이터와 테스트 데이터는 각각 24,757장과 5,294장의 이미지로 구성되어 있고, AFEW-VA는 얼굴 영역의 bounding box 정보를 포함하지 않으므로 bounding box의 좌표를 얻기 위해 dlib의 cnn 기반 face detection 모델을 사용하였고, 학습 알고리즘으로 Adam을 사용하였으며, learning rate, batch size, number of epoch를 각각 0
|
14 |
14
제8항에 있어서, 상기 인코더-디코더가 다양한 valence, arousal 값에 대응하는 이미지를 생성한 결과, 의도한 대로 valence가 양수일 경우 긍정적인 이미지가, valence가 음수일 경우 부정적인 이미지가 생성되며, 또한 arousal 값이 커질수록 감정 변화가 큰 이미지가 생성되었음을, arousal 값이 작을수록 감정 변화가 작은 이미지가 생성되는, 감정 기반의 얼굴 영상 생성 방법
|