맞춤기술찾기

이전대상기술

감정 기반의 얼굴 영상 생성 시스템 및 방법

  • 기술번호 : KST2022006760
  • 담당센터 : 서울서부기술혁신센터
  • 전화번호 : 02-6124-6930
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 감정 기반의 얼굴 영상 생성 시스템 및 방법이 개시된다. 감정 기반의 얼굴 영상 생성 시스템은 입력 얼굴 영상 을 입력받고 두 스칼라 변수 , 로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 상기 입력 얼굴 영상 에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보 , 과 함께 얼굴 영상 생성부로 입력하는 얼굴 특징 추출부; 및 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보 , 를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상 의 사람이 입력 감정 정보(, )와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 얼굴 영상 생성부를 포함한다. 감정 기반의 얼굴 영상 생성 시스템은 사람의 감정 표현을 위한 Valence/Arousal 모델을 사용하며, 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 모델을 사용하고, 대상 사람의 얼굴 영상과 감정 상태를 입력받고 대상 사람의 얼굴 영상을 입력으로 주어진 입력 감정 상태(V/A)에 맞게끔 변형하여 출력한다.
Int. CL G06K 9/00 (2022.01.01)
CPC G06V 40/174(2013.01) G06V 40/168(2013.01) G06N 20/00(2013.01) G06T 2207/30201(2013.01)
출원번호/일자 1020200137135 (2020.10.21)
출원인 광운대학교 산학협력단
등록번호/일자
공개번호/일자 10-2022-0052789 (2022.04.28) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.10.21)
심사청구항수 14

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 광운대학교 산학협력단 대한민국 서울특별시 노원구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 장주용 대전광역시 유성구
2 박민성 경기도 안양시 만안구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 이여송 대한민국 서울시 강남구 테헤란로 *** 포스코P&S타워 **층(아이피드림)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.10.21 수리 (Accepted) 1-1-2020-1118180-95
2 [출원서 등 보정]보정서
[Amendment to Patent Application, etc.] Amendment
2020.10.24 수리 (Accepted) 1-1-2020-1129551-88
3 [출원서 등 보정]보정서
[Amendment to Patent Application, etc.] Amendment
2020.10.29 수리 (Accepted) 1-1-2020-1153391-87
4 수수료 반환 안내서
Notification of Return of Official Fee
2020.10.29 발송처리완료 (Completion of Transmission) 1-5-2020-0161316-75
5 보정요구서
Request for Amendment
2020.10.29 발송처리완료 (Completion of Transmission) 1-5-2020-0161301-91
6 [출원서 등 보정]보정서(납부자번호)
[Amendment to Patent Application, etc.] Amendment(Payer number)
2020.11.03 수리 (Accepted) 1-1-2020-1169018-91
7 보정요구서
Request for Amendment
2020.11.03 발송처리완료 (Completion of Transmission) 1-5-2020-0163316-11
8 선행기술조사의뢰서
Request for Prior Art Search
2021.10.15 수리 (Accepted) 9-1-9999-9999999-89
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
입력 얼굴 영상 을 입력받고 두 스칼라 변수 , 로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 상기 입력 얼굴 영상 에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보 , 과 함께 얼굴 영상 생성부에 입력하는 얼굴 특징 추출부; 및 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보 , 를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상 의 사람이 입력 감정 정보(, )와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 얼굴 영상 생성부; 를 포함하는 감정 기반의 얼굴 영상 생성 시스템
2 2
제1항에 있어서, 상기 입력 얼굴 영상 는 상기 얼굴 특징 추출부로 입력되고 얼굴의 Appearance 정보를 포함하는 32차원의 벡터 와 감정 정보를 포함하는 두 스칼라 변수 , 을 출력하는, 감정 기반의 얼굴 영상 생성 시스템
3 3
제1항에 있어서, 상기 감정 인식 모델은 사람의 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 Valence/Arousal 모델을 사용하고, 상기 감정 인식 모델은 딥러닝을 이용한 감정인식을 하기 위해 ResNet34를 이용한 감정 인식 모델을 사용하는, 감정 기반의 얼굴 영상 생성 시스템
4 4
제1항에 있어서, 인코더는 입력 영상을 입력으로 받아 latent vector를 출력하고, 디코더는 latent vector를 입력으로 받아 새로운 영상을 출력하며, 상기 인코더-디코더의 latent vector는 appearance feature와 valence, arousal의 값을 포함하고,상기 인코더-디코더가 학습되면, 감정 인식 모델인 ResNet34는 균일한 데이터셋을 통해 학습될 수 있으며, 균일한 데이터셋을 만들기 위해, 인코더를 통해 입력 영상에 대해 latent vector를 얻고, 얻어진 latent vector의 valence와 arousal의 값을 새로운 valence와 arousal의 값으로 대체하여 새로운 latent vector를 생성하며, 새로운 valence와 arousal의 값은 의 범위에서 uniform sampling을 통해 얻어지며, 디코더는 새로운 latent vector를 입력으로 받아 이에 대응하는 3x64x64의 해상도를 갖는 새로운 영상을 생성하고, 상기 인코더-디코더에서 얻어진 새로운 영상은 3 x 224 x 224로 변형되어, 새롭게 sampling된 valence 및 arousal 값과 함께 감정 인식 모델인 ResNet34의 학습을 위한 학습 데이터로 사용되며, 앞의 과정을 통해 ResNet34가 학습되면, ResNet34는 3 x 224 x 224의 해상도를 갖는 영상을 입력받아 그 영상에 대응하는 valence와 arousal의 값을 출력하며, 즉, 인코더-디코더 네트워크는 입력 영상과 appearance 특징은 동일하지만, 새로운 valence와 arousal 값에 대응하는 영상을 생성하는, 감정 기반의 얼굴 영상 생성 시스템
5 5
제4항에 있어서, 인코더-디코더 네트워크의 전체적인 구조에서, 인코더는 3 x 64 x 64 영상 I을 입력받아 3 x 3 convolution 연산, batch-normalization, ReLU, max-pooling을 반복하여 30차원의 appearance feature와 valence, arousal의 값을 포함하는 32차원의 latent vector를 출력하며, 디코더는 32차원의 latent vector를 입력받아 up-sampling, 3 x 3 convolution 연산, batch-normalization, ReLU를 반복하여 새로운 이미지 을 출력하며, 상기 인코더를 통해 출력되는 latent vector는 의도하는 대로 입력 얼굴의 appearance feature와 valence, arousal의 값을 나타냄을 보장하도록 인코더-디코더의 전체적인 학습이 필요하며, 인코더-디코더의 전체적인 학습 방법은 먼저 동일한 사람의 이미지 두 장을 가져오며, 는 각각 동일한 사람에 대한 번째 이미지이고, 번째 이미지를 인코더에 통과시켜 appearance feature와 valence 값 , arousal 값 를 얻으며, 예측된 와 는 각각 i번째 이미지에 대응하는 실제 valence 값 와 arousal 값 와 같아야 하며, 이를 위해 식 (1)과 같이 loss를 정의하고, (1)그리고 번째 이미지에 대해서 인코더를 통과시켜서 얻은 appearance feature와 번째 이미지 에 해당하는 실제 valence 값 , 실제 arousal 값 로 구성된 latent vector를 디코더의 입력으로 넣어주면, 디코더는 번째 이미지를 생성하며, 그 두 영상은 동일한 사람의 얼굴 영상이기 때문에, 디코더를 통해 생성된 이미지 는 실제 번째 이미지 와 같아야 하고, 이를 위해 식 (2)와 같이 loss를 정의하고, (2)여기서 는 각각 영상의 채널의 수, 가로, 세로를 의미하며, 이를 종합하면, 인코더-디코더를 학습하기 위한 loss는 식 (3)과 같이 표시되고, (3)여기서 와 는 각각 와 의 세기를 조절하기 위해 사용되는 가중치이며, 감정 인식 모델은 ResNet34를 사용하였으며, 기존의 ResNet34는 분류 문제를 위해 설계된 모델이기 때문에, 감정 인식을 위해 마지막 softmax layer를 제거하고, valence와 arousal 값을 출력하기 위해 2개의 node를 갖는 linear layer를 추가하였으며, 감정 인식을 수행하고자 하는 얼굴 이미지를 224×224×3으로 크기를 변형시켜 네트워크의 입력으로 사용하고, 출력은 입력 얼굴 이미지에 대응하는 valence와 arousal 값이 제공하며감정 인식 모델을 훈련시키기 위해 사용된 loss는 식 (4)와 같이 표시되며, (4)여기서, V와 A는 실제 이미지에 대응하는 valence와 arousal 값이고, 와 는 감정 인식 모델이 예측한 valence와 arousal 값 인 것을 특징으로 하는 감정 기반의 얼굴 영상 생성 시스템
6 6
제1항에 있어서, 상기 인코더-디코더를 학습하기 위한 데이터셋은 다양한 사람의 얼굴 이미지와 그에 대응하는 valence와 arousal 값을 포함하는 AFEW-VA 데이터셋을 이용하였으며, 학습 데이터와 테스트 데이터는 각각 24,757장과 5,294장의 이미지로 구성되어 있고, AFEW-VA는 얼굴 영역의 bounding box 정보를 포함하지 않으므로 bounding box의 좌표를 얻기 위해 dlib의 cnn 기반 face detection 모델을 사용하였고, 학습 알고리즘으로 Adam을 사용하였으며, learning rate, batch size, number of epoch를 각각 0
7 7
제1항에 있어서, 인코더-디코더가 다양한 valence, arousal 값에 대응하는 이미지를 생성한 결과, 의도한 대로 valence가 양수일 경우 긍정적인 이미지가, valence가 음수일 경우 부정적인 이미지가 생성되며, 또한 arousal 값이 커질수록 감정 변화가 큰 이미지가 생성되었음을, arousal 값이 작을수록 감정 변화가 작은 이미지가 생성되는, 감정 기반의 얼굴 영상 생성 시스템
8 8
(a) 입력 얼굴 영상 을 입력받고 두 스칼라 변수 , 로 표현되는 입력 감정 정보에 일치하도록 변형하여 출력되도록 얼굴 특징 추출부가 상기 입력 얼굴 영상 에서 상기 입력 감정 정보를 제외한 Appearance 정보 P 만을 입력 감정 정보 , 과 함께 얼굴 영상 생성부로 입력하는 단계; 및 (b) 상기 얼굴 영상 생성부가 상기 얼굴 특징 추출부로부터 Appearance 정보 P를 입력받고, 입력 감정 정보 , 를 입력받아, 인코더-디코더의 감정 인식 모델을 사용하여 상기 입력 얼굴 영상 의 사람이 입력 감정 정보(, )와 일치하도록 변형된 영상을 생성하여 최종 출력 영상을 제공하는 단계; 를 포함하는 감정 기반의 얼굴 영상 생성 방법
9 9
제8항에 있어서, 상기 입력 얼굴 영상 는 상기 얼굴 특징 추출부로 입력되어 얼굴의 Appearance 정보를 포함하는 32차원의 벡터 와 감정 정보를 포함하는 두 스칼라 변수 , 을 출력하는, 감정 기반의 얼굴 영상 생성 방법
10 10
제8항에 있어서, 상기 감정 인식 모델은 사람의 감정이 얼마나 긍정적인지를 나타내는 Valence 값과, 감정의 세기가 얼마나 강한지를 나타내는 Arousal 값의 조합으로 사람의 감정을 표현하는 Valence/Arousal 모델을 사용하고, 상기 감정 인식 모델은 딥러닝을 이용한 감정인식을 하기 위해 ResNet34를 이용한 감정 인식 모델을 사용하는, 감정 기반의 얼굴 영상 생성 방법
11 11
제8항에 있어서, 인코더는 입력 영상을 입력으로 받아 latent vector를 출력하고, 디코더는 latent vector를 입력으로 받아 새로운 영상을 출력하며, 상기 인코더-디코더의 latent vector는 appearance feature와 valence, arousal의 값을 포함하고,상기 인코더-디코더가 학습되면, 감정 인식 모델인 ResNet34는 균일한 데이터셋을 통해 학습될 수 있으며, 균일한 데이터셋을 만들기 위해, 인코더를 통해 입력 영상에 대해 latent vector를 얻고, 얻어진 latent vector의 valence와 arousal의 값을 새로운 valence와 arousal의 값으로 대체하여 새로운 latent vector를 생성하며, 새로운 valence와 arousal의 값은 의 범위에서 uniform sampling을 통해 얻어지며, 디코더는 새로운 latent vector를 입력으로 받아 이에 대응하는 3x64x64의 해상도를 갖는 새로운 영상을 생성하고, 상기 인코더-디코더에서 얻어진 새로운 영상은 3 x 224 x 224로 변형되어, 새롭게 sampling된 valence 및 arousal 값과 함께 감정 인식 모델인 ResNet34의 학습을 위한 학습 데이터로 사용되며, 앞의 과정을 통해 ResNet34가 학습되면, ResNet34는 3 x 224 x 224의 해상도를 갖는 영상을 입력받아 그 영상에 대응하는 valence와 arousal의 값을 출력하며, 즉, 인코더-디코더 네트워크는 입력 영상과 appearance 특징은 동일하지만, 새로운 valence와 arousal 값에 대응하는 영상을 생성하는, 감정 기반의 얼굴 영상 생성 방법
12 12
제11항에 있어서, 인코더-디코더 네트워크의 전체적인 구조에서, 인코더는 3 x 64 x 64 영상 I을 입력받아 3 x 3 convolution 연산, batch-normalization, ReLU, max-pooling을 반복하여 30차원의 appearance feature와 valence, arousal의 값을 포함하는 32차원의 latent vector를 출력하며, 디코더는 32차원의 latent vector를 입력받아 up-sampling, 3 x 3 convolution 연산, batch-normalization, ReLU를 반복하여 새로운 이미지 을 출력하며, 상기 인코더를 통해 출력되는 latent vector는 의도하는 대로 입력 얼굴의 appearance feature와 valence, arousal의 값을 나타냄을 보장하도록 인코더-디코더의 전체적인 학습이 필요하며, 인코더-디코더의 전체적인 학습 방법은 먼저 동일한 사람의 이미지 두 장을 가져오며, 는 각각 동일한 사람에 대한 번째 이미지이고, 번째 이미지를 인코더에 통과시켜 appearance feature와 valence 값 , arousal 값 를 얻으며, 예측된 와 는 각각 i번째 이미지에 대응하는 실제 valence 값 와 arousal 값 와 같아야 하며, 이를 위해 식 (1)과 같이 loss를 정의하고, (1)그리고 번째 이미지에 대해서 인코더를 통과시켜서 얻은 appearance feature와 번째 이미지 에 해당하는 실제 valence 값 , 실제 arousal 값 로 구성된 latent vector를 디코더의 입력으로 넣어주면, 디코더는 번째 이미지를 생성하며, 그 두 영상은 동일한 사람의 얼굴 영상이기 때문에, 디코더를 통해 생성된 이미지 는 실제 번째 이미지 와 같아야 하고, 이를 위해 식 (2)와 같이 loss를 정의하고, (2)여기서 는 각각 영상의 채널의 수, 가로, 세로를 의미하며, 이를 종합하면, 인코더-디코더를 학습하기 위한 loss는 식 (3)과 같이 표시되고, (3)여기서 와 는 각각 와 의 세기를 조절하기 위해 사용되는 가중치이며, 감정 인식 모델은 ResNet34를 사용하였으며, 기존의 ResNet34는 분류 문제를 위해 설계된 모델이기 때문에, 감정 인식을 위해 마지막 softmax layer를 제거하고, valence와 arousal 값을 출력하기 위해 2개의 node를 갖는 linear layer를 추가하였으며, 감정 인식을 수행하고자 하는 얼굴 이미지를 224×224×3으로 크기를 변형시켜 네트워크의 입력으로 사용하고, 출력은 입력 얼굴 이미지에 대응하는 valence와 arousal 값이 제공하며감정 인식 모델을 훈련시키기 위해 사용된 loss는 식 (4)와 같이 표시되며, (4)여기서, V와 A는 실제 이미지에 대응하는 valence와 arousal 값이고, 와 는 감정 인식 모델이 예측한 valence와 arousal 값 인 것을 특징으로 하는 감정 기반의 얼굴 영상 생성 방법
13 13
제8항에 있어서, 상기 인코더-디코더를 학습하기 위한 데이터셋은 다양한 사람의 얼굴 이미지와 그에 대응하는 valence와 arousal 값을 포함하는 AFEW-VA 데이터셋을 이용하였으며, 학습 데이터와 테스트 데이터는 각각 24,757장과 5,294장의 이미지로 구성되어 있고, AFEW-VA는 얼굴 영역의 bounding box 정보를 포함하지 않으므로 bounding box의 좌표를 얻기 위해 dlib의 cnn 기반 face detection 모델을 사용하였고, 학습 알고리즘으로 Adam을 사용하였으며, learning rate, batch size, number of epoch를 각각 0
14 14
제8항에 있어서, 상기 인코더-디코더가 다양한 valence, arousal 값에 대응하는 이미지를 생성한 결과, 의도한 대로 valence가 양수일 경우 긍정적인 이미지가, valence가 음수일 경우 부정적인 이미지가 생성되며, 또한 arousal 값이 커질수록 감정 변화가 큰 이미지가 생성되었음을, arousal 값이 작을수록 감정 변화가 작은 이미지가 생성되는, 감정 기반의 얼굴 영상 생성 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 광운대학교 산학협력단 차세대방송서비스활성화 기술개발사업 UHD 방송 환경에서 콘텐츠에 대한 시청자의 반응 및 의도 기반 미디어 인터랙션 기술