1 |
1
멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반 전자 장치의 동작 방법에 있어서, 사용자의 영상, 음성 및 텍스트와 관련되는 멀티모달 데이터를 검출하는 동작;상기 멀티모달 데이터에 기반하여, 제 1 주의집중 변수를 계산하는 동작;상기 멀티모달 데이터 및 상기 제 1 주의집중 변수에 기반하여, 제 2 주의집중 변수를 계산하는 동작; 및 상기 제 2 주의집중 변수에 기반하여, 결과값을 추론하는 동작을 포함하고, 상기 멀티모달 데이터를 검출하는 동작은,상기 사용자의 음성과 관련하여 로그-멜 스펙트로그램(log-mel spectrogram) 형태로 특징점을 검출하는 과정;상기 사용자의 영상으로서 상기 사용자의 얼굴 이미지를 크로핑(cropping)하여 특징점을 검출하는 과정; 및상기 음성을 텍스트로 변환한 후 문장 임베딩 벡터(sentence embedding vector)를 이용하여 상기 텍스트를 벡터로 표현함으로써 상기 텍스트와 관련된 특징점을 검출하는 과정을 포함하고,상기 제 1 주의집중 변수를 계산하는 동작은,상기 멀티모달 데이터를 분석하여, 상기 음성과 관련된 특징점을 나타내는 제 1 싱글모달 데이터, 상기 영상과 관련된 특징점을 나타내는 제 2 싱글모달 데이터 및 상기 텍스트와 관련된 특징점을 나타내는 제 3 싱글모달 데이터를 획득하는 동작; 및상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 1 주의집중 변수를 계산하는 동작을 포함하고, 상기 제 2 주의집중 변수를 계산하는 동작은,상기 제 1 주의집중 변수에 기반하여, 제 1 감정 추론 값을 획득하는 동작; 상기 제 1 감정 추론 값으로부터 상기 음성, 영상 및 텍스트와 각각 관련되는 가중치들을 획득하는 동작;상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터와 상기 제 1 감정 추론 값으로부터 획득된 가중치들을 기반으로, 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 2 주의집중 변수를 계산하는 동작;상기 제 2 주의집중 변수에 기반하여, 제 2 감정 추론 값을 획득하는 동작; 및상기 멀티모달 데이터 및 상기 제 2 감정 추론 값에 기반하여, 상기 제 2 주의집중 변수를 재차 계산하는 동작을 포함하고,상기 음성, 영상 및 텍스트와 각각 관련되는 가중치들을 획득하는 동작은,상기 제 1 감정 추론 값에 대한 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각의 영향력에 따라 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 가중치를 부여하는 과정을 포함하고,상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 2 주의집중 변수를 계산하는 동작은,상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터와 상기 부여된 가중치를 각각 대응시켜 곱셈 연산을 수행함으로써 상기 제 2 주의집중 변수를 계산하는 과정을 포함하고,상기 제 2 주의집중 변수를 재차 계산하는 동작 후에, 상기 제 2 감정 추론 값을 획득하는 동작으로 복귀하고,상기 제 2 주의집중 변수를 재차 계산하는 동작은,미리 정해진 횟수만큼 반복하는 것으로,상기 제 2 감정 추론 값으로부터 상기 음성, 영상 및 텍스트와 각각 관련되는 가중치들을 획득하는 동작; 및상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터와 상기 제 2 감정 추론 값으로부터 획득된 가중치들을 기반으로, 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 2 주의집중 변수를 계산하는 동작을 포함하고,상기 감정을 인식하는 동작은,상기 제 2 주의집중 변수에 기반하여, 상기 제 2 감정 추론 값을 획득하는 동작; 및상기 제 2 감정 추론 값을 통하여, 상기 감정을 인식하는 동작을 포함하는 방법
|
11 |
11
멀티모달 데이터를 이용한 주의집중의 순환 신경망 기반 전자 장치에 있어서, 입력 모듈; 및상기 입력 모듈과 연결되는 프로세서를 포함하며, 상기 프로세서는, 상기 입력 모듈을 통하여, 사용자의 영상, 음성 및 텍스트와 관련되는 멀티모달 데이터를 검출하고, 상기 멀티모달 데이터에 기반하여, 제 1 주의집중 변수를 계산하고, 상기 멀티모달 데이터 및 상기 제 1 주의집중 변수에 기반하여, 제 2 주의집중 변수를 계산하고, 상기 제 2 주의집중 변수에 기반하여, 결과값을 추론하도록 구성되고,상기 프로세서는,상기 사용자의 음성과 관련하여 로그-멜 스펙트로그램(log-mel spectrogram) 형태로 특징점을 검출하고,상기 사용자의 영상으로서 상기 사용자의 얼굴 이미지를 크로핑(cropping)하여 특징점을 검출하고,상기 음성을 텍스트로 변환한 후 문장 임베딩 벡터(sentence embedding vector)를 이용하여 상기 텍스트를 벡터로 표현함으로써 상기 텍스트와 관련된 특징점을 검출하도록 구성되고,상기 프로세서는,상기 멀티모달 데이터를 분석하여, 상기 음성과 관련된 특징점을 나타내는 제 1 싱글모달 데이터, 상기 영상과 관련된 특징점을 나타내는 제 2 싱글모달 데이터 및 상기 텍스트와 관련된 특징점을 나타내는 제 3 싱글모달 데이터를 획득하고, 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 1 주의집중 변수를 계산하도록 구성되고, 상기 프로세서는, 상기 제 1 주의집중 변수에 기반하여, 제 1 감정 추론 값을 획득하고, 상기 제 1 감정 추론 값으로부터 상기 음성, 영상 및 텍스트와 각각 관련되는 가중치들을 획득하고, 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터와 상기 제 1 감정 추론 값으로부터 획득된 가중치들을 기반으로, 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 2 주의집중 변수를 계산하고,상기 제 2 주의집중 변수에 기반하여, 제 2 감정 추론 값을 획득하고,상기 멀티모달 데이터 및 상기 제 2 감정 추론 값에 기반하여, 상기 제 2 주의집중 변수를 재차 계산하도록 구성되고,상기 프로세서는,상기 제 1 감정 추론 값에 대한 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각의 영향력에 따라 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 가중치를 부여하도록 구성되고,상기 프로세서는,상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터와 상기 부여된 가중치를 각각 대응시켜 곱셈 연산을 수행함으로써 상기 제 2 주의집중 변수를 계산하도록 구성되고,상기 프로세서는,상기 제 2 주의집중 변수를 재차 계산한 후에, 상기 제 2 감정 추론 값을 획득하는 동작으로 복귀하도록 구성되고,상기 프로세서는,상기 제 2 주의집중 변수를 재차 계산하는 과정을 미리 정해진 횟수만큼 반복하는 것으로,상기 제 2 감정 추론 값으로부터 상기 음성, 영상 및 텍스트와 각각 관련되는 가중치들을 획득하고,상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터와 상기 제 2 감정 추론 값으로부터 획득된 가중치들을 기반으로, 상기 제 1 싱글모달 데이터, 상기 제 2 싱글모달 데이터 및 상기 제 3 싱글모달 데이터 각각에 대응하여, 상기 제 2 주의집중 변수를 계산하도록 구성되고,상기 프로세서는,상기 제 2 주의집중 변수에 기반하여, 상기 제 2 감정 추론 값을 획득하고,상기 제 2 감정 추론 값을 통하여, 상기 감정을 인식하도록 구성되는, 전자 장치
|