1 |
1
전자 장치에 있어서,적어도 하나의 인스트럭션(instruction)을 저장하는 메모리; 및상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하고,상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써,영상 및 상기 영상에 대한 질문을 제1 모델에 입력하여 상기 영상에 포함된 복수의 키 프레임(key frame)에 대한 제1 특징 데이터 및 상기 복수의 키 프레임과 관련된 제1 가중치를 획득하고,상기 영상에 대한 텍스트 및 상기 영상에 대한 질문을 제2 모델에 입력하여 상기 텍스트에 대한 제2 특징 데이터 및 상기 텍스트와 관련된 제2 가중치를 획득하고, 상기 제1 가중치와 상기 제1 특징 데이터를 이용하여 키 프레임 특징 데이터를 획득하고, 상기 제2 가중치와 상기 제2 특징 데이터를 이용하여 텍스트 특징 데이터를 획득하며,상기 키 프레임 특징 데이터 및 상기 텍스트 특징 데이터를 바탕으로 상기 질문에 대한 답변을 획득하는 전자 장치
|
2 |
2
제1항에 있어서,상기 프로세서는,상기 질문을 상기 제1 모델 및 상기 제2 모델에 입력하여 상기 질문에 대응되는 데이터를 획득하고,상기 질문에 대응되는 데이터는 상기 질문을 나타내는 텍스트에 워드 임베딩(word embedding)이 수행된 데이터인 것을 특징으로 하는 전자 장치
|
3 |
3
제2항에 있어서,상기 프로세서는,상기 제1 특징 데이터와 상기 질문에 대응되는 데이터를 상기 제1 모델의 제1 컨텍스트 투 쿼리(context-to-query) 모듈에 입력하여 상기 제1 특징 데이터와 상기 질문에 대응되는 데이터가 매핑되는 정도를 나타내는 수치인 상기 제1 가중치를 획득하고,상기 제2 특징 데이터와 상기 질문에 대응되는 데이터를 상기 제2 모델의 제2 컨텍스트 투 쿼리 모듈에 입력하여 상기 제2 특징 데이터와 상기 질문에 대응되는 데이터가 매핑되는 정도를 나타내는 수치인 상기 제2 가중치를 획득하는 전자 장치
|
4 |
4
제3항에 있어서,상기 프로세서는,상기 질문에 대한 답변을 획득하기 위하여 필요한 데이터의 종류에 대한 정보를 바탕으로 상기 제1 컨텍스트 투 쿼리 모듈 및 상기 제2 컨텍스트 투 쿼리 모듈을 학습시키는 전자 장치
|
5 |
5
제2항에 있어서,상기 프로세서는,상기 키 프레임 특징 데이터, 상기 텍스트 특징 데이터 및 상기 질문에 대응되는 텍스트를 제3 모델에 입력하여 상기 질문에 대한 답변을 획득하는 전자 장치
|
6 |
6
제1항에 있어서,상기 프로세서는,상기 제1 가중치 또는 상기 제2 가중치 중 하나가 임계값 미만인 경우, 상기 임계값 미만의 가중치를 제외한 나머지 가중치에 대응되는 특징 데이터만을 이용하여 상기 질문에 대한 답변을 획득하는 전자 장치
|
7 |
7
제5항에 있어서,상기 메모리는 상기 질문에 대한 복수의 답변 후보를 저장하고,상기 프로세서는,상기 질문에 대한 복수의 답변 후보를 상기 메모리로부터 로딩하고,상기 키 프레임 특징 데이터, 상기 텍스트 특징 데이터, 상기 질문에 대응되는 데이터 및 상기 복수의 답변 후보를 상기 제3 모델에 입력하여 상기 복수의 답변 후보 각각의 신뢰도 값을 획득하고,상기 신뢰도 값이 가장 높은 답변 후보를 상기 질문에 대한 답변으로 식별하는 전자 장치
|
8 |
8
제5항에 있어서,상기 프로세서는,상기 키 프레임 특징 데이터, 상기 텍스트 특징 데이터 및 상기 질문에 대응되는 데이터를 상기 제3 모델에 입력하여 상기 질문에 대한 답변을 나타내는 텍스트를 출력하고,상기 제3 모델은 NLG(Natural Language Generator) 모델을 포함하는 것을 특징으로 하는 전자 장치
|
9 |
9
제1항에 있어서,상기 프로세서는,상기 영상에 포함된 오디오 데이터를 ASR(Auto Speech Recognition) 모델에 입력하여 상기 영상에 대한 텍스트를 획득하는 전자 장치
|
10 |
10
전자 장치의 제어 방법에 있어서,영상 및 상기 영상에 대한 질문을 제1 모델에 입력하여 상기 영상에 포함된 복수의 키 프레임에 대한 제1 특징 데이터 및 상기 복수의 키 프레임과 관련된 제1 가중치를 획득하는 단계;상기 영상에 대한 텍스트 및 상기 영상에 대한 질문을 제2 모델에 입력하여 상기 텍스트에 대한 제2 특징 데이터 및 상기 텍스트와 관련된 제2 가중치를 획득하는 단계;상기 제1 가중치와 상기 제1 특징 데이터를 이용하여 키 프레임 특징 데이터를 획득하고, 상기 제2 가중치와 상기 제2 특징 데이터를 이용하여 텍스트 특징 데이터를 획득하는 단계; 및상기 키 프레임 특징 데이터 및 상기 텍스트 특징 데이터를 바탕으로 상기 질문에 대한 답변을 획득하는 단계;를 포함하는 제어 방법
|
11 |
11
제10항에 있어서,상기 질문을 상기 제1 모델 및 상기 제2 모델에 입력하여 상기 질문에 대응되는 데이터를 획득하는 단계;를 더 포함하고,상기 질문에 대응되는 데이터는 상기 질문을 나타내는 텍스트에 워드 임베딩(word embedding)이 수행된 데이터인 것을 특징으로 하는 제어 방법
|
12 |
12
제11항에 있어서,상기 제1 가중치를 획득하는 단계는,상기 제1 특징 데이터와 상기 질문에 대응되는 데이터를 상기 제1 모델의 제1 컨텍스트 투 쿼리(context-to-query) 모듈에 입력하여 상기 제1 특징 데이터와 상기 질문에 대응되는 데이터가 매핑되는 정도를 나타내는 수치인 상기 제1 가중치를 획득하는 단계;를 포함하고,상기 제2 가중치를 획득하는 단계는,상기 제2 특징 데이터와 상기 질문에 대응되는 데이터를 상기 제2 모델의 제2 컨텍스트 투 쿼리 모듈에 입력하여 상기 제2 특징 데이터와 상기 질문에 대응되는 데이터가 매핑되는 정도를 나타내는 수치인 상기 제2 가중치를 획득하는 제어 방법
|
13 |
13
제12항에 있어서,상기 질문에 대한 답변을 획득하기 위하여 필요한 데이터의 종류에 대한 정보를 바탕으로 상기 제1 컨텍스트 투 쿼리 모듈 및 상기 제2 컨텍스트 투 쿼리 모듈을 학습시키는 단계;를 더 포함하는 제어 방법
|
14 |
14
제11항에 있어서,상기 질문에 대한 답변을 획득하는 단계는,상기 키 프레임 특징 데이터, 상기 텍스트 특징 데이터 및 상기 질문에 대응되는 텍스트를 제3 모델에 입력하여 상기 질문에 대한 답변을 획득하는 단계;를 더 포함하는 제어 방법
|
15 |
15
제10항에 있어서,상기 제1 가중치 또는 상기 제2 가중치 중 하나가 임계값 미만인 경우, 상기 임계값 미만의 가중치를 제외한 나머지 가중치에 대응되는 특징 데이터만을 이용하여 상기 질문에 대한 답변을 획득하는 단계;를 더 포함하는 제어 방법
|
16 |
16
제14항에 있어서,상기 질문에 대한 답변을 획득하는 단계는,상기 질문에 대한 복수의 답변 후보를 상기 전자 장치의 메모리로부터 로딩하는 단계;상기 키 프레임 특징 데이터, 상기 텍스트 특징 데이터, 상기 질문에 대응되는 데이터 및 상기 복수의 답변 후보를 상기 제3 모델에 입력하여 상기 복수의 답변 후보 각각의 신뢰도 값을 획득하는 단계; 및상기 신뢰도 값이 가장 높은 답변 후보를 상기 질문에 대한 답변으로 식별하는 단계;를 포함하는 제어 방법
|
17 |
17
제14항에 있어서,상기 질문에 대한 답변을 획득하는 단계는,상기 키 프레임 특징 데이터, 상기 텍스트 특징 데이터 및 상기 질문에 대응되는 데이터를 상기 제3 모델에 입력하여 상기 질문에 대한 답변을 나타내는 텍스트를 출력하는 단계;를 포함하고,상기 제3 모델은 NLG(Natural Language Generator) 모델을 포함하는 것을 특징으로 하는 제어 방법
|
18 |
18
제10항에 있어서,상기 영상에 포함된 오디오 데이터를 ASR(Auto Speech Recognition) 모델에 입력하여 상기 영상에 대한 텍스트를 획득하는 단계;를 더 포함하는 제어 방법
|