1 |
1
시각 질의 응답 장치에 의한 시각 질의 응답 방법에 있어서,정답 추론부에 의해 정답 추론 모델의 복수의 레이어 사이에 적어도 하나의 영역 맵을 추가하고 상기 정답 추론 모델을 기반으로 이미지와 관련된 질문 벡터에 대하여 정답을 추론하는 단계; 및정답 설명부에 의해 상기 적어도 하나의 영역 맵을 이용하여 상기 정답을 추론하기 위한 설명 가능한 질문에 응답하는 단계를 포함하며,상기 설명 가능한 질문은 (i) 상기 정답이 상기 이미지에서 어디에 위치하는지에 관한 제1 질문, (ii) 상기 정답이 추론되는 과정에서 선택된 영역들 및 상기 영역들이 선택된 순서에 관한 제2 질문, (iii) 상기 이미지에서 상기 정답이 아닌 객체 영역이 상기 정답에 해당하지 않는 이유에 관한 제3 질문, 또는 이들의 조합에 관한 것을 특징으로 하는 시각 질의 응답 방법
|
2 |
2
제1항에 있어서,상기 정답 추론 모델은 N(상기 N은 자연수) 개의 레이어를 포함하며, N-K (상기 K는 상기 N보다 작은 자연수)번째의 레이어 내지 N 번째의 레이어에 각각 대응하는 시각 특징을 추출하고 상기 N-K 번째의 레이어 내지 상기 N 번째의 레이어에 각각 대응하는 시각 특징 및 상기 질문 벡터를 기반으로 학습하여, 상기 이미지를 복수의 조각으로 분할하고 상기 N-K 번째의 레이어 내지 상기 N 번째의 레이어에 각각 대응하도록 상기 정답을 추론하는 데 필요한 영역을 예측하기 위한 K 개의 영역 맵을 생성하는 것을 특징으로 하는 시각 질의 응답 방법
|
3 |
3
제2항에 있어서,상기 정답 추론 모델은 상기 N 개의 레이어 중에서 일부 레이어를 단계별로 기억 학습하며, 상기 N-K 번째의 레이어부터 상기 N 번째의 레이어까지 수용 영역(Reception Field)의 크기를 순차적으로 감소시켜 적용하는 것을 특징으로 하는 시각 질의 응답 방법
|
4 |
4
제1항에 있어서,상기 질문 벡터는 장단기 메모리(Long Short Term Memory, LSTM) 구조의 순환신경망(Recurrent Neural Network, RNN)을 기반으로 질문을 인코딩하여 생성되며 의미론적 관계 정보를 포함하는 것을 특징으로 하는 시각 질의 응답 방법
|
5 |
5
삭제
|
6 |
6
제1항에 있어서,상기 설명 가능한 질문에 응답하는 단계는,상기 제1 질문에 대하여 상기 복수의 레이어 중에서 최종 레이어에 대응하는 시각 특징에 상기 영역 맵을 반영하여 상기 이미지에서 상기 정답의 위치를 표시하는 것을 특징으로 하는 시각 질의 응답 방법
|
7 |
7
제1항에 있어서,상기 설명 가능한 질문에 응답하는 단계는,상기 제2 질문에 대하여 상기 복수의 레이어 중에서 일부 레이어에 대응하는 복수의 시각 특징에 복수의 영역 맵을 각각 반영한 영역 특징들을 상기 이미지에서 순서대로 표시하는 것을 특징으로 하는 시각 질의 응답 방법
|
8 |
8
제1항에 있어서,상기 설명 가능한 질문에 응답하는 단계는,상기 제3 질문에 대하여 상기 복수의 레이어 중에서 일부 레이어에 대응하는 복수의 시각 특징에 복수의 영역 맵을 각각 반영한 영역 특징들을 게이트 순환 유닛(Gated Recurrent Unit, GRU)에 입력하여 대답 문장을 생성하는 것을 특징으로 하는 시각 질의 응답 방법
|
9 |
9
정답 추론 모델의 복수의 레이어 사이에 적어도 하나의 영역 맵을 추가하고 상기 정답 추론 모델을 기반으로 이미지와 관련된 질문 벡터에 대하여 정답을 추론하는 정답 추론부; 및상기 적어도 하나의 영역 맵을 이용하여 상기 정답을 추론하기 위한 설명 가능한 질문에 응답하는 정답 설명부를 포함하며,상기 설명 가능한 질문은 (i) 상기 정답이 상기 이미지에서 어디에 위치하는지에 관한 제1 질문, (ii) 상기 정답이 추론되는 과정에서 선택된 영역들 및 상기 영역들이 선택된 순서에 관한 제2 질문, (iii) 상기 이미지에서 상기 정답이 아닌 객체 영역이 상기 정답에 해당하지 않는 이유에 관한 제3 질문, 또는 이들의 조합에 관한 것을 특징으로 하는 시각 질의 응답 장치
|
10 |
10
제9항에 있어서,상기 정답 추론 모델은 N(상기 N은 자연수) 개의 레이어를 포함하며, N-K (상기 K는 상기 N보다 작은 자연수)번째의 레이어 내지 N 번째의 레이어에 각각 대응하는 시각 특징을 추출하고 상기 N-K 번째의 레이어 내지 상기 N 번째의 레이어에 각각 대응하는 시각 특징 및 상기 질문 벡터를 기반으로 학습하여, 상기 이미지를 복수의 조각으로 분할하고 상기 N-K 번째의 레이어 내지 상기 N 번째의 레이어에 각각 대응하도록 상기 정답을 추론하는 데 필요한 영역을 예측하기 위한 K 개의 영역 맵을 생성하는 것을 특징으로 하는 시각 질의 응답 장치
|
11 |
11
삭제
|
12 |
12
제9항에 있어서,상기 정답 설명부는,상기 제1 질문에 대하여 상기 복수의 레이어 중에서 최종 레이어에 대응하는 시각 특징에 상기 영역 맵을 반영하여 상기 이미지에서 상기 정답의 위치를 표시하는 것을 특징으로 하는 시각 질의 응답 장치
|
13 |
13
제9항에 있어서,상기 정답 설명부는,상기 제2 질문에 대하여 상기 복수의 레이어 중에서 일부 레이어에 대응하는 복수의 시각 특징에 복수의 영역 맵을 각각 반영한 영역 특징들을 상기 이미지에서 순서대로 표시하는 것을 특징으로 하는 시각 질의 응답 장치
|
14 |
14
제9항에 있어서,상기 정답 설명부는,상기 제3 질문에 대하여 상기 복수의 레이어 중에서 일부 레이어에 대응하는 복수의 시각 특징에 복수의 영역 맵을 각각 반영한 영역 특징들을 게이트 순환 유닛(Gated Recurrent Unit, GRU)에 입력하여 대답 문장을 생성하는 것을 특징으로 하는 시각 질의 응답 장치
|
15 |
15
프로세서에 의해 실행 가능한 컴퓨터 프로그램 명령어들을 포함하는 비일시적(Non-Transitory) 컴퓨터 판독 가능한 매체에 기록되어 시각 질의 응답을 위한 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램 명령어들이 컴퓨팅 디바이스의 적어도 하나의 프로세서에 의해 실행되는 경우에,정답 추론 모델의 복수의 레이어 사이에 적어도 하나의 영역 맵을 추가하고 상기 정답 추론 모델을 기반으로 이미지와 관련된 질문 벡터에 대하여 정답을 추론하는 단계; 및상기 적어도 하나의 영역 맵을 이용하여 상기 정답을 추론하기 위한 설명 가능한 질문에 응답하는 단계를 포함한 동작들을 수행하며,상기 설명 가능한 질문은 (i) 상기 정답이 상기 이미지에서 어디에 위치하는지에 관한 제1 질문, (ii) 상기 정답이 추론되는 과정에서 선택된 영역들 및 상기 영역들이 선택된 순서에 관한 제2 질문, (iii) 상기 이미지에서 상기 정답이 아닌 객체 영역이 상기 정답에 해당하지 않는 이유에 관한 제3 질문, 또는 이들의 조합에 관한 것을 특징으로 하는 컴퓨터 프로그램
|