1 |
1
이미지, 상기 이미지에 대한 캡션 및 상기 이미지에 대한 질의 텍스트를 포함하는 질의를 입력 받는 질의 입력부;외부 지식 베이스로부터 상기 질의에 대응하는 답변 데이터(이하, 외재적 지식)을 추출하는 외부 지식 추출부;미리 학습된 Visual Bert 모델을 이용하여 상기 질의에 대응하는 답변 데이터(이하, 내재적 지식)을 추출하는 내부 지식 추출부;상기 이미지에 대한 캡션을 생성하여 생성된 캡션과 상기 이미지에 대한 캡션의 유사도를 생성하고, 상기 생성된 캡션의 상기 질의에 대한 낮은 연관성을 의미하는 불확실도를 생성하며, 상기 유사도 및 불확실도를 기반으로 상기 외부 지식 베이스와 상기 이미지 사이의 의미적 불일치를 의미하는 불일치도를 생성하는 외부 지식 신뢰도 판단부; 및상기 불일치도를 기반으로 상기 외재적 지식 및 상기 내재적 지식으로부터 상기 질의에 대한 최종 답변을 출력하는 답변 출력부;를 포함하는, 한국어 기반의 시각적 질의 답변 장치
|
2 |
2
제1항에 있어서,상기 외부 지식 추출부는, 상기 이미지로부터 상기 이미지에 포함된 객체에 대한 키워드(이미지 키워드)를 추출하고, 상기 질의 텍스트로부터 키워드(이하, 질의 키워드)를 추출하고, 상기 이미지 키워드 및 상기 질의 키워드를 기반으로 상기 외부 지식 베이스를 검색하여 상기 외재적 지식을 추출하는, 한국어 기반의 시각적 질의 답변 장치
|
3 |
3
제2항에 있어서,상기 외부 지식 추출부는, RGCN 링크 예측 모델을 이용하여 상기 이미지 키워드 및 상기 질의 키워드를 기반으로 외부 지식 베이스로부터 상기 외재적 지식을 추출하는, 한국어 기반의 시각적 질의 답변 장치
|
4 |
4
제2항에 있어서,상기 외부 지식 추출부는, ResNet-152, ResNet-18 및 Faster R-CNN 중 적어도 하나의 모델을 기반으로 상기 이미지 키워드를 추출하는, 한국어 기반의 시각적 질의 답변 장치
|
5 |
5
제1항에 있어서,상기 외부 지식 베이스는, DB-Pedia, ConceptNet, VisualGenome 및 hasPartKB 중 적어도 하나인, 한국어 기반의 시각적 질의 답변 장치
|
6 |
6
제1항에 있어서,상기 내부 지식 추출부는, 상기 이미지 및 상기 질의 텍스트를 토큰화하고, 미리 학습된 VisualBert 모델을 이용하여 토큰화된 이미지 및 질의 텍스트를 기반으로 상기 내재적 지식을 추출하는, 한국어 기반의 시각적 질의 답변 장치
|
7 |
7
제1항에 있어서,상기 외부 지식 신뢰도 판단부는, RNN(Recurrent Neural Network) 기반의 캡션 생성 모델을 기반으로 상기 이미지로부터 캡션을 생성하는, 한국어 기반의 시각적 질의 답변 장치
|
8 |
8
제1항에 있어서,상기 외부 지식 신뢰도 판단부는, Sentence-Bert 모델을 기반으로 상기 이미지에 대한 캡션과 상기 생성된 캡션 사이의 유사도를 생성하는, 한국어 기반의 시각적 질의 답변 장치
|
9 |
9
이미지, 상기 이미지에 대한 캡션 및 상기 이미지에 대한 질의 텍스트를 포함하는 질의를 입력 받는 단계;외부 지식 베이스로부터 상기 질의에 대응하는 답변 데이터(이하, 외재적 지식)을 추출하는 단계;미리 학습된 Visual Bert 모델을 이용하여 상기 질의에 대응하는 답변 데이터(이하, 내재적 지식)을 추출하는 단계;상기 이미지에 대한 캡션을 생성하여 생성된 캡션과 상기 이미지에 대한 캡션의 유사도를 생성하고, 상기 생성된 캡션의 상기 질의에 대한 낮은 연관성을 의미하는 불확실도를 생성하며, 상기 유사도 및 불확실도를 기반으로 상기 외부 지식 베이스와 상기 이미지 사이의 의미적 불일치를 의미하는 불일치도를 생성하는 단계; 및상기 불일치도를 기반으로 상기 외재적 지식 및 상기 내재적 지식으로부터 상기 질의에 대한 최종 답변을 출력하는 단계;를 포함하는, 한국어 기반의 시각적 질의 답변 방법
|
10 |
10
제9항에 있어서,상기 외재적 지식을 추출하는 단계는, 상기 이미지로부터 상기 이미지에 포함된 객체에 대한 키워드(이미지 키워드)를 추출하고, 상기 질의 텍스트로부터 키워드(이하, 질의 키워드)를 추출하고, 상기 이미지 키워드 및 상기 질의 키워드를 기반으로 상기 외부 지식 베이스를 검색하여 상기 외재적 지식을 추출하는, 한국어 기반의 시각적 질의 답변 방법
|
11 |
11
제10항에 있어서,상기 외재적 지식을 추출하는 단계는, RGCN 링크 예측 모델을 이용하여 상기 이미지 키워드 및 상기 질의 키워드를 기반으로 외부 지식 베이스로부터 상기 외재적 지식을 추출하는, 한국어 기반의 시각적 질의 답변 방법
|
12 |
12
제10항에 있어서,상기 외재적 지식을 추출하는 단계는, ResNet-152, ResNet-18 및 Faster R-CNN 중 적어도 하나의 모델을 기반으로 상기 이미지 키워드를 추출하는, 한국어 기반의 시각적 질의 답변 방법
|
13 |
13
제9항에 있어서,상기 외부 지식 베이스는, DB-Pedia, ConceptNet, VisualGenome 및 hasPartKB 중 적어도 하나인, 한국어 기반의 시각적 질의 답변 방법
|
14 |
14
제9항에 있어서,상기 내재적 지식을 추출하는 단계는, 상기 이미지 및 상기 질의 텍스트를 토큰화하고, 미리 학습된 VisualBert 모델을 이용하여 토큰화된 이미지 및 질의 텍스트를 기반으로 상기 내재적 지식을 추출하는, 한국어 기반의 시각적 질의 답변 방법
|
15 |
15
제9항에 있어서,상기 불일치도를 생성하는 단계는, RNN(Recurrent Neural Network) 기반의 캡션 생성 모델을 기반으로 상기 이미지로부터 캡션을 생성하는, 한국어 기반의 시각적 질의 답변 방법
|
16 |
16
제9항에 있어서,상기 불일치도를 생성하는 단계는, Sentence-Bert 모델을 기반으로 상기 이미지에 대한 캡션과 상기 생성된 캡션 사이의 유사도를 생성하는, 한국어 기반의 시각적 질의 답변 방법
|