1 |
1
이미지 캡션 시스템에 의해 수행되는 이미지 캡션 방법에 있어서, 이미지 캡션을 위한 캡션 모델을 구성하는 단계; 상기 구성된 캡션 모델에 입력 이미지를 학습시킴에 따라 학습 결과로서 입력 이미지에 대한 텍스트 설명을 생성하는 단계; 및상기 생성된 입력 이미지에 대한 텍스트 설명을 이미지 캡션 정보로 제공하는 단계 를 포함하는 이미지 캡션 방법
|
2 |
2
제1항에 있어서, 상기 구성하는 단계는, 이미지 캡션을 위한 콘볼루션 기반의 캡션 모델을 구성하는 단계를 포함하고, 상기 캡션 모델은 입력 이미지를 학습하여 특징을 추출하는 역할을 수행하는 인코더 및 상기 인코더와 캡션에 대응하는 특징에 관계를 설정하여, 입력 이미지에 대한 텍스트 설명을 출력하는 디코더를 포함하는, 이미지 캡션 방법
|
3 |
3
제2항에 있어서, 상기 인코더는, 상기 입력 이미지에 대한 기 설정된 기준 이상의 정보를 학습하기 위해 심층 잔여 연결을 이용하는 CNN 아키텍쳐의 변형인 Resnet-101모델을 사용하고, 상기 입력 이미지의 특징을 획득하기 위하여 Resnet-101 모델의 마지막 콘볼루션 계층에서 출력된 결과를 사용하고, 14x14 크기의 512 차원의 특징맵을 획득하기 위하여 적응형 평균 풀링을 적용하고, 모든 픽셀에 걸쳐 공간 평균(spatial average)을 적용하여 2048 차원의 특징을 획득하고, 선형 계층을 적용하여 상기 획득된 특징을 512 차원의 벡터에 매핑하는 이미지 캡션 방법
|
4 |
4
제2항에 있어서,상기 디코더는 워드-임베딩 계층, 2D 마스크 콘볼루션 계층 및 예측 계층으로 구성되는 것을 포함하고, 상기 워드-임베딩 계층에서 입력 이미지의 캡션을 n(n은 자연수)차원의 벡터 공간으로 인코딩하고, 상기 워드 임베딩 계층을 통과한 결과를 인코더의 특징과 결합되어 의미있는 캡션을 생성하기 위해 2D 마스크 콘볼루션 계층을 통해 텐서(tensor)를 추가로 처리하는 이미지 캡션 방법
|
5 |
5
제1항에 있어서, 상기 생성하는 단계는, 데이터 셋트의 문장이 상기 워드-임베딩 계층에 입력되기 전에, 데이터 셋트의 문장을1-핫 인코더를 사용하여 |V|x 1차원의 공간으로 변환하고, 상기 1차원 공간으로 변환된 각 단어 벡터를 512x|V|의 사이즈를 갖는 워드-임베팅 계층에 입력함에 따라 인코더에서 추출된 특징과 연결된 512 차원의 단어 벡터를 출력하는 단계를 포함하고,상기 |V|는, 상기 데이터 셋트에 존재하는 모든 단어를 사용하여 생성되는 어휘 사전의 크기를 의미하는, 이미지 캡션 방법
|
6 |
6
제5항에 있어서, 상기 생성하는 단계는, 상기 데이터 셋트의 문장이 1-핫 인코더를 통과함에 따라 출력된 1-핫 인코딩 벡터에 위치 임베딩을 적용하여 입력 토큰의 위치 정보를 판단하고, 문장의 부분들을 이해하기 위한 위치 인코딩을 수행하는 단계를 포함하는 이미지 캡션 방법
|
7 |
7
제5항에 있어서, 상기 생성하는 단계는, 상기 워드-임베딩 계층을 출력한 결과를 2D 마스크 콘볼루션 계층에 입력하고, 상기 입력된 2D 마스크 콘볼루션 계층에 구성된 BN(batch normalization)와 ReLU에 통과시킨 후, 1D 콘볼루션 계층을 통과시킴에 따라 결과를 다운 샘플링하는 단계를 포함하는 이미지 캡션 방법
|
8 |
8
제5항에 있어서, 상기 생성하는 단계는, 상기 512차원의 단어 벡터를 사용하여 단어 컨텍스트, 512차원의 특징맵(Q) 및 잔여 연결(residual connections)을 제공하기 위하여 다단계 주의(Multi-Step Attention) 계층을 구현하는 단계를 포함하는 이미지 캡션 방법
|
9 |
9
제7항에 있어서, 상기 생성하는 단계는, 상기 2D 마스크 콘볼루션 계층으로부터 획득된 결과 벡터에 맥스 풀링(Max pooling)을 적용하고, 상기 맥스 풀링을 적용한 특징에 |V|x512 크기의 선형 임베딩을 적용한 결과에 |V|차원의 벡터에 매핑하고, 상기 매핑을 수행한 결과에 소프트맥스(Softmax)을 적용하여 사전에서 단어의 확률 분포를 획득하는 단계를 포함하는 이미지 캡션 방법
|
10 |
10
이미지 캡션 시스템에 있어서, 이미지 캡션을 위한 캡션 모델을 구성하는 모델 구성부; 상기 구성된 캡션 모델에 입력 이미지를 학습시킴에 따라 학습 결과로서 입력 이미지에 대한 텍스트 설명을 생성하는 생성부; 및상기 생성된 입력 이미지에 대한 텍스트 설명을 이미지 캡션 정보로 제공하는 제공부를 포함하는 이미지 캡션 시스템
|