맞춤기술찾기

이전대상기술

2D 마스크 콘볼루션을 사용한 병렬 이미지 캡션 시스템 및 방법

  • 기술번호 : KST2021010276
  • 담당센터 : 인천기술혁신센터
  • 전화번호 : 032-420-3580
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 일 실시예에 따른 이미지 캡션 시스템에 의해 수행되는 이미지 캡션 방법은, 이미지 캡션을 위한 캡션 모델을 구성하는 단계; 상기 구성된 캡션 모델에 입력 이미지를 학습시킴에 따라 학습 결과로서 입력 이미지에 대한 텍스트 설명을 생성하는 단계; 및 상기 생성된 입력 이미지에 대한 텍스트 설명을 이미지 캡션 정보로 제공하는 단계를 포함할 수 있다.
Int. CL G06N 3/08 (2006.01.01) G06F 40/169 (2020.01.01)
CPC G06N 3/08(2013.01) G06F 40/169(2013.01)
출원번호/일자 1020200002579 (2020.01.08)
출원인 인하대학교 산학협력단
등록번호/일자
공개번호/일자 10-2021-0089424 (2021.07.16) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.01.08)
심사청구항수 10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 인하대학교 산학협력단 대한민국 인천광역시 미추홀구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 권장우 부산광역시 남구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 양성보 대한민국 서울특별시 강남구 선릉로***길 ** (논현동) 삼성빌딩 *층(피앤티특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.01.08 수리 (Accepted) 1-1-2020-0021149-14
2 [출원서 등 보정]보정서
[Amendment to Patent Application, etc.] Amendment
2020.09.03 수리 (Accepted) 1-1-2020-0934000-80
3 의견제출통지서
Notification of reason for refusal
2021.08.25 발송처리완료 (Completion of Transmission) 9-5-2021-0673439-90
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
이미지 캡션 시스템에 의해 수행되는 이미지 캡션 방법에 있어서, 이미지 캡션을 위한 캡션 모델을 구성하는 단계; 상기 구성된 캡션 모델에 입력 이미지를 학습시킴에 따라 학습 결과로서 입력 이미지에 대한 텍스트 설명을 생성하는 단계; 및상기 생성된 입력 이미지에 대한 텍스트 설명을 이미지 캡션 정보로 제공하는 단계 를 포함하는 이미지 캡션 방법
2 2
제1항에 있어서, 상기 구성하는 단계는, 이미지 캡션을 위한 콘볼루션 기반의 캡션 모델을 구성하는 단계를 포함하고, 상기 캡션 모델은 입력 이미지를 학습하여 특징을 추출하는 역할을 수행하는 인코더 및 상기 인코더와 캡션에 대응하는 특징에 관계를 설정하여, 입력 이미지에 대한 텍스트 설명을 출력하는 디코더를 포함하는, 이미지 캡션 방법
3 3
제2항에 있어서, 상기 인코더는, 상기 입력 이미지에 대한 기 설정된 기준 이상의 정보를 학습하기 위해 심층 잔여 연결을 이용하는 CNN 아키텍쳐의 변형인 Resnet-101모델을 사용하고, 상기 입력 이미지의 특징을 획득하기 위하여 Resnet-101 모델의 마지막 콘볼루션 계층에서 출력된 결과를 사용하고, 14x14 크기의 512 차원의 특징맵을 획득하기 위하여 적응형 평균 풀링을 적용하고, 모든 픽셀에 걸쳐 공간 평균(spatial average)을 적용하여 2048 차원의 특징을 획득하고, 선형 계층을 적용하여 상기 획득된 특징을 512 차원의 벡터에 매핑하는 이미지 캡션 방법
4 4
제2항에 있어서,상기 디코더는 워드-임베딩 계층, 2D 마스크 콘볼루션 계층 및 예측 계층으로 구성되는 것을 포함하고, 상기 워드-임베딩 계층에서 입력 이미지의 캡션을 n(n은 자연수)차원의 벡터 공간으로 인코딩하고, 상기 워드 임베딩 계층을 통과한 결과를 인코더의 특징과 결합되어 의미있는 캡션을 생성하기 위해 2D 마스크 콘볼루션 계층을 통해 텐서(tensor)를 추가로 처리하는 이미지 캡션 방법
5 5
제1항에 있어서, 상기 생성하는 단계는, 데이터 셋트의 문장이 상기 워드-임베딩 계층에 입력되기 전에, 데이터 셋트의 문장을1-핫 인코더를 사용하여 |V|x 1차원의 공간으로 변환하고, 상기 1차원 공간으로 변환된 각 단어 벡터를 512x|V|의 사이즈를 갖는 워드-임베팅 계층에 입력함에 따라 인코더에서 추출된 특징과 연결된 512 차원의 단어 벡터를 출력하는 단계를 포함하고,상기 |V|는, 상기 데이터 셋트에 존재하는 모든 단어를 사용하여 생성되는 어휘 사전의 크기를 의미하는, 이미지 캡션 방법
6 6
제5항에 있어서, 상기 생성하는 단계는, 상기 데이터 셋트의 문장이 1-핫 인코더를 통과함에 따라 출력된 1-핫 인코딩 벡터에 위치 임베딩을 적용하여 입력 토큰의 위치 정보를 판단하고, 문장의 부분들을 이해하기 위한 위치 인코딩을 수행하는 단계를 포함하는 이미지 캡션 방법
7 7
제5항에 있어서, 상기 생성하는 단계는, 상기 워드-임베딩 계층을 출력한 결과를 2D 마스크 콘볼루션 계층에 입력하고, 상기 입력된 2D 마스크 콘볼루션 계층에 구성된 BN(batch normalization)와 ReLU에 통과시킨 후, 1D 콘볼루션 계층을 통과시킴에 따라 결과를 다운 샘플링하는 단계를 포함하는 이미지 캡션 방법
8 8
제5항에 있어서, 상기 생성하는 단계는, 상기 512차원의 단어 벡터를 사용하여 단어 컨텍스트, 512차원의 특징맵(Q) 및 잔여 연결(residual connections)을 제공하기 위하여 다단계 주의(Multi-Step Attention) 계층을 구현하는 단계를 포함하는 이미지 캡션 방법
9 9
제7항에 있어서, 상기 생성하는 단계는, 상기 2D 마스크 콘볼루션 계층으로부터 획득된 결과 벡터에 맥스 풀링(Max pooling)을 적용하고, 상기 맥스 풀링을 적용한 특징에 |V|x512 크기의 선형 임베딩을 적용한 결과에 |V|차원의 벡터에 매핑하고, 상기 매핑을 수행한 결과에 소프트맥스(Softmax)을 적용하여 사전에서 단어의 확률 분포를 획득하는 단계를 포함하는 이미지 캡션 방법
10 10
이미지 캡션 시스템에 있어서, 이미지 캡션을 위한 캡션 모델을 구성하는 모델 구성부; 상기 구성된 캡션 모델에 입력 이미지를 학습시킴에 따라 학습 결과로서 입력 이미지에 대한 텍스트 설명을 생성하는 생성부; 및상기 생성된 입력 이미지에 대한 텍스트 설명을 이미지 캡션 정보로 제공하는 제공부를 포함하는 이미지 캡션 시스템
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 인하대학교 산학협력단 대학ICT연구센터지원사업 인공지능을 활용한 콘텐츠 창작 기술