맞춤기술찾기

이전대상기술

자막 출력 장치 및 그 방법

  • 기술번호 : KST2018007068
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 자막 출력 방법이 개시된다. 상기 자막 출력 방법은, 멀티미디어 영상을 영상과 음성으로 분리하는 단계; 상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 단계; 상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하는 단계; 상기 문장 기반의 객체를 이용하여, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 단계; 상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 단계; 상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하여, 합성 영상을 생성하는 단계; 및 상기 합성 영상을 출력하는 단계를 포함한다.
Int. CL H04N 5/278 (2006.01.01) H04N 21/488 (2011.01.01) H04N 21/485 (2011.01.01)
CPC H04N 5/278(2013.01) H04N 5/278(2013.01) H04N 5/278(2013.01)
출원번호/일자 1020160158128 (2016.11.25)
출원인 한국전자통신연구원
등록번호/일자
공개번호/일자 10-2018-0059030 (2018.06.04) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 N
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 김창현 대한민국 대전광역시 유성구
2 김영길 대한민국 대전광역시 서구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인지명 대한민국 서울특별시 강남구 남부순환로**** 차우빌딩*층

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2016.11.25 수리 (Accepted) 1-1-2016-1155542-04
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
멀티미디어 영상을 영상과 음성으로 분리하는 단계;상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 단계;상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하는 단계;상기 문장 기반의 객체를 이용하여, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 단계;상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 단계;상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하여, 합성 영상을 생성하는 단계; 및상기 합성 영상을 출력하는 단계를 포함하는 자막 출력 방법
2 2
제1항에서, 상기 추출하는 단계는,상기 음성으로부터 특징 벡터열을 추출하는 단계;음향 모델(acoustic model)을 참조하여, 상기 특징 벡터열에 매칭되는 패턴을 분류하는 단계;언어 모델(language model)을 참조하여, 상기 분류된 패턴에 대한 언어 구조를 분석하여, 상기 자막 문장을 추출하는 단계를 포함함을 특징으로 하는 자막 출력 방법
3 3
제1항에서, 상기 인식하는 단계는,깊은 신경망(Deep Neural Network: DNN) 기반의 영상 분석 기술을 이용하여 상기 영상 기반의 객체들을 인식하는 단계를 포함함을 특징으로 하는 자막 출력 방법
4 4
제1항에서, 상기 인식하는 단계는,형태소 분석(morphological analysis), 구문 분석(syntactic analysis) 및 의미 분석(semantic analysis) 중 적어도 하나를 포함하는 자막 분석 기술을 이용하여, 상기 문장 기반의 객체를 인식하는 단계를 포함함을 특징으로 하는 자막 출력 방법
5 5
제1항에서, 상기 포커싱 객체를 결정하는 단계는,상기 자막 문장의 의미론적 내용(semantic content)이 상기 영상 기반의 객체들 중에서 어떤 객체를 중점적으로 설명하는 지를 판단하는 단계; 및판단된 객체를 포커싱 객체로 인식하는 단계를 포함을 특징으로 하는 자막 출력 방법
6 6
제1항에서, 상기 포커싱 객체를 결정하는 단계는,상기 영상 기반의 객체들 중에서 상기 문장 기반의 객체와 의미론적 유사성(semantic similarity)이 가장 높은 객체를 상기 포커싱 객체로 결정하는 단계임을 특징으로 하는 자막 출력 방법
7 7
제1항에서, 상기 포커싱 객체를 결정하는 단계는,상기 영상 기반의 객체들을 각각 나타내는 단어들과 상기 문장 기반의 객체를 나타내는 단어 간의 의미론적 유사도(semantic similarity score)를 확률적으로 계산하는 단계;상기 확률적으로 계산된 유사도(similarity score)가 가장 높은 단어를 선정하는 단계; 및상기 영상 기반의 객체들 중에서 상기 선정된 단어에 대응하는 객체를 포커싱 객체로 결정하는 단계를 포함함을 특징으로 하는 자막 출력 방법
8 8
제1항에서, 상기 포커싱 객체를 결정하는 단계는,상기 문장 기반의 객체를 고려하지 않고, 상기 영상 기반의 객체들 중에서 숫자 또는 텍스트 형태의 객체를 상기 포커싱 객체를 결정하는 단계를 포함함을 특징으로 자막 출력 방법
9 9
제1항에서, 상기 출력 영역을 결정하는 단계는,현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 후보 영역으로 선정하는 단계; 및이전 영상 내에서 출력된 이전의 자막 문장을 현재 프레임의 영상 내에서 유지하는 경우, 이전 영상의 전체 영역 내에서 이전의 자막 문장이 출력되는 영역과 상기 후보 영역이 충돌하는 지(겹치는 지)를 판단하는 단계;상기 영역과 상기 후보 영역이 충돌하는(겹치는) 경우, 상기 후보 영역 내에서 상기 이전의 자막 문장의 출력 영역을 제외한 나머지 영역을 상기 출력 영역으로 결정하는 단계를 포함함을 특징으로 하는 자막 출력 방법
10 10
제9항에서, 상기 선정하는 단계는,현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 제1 후보 영역으로 선정하는 단계;상기 제1 후보 영역 내에서 상기 포커싱 객체로 인식되지 않은 다른 객체가 존재하는 경우, 상기 제1 후보 영역 내에서 상기 다른 객체가 위치하는 영역을 제외한 나머지 영역 내에서 제2 후보 영역으로 선정하는 단계; 및상기 제2 후보 영역 내에서 픽셀값의 표준 편차가 가장 작게 나타나는 영역을 제3 후보 영역으로 선정하는 단계를 포함함을 특징으로 하는 자막 출력 방법
11 11
제1항에서, 상기 출력 영역에 출력되는 자막 문장의 특징을 결정하는 단계를 더 포함하고, 상기 자막 문장의 특징은,자막 문장을 구성하는 글자의 색상, 글자의 폰트 및 글자의 크기 중에서 적어도 하나를 포함함을 특징으로 하는 자막 출력 방법
12 12
제11항에서, 상기 자막 문장의 특징을 결정하는 단계는,상기 출력영역의 색상과의 명도 대비(luminosity contrast), 채도 대비(chromatic contrast) 및 보색 대비(complementary contrast)를 고려하여 상기 글자의 색상을 결정하는 단계를 포함함을 특징으로 하는 자막 출력 방법
13 13
방송 영상을 영상과 음성으로 분리하는 영상/음성 분리부상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 자막 추출부;상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하고, 상기 문장 기반의 객체를 기반으로, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 영상/자막 인식부;상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 출력 영역 결정부; 및상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하는 영상/자막 합성부; 및상기 합성 영상을 출력하는 출력부를 포함하는 자막 출력 장치
14 14
제13항에서, 상기 영상/자막 인식부는,상기 영상 기반의 객체들 중에서 상기 문장 기반의 객체와 의미론적 유사성(semantic similarity)이 가장 높은 객체를 상기 포커싱 객체로 결정함을 특징으로 하는 자막 출력 장치
15 15
제13항에서, 상기 영상/자막 인식부는,상기 문장 기반의 객체를 고려하지 않고, 상기 영상 기반의 객체들 중에서 숫자 또는 텍스트 형태의 객체를 상기 포커싱 객체를 결정함을 특징으로 하는 자막 출력 장치
16 16
제13항에서, 상기 출력 영역 결정부는,현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 후보 영역으로 선정하는 후보 영역 선정부; 및이전 영상의 전체 영역 내에서 이전의 자막 문장이 출력되는 영역과 상기 후보 영역이 충돌하는 지를 판단하여, 상기 영역과 상기 후보 영역이 충돌하는 것으로 확인되면, 상기 후보 영역 내에서 상기 이전의 자막 문장의 출력 영역을 제외한 나머지 영역을 상기 출력 영역으로 결정하는 자막 충돌 판단부를 포함함을 특징으로 하는 자막 출력 장치
17 17
제16항에서, 상기 후보 영역 선정부는,상기 후보 영역 내에서 상기 포커싱 객체로 인식되지 않은 다른 객체가 존재하는 경우, 상기 후보 영역 내에서 상기 다른 객체가 위치하는 영역을 제외한 나머지 영역 내에서 최종 후보 영역을 선정함을 특징으로 하는 자막 출력 장치
18 18
제16항에서, 상기 후보 영역 선정부는,상기 후보 영역 내에서 픽셀값의 표준 편차가 가장 작게 나타나는 영역을 최종 후보 영역으로 선정함을 특징으로 하는 자막 출력 장치
19 19
제13항에서, 상기 출력 영역에 출력되는 자막 문장의 특징을 결정하는 자막 특징 결정부를 더 포함하고,상기 자막 문장의 특징은,자막 문장을 구성하는 글자의 색상, 글자의 폰트 및 글자의 크기 중에서 적어도 하나를 포함함을 특징으로 하는 자막 출력 장치
20 20
제19항에서, 상기 자막 특징 결정부는,상기 출력영역의 색상과의 명도 대비(luminosity contrast), 채도 대비(chromatic contrast) 및 보색 대비(complementary contrast)를 고려하여 상기 글자의 색상을 결정함을 특징으로 하는 자막 출력 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 미래창조과학부 한국전자통신연구원 SW컴퓨팅산업원천기술개발 지식증강형 실시간 동시통역 원천기술 개발