1 |
1
멀티미디어 영상을 영상과 음성으로 분리하는 단계;상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 단계;상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하는 단계;상기 문장 기반의 객체를 이용하여, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 단계;상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 단계;상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하여, 합성 영상을 생성하는 단계; 및상기 합성 영상을 출력하는 단계를 포함하는 자막 출력 방법
|
2 |
2
제1항에서, 상기 추출하는 단계는,상기 음성으로부터 특징 벡터열을 추출하는 단계;음향 모델(acoustic model)을 참조하여, 상기 특징 벡터열에 매칭되는 패턴을 분류하는 단계;언어 모델(language model)을 참조하여, 상기 분류된 패턴에 대한 언어 구조를 분석하여, 상기 자막 문장을 추출하는 단계를 포함함을 특징으로 하는 자막 출력 방법
|
3 |
3
제1항에서, 상기 인식하는 단계는,깊은 신경망(Deep Neural Network: DNN) 기반의 영상 분석 기술을 이용하여 상기 영상 기반의 객체들을 인식하는 단계를 포함함을 특징으로 하는 자막 출력 방법
|
4 |
4
제1항에서, 상기 인식하는 단계는,형태소 분석(morphological analysis), 구문 분석(syntactic analysis) 및 의미 분석(semantic analysis) 중 적어도 하나를 포함하는 자막 분석 기술을 이용하여, 상기 문장 기반의 객체를 인식하는 단계를 포함함을 특징으로 하는 자막 출력 방법
|
5 |
5
제1항에서, 상기 포커싱 객체를 결정하는 단계는,상기 자막 문장의 의미론적 내용(semantic content)이 상기 영상 기반의 객체들 중에서 어떤 객체를 중점적으로 설명하는 지를 판단하는 단계; 및판단된 객체를 포커싱 객체로 인식하는 단계를 포함을 특징으로 하는 자막 출력 방법
|
6 |
6
제1항에서, 상기 포커싱 객체를 결정하는 단계는,상기 영상 기반의 객체들 중에서 상기 문장 기반의 객체와 의미론적 유사성(semantic similarity)이 가장 높은 객체를 상기 포커싱 객체로 결정하는 단계임을 특징으로 하는 자막 출력 방법
|
7 |
7
제1항에서, 상기 포커싱 객체를 결정하는 단계는,상기 영상 기반의 객체들을 각각 나타내는 단어들과 상기 문장 기반의 객체를 나타내는 단어 간의 의미론적 유사도(semantic similarity score)를 확률적으로 계산하는 단계;상기 확률적으로 계산된 유사도(similarity score)가 가장 높은 단어를 선정하는 단계; 및상기 영상 기반의 객체들 중에서 상기 선정된 단어에 대응하는 객체를 포커싱 객체로 결정하는 단계를 포함함을 특징으로 하는 자막 출력 방법
|
8 |
8
제1항에서, 상기 포커싱 객체를 결정하는 단계는,상기 문장 기반의 객체를 고려하지 않고, 상기 영상 기반의 객체들 중에서 숫자 또는 텍스트 형태의 객체를 상기 포커싱 객체를 결정하는 단계를 포함함을 특징으로 자막 출력 방법
|
9 |
9
제1항에서, 상기 출력 영역을 결정하는 단계는,현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 후보 영역으로 선정하는 단계; 및이전 영상 내에서 출력된 이전의 자막 문장을 현재 프레임의 영상 내에서 유지하는 경우, 이전 영상의 전체 영역 내에서 이전의 자막 문장이 출력되는 영역과 상기 후보 영역이 충돌하는 지(겹치는 지)를 판단하는 단계;상기 영역과 상기 후보 영역이 충돌하는(겹치는) 경우, 상기 후보 영역 내에서 상기 이전의 자막 문장의 출력 영역을 제외한 나머지 영역을 상기 출력 영역으로 결정하는 단계를 포함함을 특징으로 하는 자막 출력 방법
|
10 |
10
제9항에서, 상기 선정하는 단계는,현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 제1 후보 영역으로 선정하는 단계;상기 제1 후보 영역 내에서 상기 포커싱 객체로 인식되지 않은 다른 객체가 존재하는 경우, 상기 제1 후보 영역 내에서 상기 다른 객체가 위치하는 영역을 제외한 나머지 영역 내에서 제2 후보 영역으로 선정하는 단계; 및상기 제2 후보 영역 내에서 픽셀값의 표준 편차가 가장 작게 나타나는 영역을 제3 후보 영역으로 선정하는 단계를 포함함을 특징으로 하는 자막 출력 방법
|
11 |
11
제1항에서, 상기 출력 영역에 출력되는 자막 문장의 특징을 결정하는 단계를 더 포함하고, 상기 자막 문장의 특징은,자막 문장을 구성하는 글자의 색상, 글자의 폰트 및 글자의 크기 중에서 적어도 하나를 포함함을 특징으로 하는 자막 출력 방법
|
12 |
12
제11항에서, 상기 자막 문장의 특징을 결정하는 단계는,상기 출력영역의 색상과의 명도 대비(luminosity contrast), 채도 대비(chromatic contrast) 및 보색 대비(complementary contrast)를 고려하여 상기 글자의 색상을 결정하는 단계를 포함함을 특징으로 하는 자막 출력 방법
|
13 |
13
방송 영상을 영상과 음성으로 분리하는 영상/음성 분리부상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 자막 추출부;상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하고, 상기 문장 기반의 객체를 기반으로, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 영상/자막 인식부;상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 출력 영역 결정부; 및상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하는 영상/자막 합성부; 및상기 합성 영상을 출력하는 출력부를 포함하는 자막 출력 장치
|
14 |
14
제13항에서, 상기 영상/자막 인식부는,상기 영상 기반의 객체들 중에서 상기 문장 기반의 객체와 의미론적 유사성(semantic similarity)이 가장 높은 객체를 상기 포커싱 객체로 결정함을 특징으로 하는 자막 출력 장치
|
15 |
15
제13항에서, 상기 영상/자막 인식부는,상기 문장 기반의 객체를 고려하지 않고, 상기 영상 기반의 객체들 중에서 숫자 또는 텍스트 형태의 객체를 상기 포커싱 객체를 결정함을 특징으로 하는 자막 출력 장치
|
16 |
16
제13항에서, 상기 출력 영역 결정부는,현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 후보 영역으로 선정하는 후보 영역 선정부; 및이전 영상의 전체 영역 내에서 이전의 자막 문장이 출력되는 영역과 상기 후보 영역이 충돌하는 지를 판단하여, 상기 영역과 상기 후보 영역이 충돌하는 것으로 확인되면, 상기 후보 영역 내에서 상기 이전의 자막 문장의 출력 영역을 제외한 나머지 영역을 상기 출력 영역으로 결정하는 자막 충돌 판단부를 포함함을 특징으로 하는 자막 출력 장치
|
17 |
17
제16항에서, 상기 후보 영역 선정부는,상기 후보 영역 내에서 상기 포커싱 객체로 인식되지 않은 다른 객체가 존재하는 경우, 상기 후보 영역 내에서 상기 다른 객체가 위치하는 영역을 제외한 나머지 영역 내에서 최종 후보 영역을 선정함을 특징으로 하는 자막 출력 장치
|
18 |
18
제16항에서, 상기 후보 영역 선정부는,상기 후보 영역 내에서 픽셀값의 표준 편차가 가장 작게 나타나는 영역을 최종 후보 영역으로 선정함을 특징으로 하는 자막 출력 장치
|
19 |
19
제13항에서, 상기 출력 영역에 출력되는 자막 문장의 특징을 결정하는 자막 특징 결정부를 더 포함하고,상기 자막 문장의 특징은,자막 문장을 구성하는 글자의 색상, 글자의 폰트 및 글자의 크기 중에서 적어도 하나를 포함함을 특징으로 하는 자막 출력 장치
|
20 |
20
제19항에서, 상기 자막 특징 결정부는,상기 출력영역의 색상과의 명도 대비(luminosity contrast), 채도 대비(chromatic contrast) 및 보색 대비(complementary contrast)를 고려하여 상기 글자의 색상을 결정함을 특징으로 하는 자막 출력 장치
|