1 |
1
삭제
|
2 |
2
경과시간 및 텍스트를 포함하는 타임드 텍스트(timed text)에서 제공하는 상기 경과시간에 관한 시간정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출하는 단계;
상기 소정 장면 내에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하는 단계;
상기 인식된 화자와 비화자 및 상기 타임드 텍스트의 텍스트에 관한 정보로부터 상기 동영상의 소정 장면 내의 동작 형태를 파악하는 단계; 및
상기 동작 형태를 이용하여 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 단계를 포함하고,
상기 화자와 비화자를 인식하는 단계는,
상기 등장인물의 얼굴로부터 좌안 및 우안의 위치를 검출하고, 상기 좌안 및 상기 우안 사이의 제1 거리를 산출하는 단계;
상기 좌안의 위치로부터 아래로 상기 제1 거리만큼 이격된 위치를 상기 등장인물의 입을 나타내는 박스의 좌상단 위치로 설정하고, 상기 우안의 위치로부터 아래로 상기 제1 거리에 소정 상수값인 제2 거리를 더한 거리만큼 이격된 위치를 상기 등장인물의 입을 나타내는 박스의 우하단 위치로 설정하는 단계; 및
상기 좌상단 위치 및 상기 우하단 위치가 정의하는 상기 박스의 내부 이미지의 히스토그램 변화를 이용하여 상기 변화가 존재하는 얼굴을 상기 화자로 결정하고 상기 변화가 존재하지 않는 얼굴을 상기 비화자로 결정하는 단계를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션(annotation) 방법
|
3 |
3
경과시간 및 텍스트를 포함하는 타임드 텍스트에서 제공하는 상기 경과시간에 관한 시간정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출하는 단계;
상기 소정 장면 내에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하는 단계;
상기 인식된 화자와 비화자 및 상기 타임드 텍스트의 텍스트에 관한 정보로부터 상기 동영상의 소정 장면 내의 동작 형태를 파악하는 단계; 및
상기 동작 형태를 이용하여 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 단계를 포함하고,
상기 동영상의 소정 장면 내의 상기 동작 형태는,
상기 화자의 수, 상기 비화자의 수 및 상기 텍스트의 존재 여부를 이용하여 기 설정된 규칙을 기초로 파악되는 것을 특징으로 하는 동영상 상황정보 어노테이션 방법
|
4 |
4
경과시간 및 텍스트를 포함하는 타임드 텍스트에서 제공하는 상기 경과시간에 관한 시간정보를 이용하여 특정 경과시간에 해당하는 동영상 내의 소정 장면을 추출하는 단계;
상기 소정 장면 내에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하는 단계;
상기 인식된 화자와 비화자 및 상기 타임드 텍스트의 텍스트에 관한 정보로부터 상기 동영상의 소정 장면 내의 동작 형태를 파악하는 단계; 및
상기 동작 형태를 이용하여 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 단계를 포함하고,
상기 장면 상황정보는,
상기 경과시간, 상기 화자의 이름, 상기 비화자의 이름, 상기 동작 형태 및 상기 텍스트의 내용 중 적어도 하나를 포함하는 XML 파일로 생성되는 것을 특징으로 하는 동영상 상황정보 어노테이션 방법
|
5 |
5
삭제
|
6 |
6
동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;
경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부; 및
상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부를 포함하고,
상기 영상 처리부는,
상기 동영상 내의 소정 장면으로부터 상기 등장인물의 얼굴을 추출하고, 추출된 상기 얼굴이 누구인지 인식하는 얼굴 인식부; 및
상기 얼굴 인식부에서 인식된 얼굴 중에서 상기 화자와 비화자가 누구인지를 결정하는 화자 결정부를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치
|
7 |
7
동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;
경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부;
상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부; 및
상기 동영상 내에 등장하는 등장인물의 얼굴을 저장한 얼굴 데이터베이스를 포함하고,
상기 얼굴 인식부는, 상기 얼굴 데이터베이스를 이용하여 추출된 상기 얼굴이 누구인지를 인식하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치
|
8 |
8
동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;
경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부; 및
상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부를 포함하고,
상기 텍스트 처리부는,
상기 동영상의 소정 장면에 대하여 상기 경과시간에 관한 시간정보를 포함하는 시간 정보부; 및
상기 동영상의 상기 경과시간에 해당하는 텍스트의 내용에 관한 텍스트정보를 포함하는 텍스트 정보부를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치
|
9 |
9
제8항에 있어서,
상기 시간 정보부는 상기 시간정보를 상기 영상 처리부에 전달하고,
상기 영상 처리부는 상기 시간 정보부로부터 전달된 시간정보를 이용하여 상기 소정 장면을 정하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치
|
10 |
10
동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;
경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부; 및
상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부를 포함하고,
상기 장면상황 생성부는,
상기 영상 처리부 및 상기 텍스트 처리부로부터 각각 제공된 상기 제1 상황정보 및 상기 제2 상황정보를 이용하여 상기 장면 상황정보를 추출하는 상황정보 추출부; 및
추출된 상기 장면 상황정보를 XML 파일로 변환하여 저장하는 XML 생성부를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치
|
11 |
11
동영상 내의 소정 장면에 등장하는 적어도 하나의 등장인물의 얼굴로부터 화자와 비화자를 인식하고, 인식된 상기 화자와 비화자에 관한 제1 상황정보를 제공하는 영상 처리부;
경과시간 및 텍스트를 포함하는 타임드 텍스트에 관한 제2 상황정보를 제공하는 텍스트 처리부;
상기 영상 처리부로부터 제공된 상기 제1 상황정보 및 상기 텍스트 처리부로부터 제공된 상기 제2 상황정보로부터 상기 동영상의 소정 장면의 상황에 관한 장면 상황정보를 생성하는 장면상황 생성부; 및
상기 화자의 수, 상기 비화자의 수 및 상기 텍스트의 존재 여부를 이용하여 동작 형태를 설정한 규칙들을 저장한 규칙 데이터베이스를 포함하고,
상기 장면 상황정보는 상기 규칙 데이터베이스에 저장된 규칙들을 이용하여 설정된 동작 형태를 포함하는 것을 특징으로 하는 동영상 상황정보 어노테이션 장치
|
12 |
12
삭제
|