1 |
1
입력된 비디오를 청크 단위로 분할하고, 청크마다 벡터 형태로 추출된 특징을 기반으로 청크 레벨 특징 시퀀스를 생성하는 단계;입력된 자연어 문장을 단어 단위로 분할하고, 단어마다 벡터 형태로 추출된 특징을 기반으로 문장 레벨 특징 시퀀스를 생성하는 단계;상기 청크 레벨 특징 시퀀스와 상기 문장 레벨 특징 시퀀스 간의 관계를 추출하여, 상기 비디오의 맥락 정보를 포함하는 청크-문장 관계 특징 시퀀스를 생성하는 단계; 및상기 청크-문장 관계 특징 시퀀스를 기반으로 상기 비디오에서 상기 자연어 문장에 상응하는 구간을 추정하는 단계를 포함하는 것을 특징으로 하는 비디오 의미 구간 검출 방법
|
2 |
2
청구항 1에 있어서,상기 청크-문장 관계 특징 시퀀스를 생성하는 단계는상기 청크 레벨 특징 시퀀스에서 상기 문장 레벨 특징 시퀀스와 관련된 타겟 특징 정보를 시점 별로 추출하는 단계; 및상기 타겟 특징 정보를 시점에 따라 순차적으로 결합하여 상기 비디오의 전체 맥락 정보를 추출하는 단계를 포함하는 것을 특징으로 하는 비디오 의미 구간 검출 방법
|
3 |
3
청구항 2에 있어서,상기 추정하는 단계는상기 비디오의 전체 맥락 정보를 기반으로 상기 비디오의 전체 구간 중에서 상기 문장 레벨 특징 시퀀스에 관련된 타겟 맥락 정보에 상응하는 구간을 상기 자연어 문장에 상응하는 구간으로 추정하는 것을 특징으로 하는 비디오 의미 구간 검출 방법
|
4 |
4
청구항 3에 있어서,상기 추정하는 단계는상기 비디오의 전체 구간을 대상으로 상기 타겟 맥락 정보에 대한 구간 확률 맵을 생성하고, 상기 구간 확률 맵에서 확률이 가장 높은 구간을 상기 타겟 맥락 정보에 상응하는 구간으로 검출하는 것을 특징으로 하는 비디오 의미 구간 검출 방법
|
5 |
5
청구항 1에 있어서,상기 청크 레벨 특징 시퀀스를 생성하는 단계는상기 비디오에서 각 청크에 해당하는 RGB 프레임 또는 플로우 프레임을 추출하고, 상기 RGB 프레임 또는 플로우 프레임을 기반으로 각 청크에 대해 순차적으로 비디오 특징을 추출하여 상기 청크 레벨 특징 시퀀스를 생성하는 것을 특징으로 하는 비디오 의미 구간 검출 방법
|
6 |
6
청구항 1에 있어서,상기 문장 레벨 특징 시퀀스를 생성하는 단계는상기 단어마다 추출된 단어 벡터를 순환 신경망에 순차적으로 입력하여 상기 자연어 문장의 의미에 상응하는 문장 레벨 특징 시퀀스를 생성하는 것을 특징으로 하는 비디오 의미 구간 검출 방법
|
7 |
7
청구항 4에 있어서,상기 구간 확률 맵은전역 값 추출 방식 또는 지역 값 추출 방식을 기반으로 생성되는 것을 특징으로 하는 비디오 의미 구간 검출 방법
|
8 |
8
입력된 비디오를 청크 단위로 분할하고, 청크마다 벡터 형태로 추출된 특징을 기반으로 청크 레벨 특징 시퀀스를 생성하고, 입력된 자연어 문장을 단어 단위로 분할하고, 단어마다 벡터 형태로 추출된 특징을 기반으로 문장 레벨 특징 시퀀스를 생성하고, 상기 청크 레벨 특징 시퀀스와 상기 문장 레벨 특징 시퀀스 간의 관계를 추출하여, 상기 비디오의 맥락 정보를 포함하는 청크-문장 관계 특징 시퀀스를 생성하고, 상기 청크-문장 관계 특징 시퀀스를 기반으로 상기 비디오에서 상기 자연어 문장에 상응하는 구간을 추정하는 프로세서; 및상기 비디오 및 상기 자연어 문장을 저장하는 메모리를 포함하는 것을 특징으로 하는 비디오 의미 구간 검출 장치
|
9 |
9
청구항 8에 있어서,상기 프로세서는상기 청크 레벨 특징 시퀀스에서 상기 문장 레벨 특징 시퀀스와 관련된 타겟 특징 정보를 시점 별로 추출하고, 상기 타겟 특징 정보를 시점에 따라 순차적으로 결합하여 상기 비디오의 전체 맥락 정보를 추출하는 것을 특징으로 하는 비디오 의미 구간 검출 장치
|
10 |
10
청구항 9에 있어서,상기 프로세서는상기 비디오의 전체 맥락 정보를 기반으로 상기 비디오의 전체 구간 중에서 상기 문장 레벨 특징 시퀀스에 관련된 타겟 맥락 정보에 상응하는 구간을 상기 자연어 문장에 상응하는 구간으로 추정하는 것을 특징으로 하는 비디오 의미 구간 검출 장치
|
11 |
11
청구항 10에 있어서,상기 프로세서는상기 비디오의 전체 구간을 대상으로 상기 타겟 맥락 정보에 대한 구간 확률 맵을 생성하고, 상기 구간 확률 맵에서 확률이 가장 높은 구간을 상기 타겟 맥락 정보에 상응하는 구간으로 검출하는 것을 특징으로 하는 비디오 의미 구간 검출 장치
|
12 |
12
청구항 8에 있어서,상기 프로세서는상기 비디오에서 각 청크에 해당하는 RGB 프레임 또는 플로우 프레임을 추출하고, 상기 RGB 프레임 또는 플로우 프레임을 기반으로 각 청크에 대해 순차적으로 비디오 특징을 추출하여 상기 청크 레벨 특징 시퀀스를 생성하는 것을 특징으로 하는 비디오 의미 구간 검출 장치
|
13 |
13
청구항 8에 있어서,상기 프로세서는상기 단어마다 추출된 단어 벡터를 순환 신경망에 순차적으로 입력하여 상기 자연어 문장의 의미에 상응하는 문장 레벨 특징 시퀀스를 생성하는 것을 특징으로 하는 비디오 의미 구간 검출 장치
|
14 |
14
청구항 11에 있어서,상기 구간 확률 맵은전역 값 추출 방식 또는 지역 값 추출 방식을 기반으로 생성되는 것을 특징으로 하는 비디오 의미 구간 검출 장치
|