1 |
1
적어도 하나의 프로세서에 의해 동작하는 동영상 구간 검색 장치의 동작 방법에 있어서,문장 및 상기 문장이 묘사하는 프레임을 포함하는 동영상을 입력받아, 문장 특징 벡터 및 동영상 특징 벡터를 추출하는 단계, 그리고상기 문장 특징 벡터와 상기 동영상 특징 벡터 간의 유사도를 기초로, 상기 문장과 관련된 적어도 하나의 프레임으로 구성된 동영상 후보 영역을 생성하는 단계를 포함하는, 동작 방법
|
2 |
2
제1항에서,상기 동영상 후보 영역을 생성하는 단계는,상기 문장 특징 벡터와 상기 동영상 특징 벡터 간의 유사도를 토대로, 문장과 동영상 프레임 간의 코사인 유사성을 나타낸 유사도 곡선을 생성하고, 상기 유사도 곡선을 적분한 유사도 적분 곡선(Similarity Integral Curve)을 생성하는 단계, 그리고상기 유사도 적분 곡선을 이용하여 상기 문장과 관련된 복수개의 동영상 후보 영역을 생성하는 단계를 포함하는, 동작 방법
|
3 |
3
제2항에서,상기 문장과 관련된 복수개의 동영상 후보 영역을 생성하는 단계 이후,상호 인접한 시간 영역에 위치하는 적어도 두개의 동영상 후보 영역을 결합하여 다양한 크기를 가진 멀티 스케일 동영상 후보 영역을 생성하는 단계를 더 포함하는, 동작 방법
|
4 |
4
제2항에서,상기 유사도 곡선은,상기 문장 특징 벡터와 상기 동영상 특징 벡터 간의 프레임-레벨 코사인 유사도를 이용하여 생성되는, 동작 방법
|
5 |
5
제4항에서,상기 프레임-레벨 코사인 유사도는, 상기 문장 특징 벡터의 에버리지 풀링(average pooling)을 대상으로 계산되는, 동작 방법
|
6 |
6
제1항에서,상기 검색하는 단계 이후,포지티브 동영상 구간에서 하드 네거티브 프레임을 결정하도록 학습된 대조군 학습이 수행된 동영상 검색 모델을 통해 상기 동영상 후보 영역의 포지티브 동영상 구간에서 상기 문장과와 관련된 문장 특징 벡터와의 코사인 유사도가 가장 높은 하나의 동영상 후보 영역을 결정하는 단계를 더 포함하는, 동작 방법
|
7 |
7
제6항에서,상기 동영상 검색 모델은,포지티브(Positive) 프레임들에서 가장 낮은 유사도를 가지는 후보 영역을 선택할 확률을 나타내는 제1 손실을 학습하는, 동작 방법
|
8 |
8
제7항에서,상기 동영상 검색 모델은,네거티브(Negative) 프레임들과 문장 특징 벡터를 이용하여 배치당 다른 동영상 들에서 네거티브 프레임을 선택할 확률을 나타내는 제2 손실을 추가로 학습하는, 동작 방법
|
9 |
9
제8항에서,상기 동영상 검색 모델은,상기 제1 손실과 상기 제2 손실을 합산한 총 손실을 학습하는, 동작 방법
|
10 |
10
입력 문장의 문장 특징 벡터를 추출하는 문장 특징 추출부,상기 입력 문장이 표현하는 장면을 포함하는 입력 동영상의 동영상 특징 벡터를 추출하는 동영상 특징 추출부,상기 문장 특징 벡터와 상기 동영상 특징 벡터 간의 유사도를 기초로, 상기 입력 동영상을 구성하는 복수의 프레임들 중에서 상기 문장과 관련된 적어도 하나의 프레임으로 구성된 동영상 후보 영역을 생성하는 후보 동영상 영역 생성부를 포함하는, 동영상 구간 검색 장치
|
11 |
11
제10항에서,상기 후보 동영상 영역 생성부는,상기 문장 특징 벡터와 상기 동영상 특징 벡터 간의 유사도를 토대로, 문장과 동영상 프레임 간의 코사인 유사성을 나타낸 유사도 곡선을 적분한 유사도 적분 곡선(Similarity Integral Curve)을 생성하고, 상기 유사도 적분 곡선을 이용하여 상기 문장과 관련된 복수개의 동영상 후보 영역을 생성하는, 동영상 구간 검색 장치
|
12 |
12
제11항에서,상기 후보 동영상 영역 생성부는,상호 인접한 시간 영역에 위치하는 적어도 두개의 동영상 후보 영역을 결합하여 다양한 크기를 가진 멀티 스케일 동영상 후보 영역을 생성하는, 동영상 구간 검색 장치
|
13 |
13
제10항에서,상기 동영상 특징 추출부는,상기 입력 동영상에 포함된 장면을 서술하는 복수의 자막을 입력받아 복수의 자막 특징 벡터를 추출하는 텍스트 인코더,상기 입력 동영상을 구성하는 복수의 프레임들의 복수의 프레임 특징 벡터를 추출하는 동영상 디코더, 그리고상기 복수의 자막 특징 벡터와 상기 복수의 프레임 특징 벡터를 결합한 동영상 특징 벡터를 추출하는 계층적 인코더를 포함하는, 동영상 구간 검색 장치
|
14 |
14
제13항에서,포지티브 동영상 구간에서 하드 네거티브 프레임을 결정하도록 학습된 대조군 학습을 수행하는 하드(Hard) 네거티브(Negative) 샘플링(Sampling)부를 더 포함하고,상기 대조군 학습은,포지티브 프레임들에서 가장 낮은 유사도를 가지는 후보 영역을 선택할 확률을 나타내는 제1 손실, 그리고 네거티브 프레임들과 문장 특징 벡터를 이용하여 배치당 다른 동영상 들에서 네거티브 프레임을 선택할 확률을 나타내는 제2 손실을 합산한 총 손실을 학습하는, 동영상 구간 검색 장치
|
15 |
15
제10항에서,상기 후보 동영상 영역 생성부는,상기 동영상 후보 영역의 포지티브(Positive) 동영상 구간에서 상기 입력 문장과 관련된 문장 특징 벡터와 코사인 유사도가 가장 높은 하나의 동영상 후보 영역을 검색 결과로 제공하는, 동영상 구간 검색 장치
|