1 |
1
프레임 수준 영상특징 추출 모듈을 통해 입력 비디오에서 프레임 레벨 시각적 특징을 추출하는 단계;주의 기반 비디오 요약 네트워크 모듈을 통해 주의 가중치를 계산하고, 상기 주의 가중치를 이용하여 중요도 점수를 키프레임을 선택하기 위한 프레임 추적 확률로 나타내는 단계; 평가 모듈을 통해 상기 키프레임을 선택하기 위한 키프레임 간의 시각적 유사성 거리와 시간적 거리에 따른 시간적 일관성 보상 함수와 대표성 보상 함수를 구하고, 시간적 일관성 보상 함수와 대표성 보상 함수를 이용하여 주의 기반 비디오 요약 네트워크가 비디오 요약의 키프레임을 선택하기 위한 중요도 점수를 예측하도록 학습하는 단계; 상기 예측된 중요도 점수에 따라 해당 키프레임을 선택하여 비디오 요약을 생성하고, 생성된 비디오 요약의 품질을 평가하고, 정책 경사 알고리즘 기반 학습 모듈을 통해 상기 주의 기반 비디오 요약 네트워크에 대한 정책 경사(Policy Gradient) 학습을 수행하는 단계; 상기 선택된 키프레임의 중요도 점수를 사용하여 상기 비디오 요약 네트워크 모듈을 통해 키프레임을 선택할 확률을 제어하기 위한 정규화 및 재구성 손실을 계산하는 단계; 및 상기 계산된 정규화 및 재구성 손실에 따라 비디오 요약 생성 모듈을 통해 비디오 요약을 생성하는 단계를 포함하는 주의 기반 비디오 요약 방법
|
2 |
2
제1항에 있어서,상기 주의 기반 비디오 요약 네트워크 모듈을 통해 주의 가중치를 계산하고, 상기 주의 가중치를 이용하여 중요도 점수를 키프레임을 선택하기 위한 프레임 추적 확률로 나타내는 단계는, 인코더 네트워크, 디코더 네트워크 및 상기 인코더 네트워크와 디코더 네트워크 사이의 주의 계층에서, 확장 RNN을 통해 파라미터와 계산을 감소시키고 시간 의존성을 추출하며, 상기 인코더 네트워크는 키프레임 간의 로컬 및 글로벌 컨텍스트와 시각적 유사성을 캡처하고, 상기 주의 계층에서는 인코더 네트워크의 출력과 이전 디코더 네트워크의 은닉 상태를 모두 사용하여 주의 가중치를 계산하고, 상기 주의 가중치는 소프트맥스 함수에 의해 각 키프레임의 확률 점수로 정규화하고, 상기 주의 가중치를 사용하여 인코더 네트워크의 출력에 곱하여 컨텍스트 벡터를 구하고, 상기 디코더 네트워크의 입력을 위해 컨텍스트 벡터와 초기화된 디코더 네트워크의 이전 출력을 연결하여 상기 디코더 네트워크를 학습하여, 상기 디코더 네트워크 및 상기 상기 인코더 네트워크의 학습 결과를 이용하여 중요도 점수를 구하는 주의 기반 비디오 요약 방법
|
3 |
3
제1항에 있어서,상기 평가 모듈을 통해 키프레임을 선택하기 위한 키프레임 간의 시각적 유사성 거리와 시간적 거리에 따른 시간적 일관성 보상 함수와 대표성 보상 함수를 구하고, 시간적 일관성 보상 함수와 대표성 보상 함수를 이용하여 주의 기반 비디오 요약 네트워크가 비디오 요약의 키프레임을 선택하기 위한 중요도 점수를 예측하도록 학습하는 단계는, 상기 대표성 보상 함수를 이용하여 추출된 특징을 사용하여 선택한 키프레임과 비디오의 모든 키프레임 사이의 유사성을 계산하고, 상기 대표성 보상 함수를 통해 비디오 요약의 키프레임을 선택하기 위한 중요도 점수를 예측하도록 학습하며, 상기 시간적 일관성 보상 함수를 이용하여 대표적인 샷 레벨 키프레임을 선택하기 위해 모든 키프레임에 대하여 선택된 키프레임 중 가장 가까운 이웃을 찾는 과정을 반복하여 학습하는 주의 기반 비디오 요약 방법
|
4 |
4
제1항에 있어서,상기 예측된 중요도 점수에 따라 해당 키프레임을 선택하여 비디오 요약을 생성하고, 생성된 비디오 요약의 품질을 평가하고, 정책 경사 알고리즘 기반 학습 모듈을 통해 상기 주의 기반 비디오 요약 네트워크에 대한 정책 경사(Policy Gradient) 학습을 수행하는 단계는, 과소평가 보상(Under-appreciated Reward; UREX) 방법을 탐색하는 탐색 전략의 목적 함수를 사용하고, 목표 함수의 근사치를 위해 소프트맥스 함수를 사용하여 각 에피소드에 대한 보상의 정규화된 중요도 가중치 집합을 계산함으로써 파라미터화된 정책 경사 학습을 수행하는주의 기반 비디오 요약 방법
|
5 |
5
입력 비디오에서 프레임 레벨 시각적 특징을 추출하는 프레임 수준 영상특징 추출 모듈; 주의 기반 비디오 요약 네트워크를 통해 주의 가중치를 계산하고, 상기 주의 가중치를 이용하여 중요도 점수를 키프레임을 선택하기 위한 프레임 추적 확률로 나타내는 비디오 요약 네트워크 모듈; 상기 키프레임을 선택하기 위한 키프레임 간의 시각적 유사성 거리와 시간적 거리에 따른 시간적 일관성 보상 함수와 대표성 보상 함수를 구하고, 시간적 일관성 보상 함수와 대표성 보상 함수를 이용하여 주의 기반 비디오 요약 네트워크가 비디오 요약의 키프레임을 선택하기 위한 중요도 점수를 예측하도록 학습하는 평가 모듈; 상기 예측된 중요도 점수에 따라 해당 키프레임을 선택하여 비디오 요약을 생성하고, 생성된 비디오 요약의 품질을 평가하고, 상기 주의 기반 비디오 요약 네트워크에 대한 정책 경사(Policy Gradient) 학습을 수행하는 정책 경사 알고리즘 기반 학습 모듈 -상기 선택된 키프레임의 중요도 점수를 사용하여 상기 비디오 요약 네트워크 모듈을 통해 키프레임을 선택할 확률을 제어하기 위한 정규화 및 재구성 손실을 계산함-; 및 상기 계산된 정규화 및 재구성 손실에 따라 비디오 요약을 생성하는 비디오 요약 생성 모듈비디오 요약 생성 모듈을 포함하는 주의 기반 비디오 요약 장치
|
6 |
6
제5항에 있어서,상기 비디오 요약 네트워크 모듈은, 인코더 네트워크, 디코더 네트워크 및 상기 인코더 네트워크와 디코더 네트워크 사이의 주의 계층에서, 확장 RNN을 통해 파라미터와 계산을 감소시키고 시간 의존성을 추출하며, 상기 인코더 네트워크는 키프레임 간의 로컬 및 글로벌 컨텍스트와 시각적 유사성을 캡처하고, 상기 주의 계층에서는 인코더 네트워크의 출력과 이전 디코더 네트워크의 은닉 상태를 모두 사용하여 주의 가중치를 계산하고, 상기 주의 가중치는 소프트맥스 함수에 의해 각 키프레임의 확률 점수로 정규화하고, 상기 주의 가중치를 사용하여 인코더 네트워크의 출력에 곱하여 컨텍스트 벡터를 구하고, 상기 디코더 네트워크의 입력을 위해 컨텍스트 벡터와 초기화된 디코더 네트워크의 이전 출력을 연결하여 상기 디코더 네트워크를 학습하여, 상기 디코더 네트워크 및 상기 상기 인코더 네트워크의 학습 결과를 이용하여 중요도 점수를 구하는 주의 기반 비디오 요약 장치
|
7 |
7
제5항에 있어서,상기 평가 모듈은, 상기 대표성 보상 함수를 이용하여 추출된 특징을 사용하여 선택한 키프레임과 비디오의 모든 키프레임 사이의 유사성을 계산하고, 상기 대표성 보상 함수를 통해 비디오 요약의 키프레임을 선택하기 위한 중요도 점수를 예측하도록 학습하며, 상기 시간적 일관성 보상 함수를 이용하여 대표적인 샷 레벨 키프레임을 선택하기 위해 모든 키프레임에 대하여 선택된 키프레임 중 가장 가까운 이웃을 찾는 과정을 반복하여 학습하는 주의 기반 비디오 요약 장치
|
8 |
8
제5항에 있어서,상기 정책 경사 알고리즘 기반 학습 모듈은, 과소평가 보상(Under-appreciated Reward; UREX) 방법을 탐색하는 탐색 전략의 목적 함수를 사용하고, 목표 함수의 근사치를 위해 소프트맥스 함수를 사용하여 각 에피소드에 대한 보상의 정규화된 중요도 가중치 집합을 계산함으로써 파라미터화된 정책 경사 학습을 수행하는주의 기반 비디오 요약 장치
|