1 |
1
비디오 질의 응답 학습 장치에 있어서,적어도 하나의 프로세서를 포함하고,상기 적어도 하나의 프로세서는,질의 피쳐(Question features), 상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features) 및 상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features)를 기초로 시퀀스 질의 피쳐를 생성하고,비디오에 포함된 적어도 하나의 프레임에서 추출한 어피어런스 피쳐(Appearance features) 및 어텐디드 어피어런스 피쳐(Attended Attention features)를 기초로 시퀀스 어피어런스 피쳐를 생성하고,상기 어피어런스 피쳐(Appearance features)와 관련된 모션 피쳐(Motion features) 및 어텐디드 모션 피쳐(Attended Motion features)를 기초로 시퀀스 모션 피쳐를 생성하는 비디오 질의 응답 학습 장치
|
2 |
2
제1항에 있어서,상기 적어도 하나의 프로세서는,상기 시퀀스 질의 피쳐, 상기 시퀀스 어피어런스 피쳐 및 상기 시퀀스 모션 피쳐를 기초로 적어도 하나의 응답을 생성하도록 적어도 하나의 뉴럴 네트워크를 학습시키는 비디오 질의 응답 학습 장치
|
3 |
3
제1항에 있어서,상기 적어도 하나의 프로세서는,상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features) 및 상기 어피어런스 피쳐(Appearance features)를 기초로 상기 어텐디드 어피어런스 피쳐(Attended Attention features)를 생성하는 비디오 질의 응답 학습 장치
|
4 |
4
제3항에 있어서,상기 적어도 하나의 프로세서는,상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features)와 상기 어피어런스 피쳐(Appearance features)의 유사도를 계산하고,상기 계산한 유사도를 기초로 상기 어피어런스 피쳐(Appearance features)에 어텐션(Attention)을 적용하는 비디오 질의 응답 학습 장치
|
5 |
5
제1항에 있어서,상기 적어도 하나의 프로세서는,상기 어피어런스 피쳐(Appearance features) 및 상기 비디오의 비디오 압축 정보에 포함된 모션 벡터를 기초로 상기 모션 피쳐(Motion features)를 생성하고,상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features) 및 상기 모션 피쳐(Motion features)를 기초로 상기 어텐디드 모션 피쳐(Attended Motion features)를 생성하는 비디오 질의 응답 학습 장치
|
6 |
6
제5항에 있어서,상기 적어도 하나의 프로세서는,상기 비디오에 포함된 적어도 하나의 프레임에서 추출한 어피어런스 피쳐(Appearance features)와 상기 비디오의 비디오 압축 정보에 포함된 모션 벡터를 와핑(warping)하여 상기 어피어런스 피쳐(Appearance features)를 추출한 프레임의 인접 프레임의 어피어런스 피쳐에 해당하는 예측 어피어런스 피쳐(Appearance features)를 생성하고,상기 예측 어피어런스 피쳐와 상기 어피어런스 피쳐(Appearance features)를 추출한 프레임의 인접 프레임에서 실제 추출한 인접 어피어런스 피쳐(Appearance features)의 연관성을 계산하고, 상기 계산한 연관성을 기초로 상기 어피어런스 피쳐(Appearance features)와 상기 인접 어피어런스 피쳐(Appearance features)를 결합하여 모션 피쳐를 생성하는 비디오 질의 응답 학습 장치
|
7 |
7
제5항에 있어서,상기 적어도 하나의 프로세서는,상기 어텐디드 모션 피쳐(Attended Motion features)를 생성하는 동작은,상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features)와 상기 모션 피쳐(Motion features)의 유사도를 계산하고,상기 계산한 유사도를 기초로 상기 모션 피쳐(Motion features)에 어텐션(Attention)을 적용하는 비디오 질의 응답 학습 장치
|
8 |
8
질의 피쳐(Question features), 상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features) 및 상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features)를 기초로 시퀀스 질의 피쳐를 생성하는 동작;비디오에 포함된 적어도 하나의 프레임에서 추출한 어피어런스 피쳐(Appearance features) 및 어텐디드 어피어런스 피쳐(Attended Attention features)를 기초로 시퀀스 어피어런스 피쳐를 생성하는 동작; 및상기 어피어런스 피쳐(Appearance features)와 관련된 모션 피쳐(Motion features) 및 어텐디드 모션 피쳐(Attended Motion features)를 기초로 시퀀스 모션 피쳐를 생성하는 동작을 포함하는 비디오 질의 응답 학습 방법
|
9 |
9
제8항에 있어서,상기 비디오 질의 응답 학습 방법은,상기 시퀀스 질의 피쳐, 상기 시퀀스 어피어런스 피쳐 및 상기 시퀀스 모션 피쳐를 기초로 적어도 하나의 응답을 생성하도록 적어도 하나의 뉴럴 네트워크를 학습시키는 동작을 더 포함하는 비디오 질의 응답 학습 방법
|
10 |
10
제8항에 있어서,상기 시퀀스 어피어런스 피쳐를 생성하는 동작은,상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features) 및 상기 어피어런스 피쳐(Appearance features)를 기초로 상기 어텐디드 어피어런스 피쳐(Attended Attention features)를 생성하는 동작을 포함하는 비디오 질의 응답 학습 방법
|
11 |
11
제10항에 있어서,상기 어텐디드 어피어런스 피쳐(Attended Attention features)를 생성하는 동작은,상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features)와 상기 어피어런스 피쳐(Appearance features)의 유사도를 계산하는 동작; 및상기 계산한 유사도를 기초로 상기 어피어런스 피쳐(Appearance features)에 어텐션(Attention)을 적용하는 동작을 포함하는 비디오 질의 응답 학습 방법
|
12 |
12
제8항에 있어서,상기 시퀀스 모션 피쳐를 생성하는 동작은,상기 어피어런스 피쳐(Appearance features) 및 상기 비디오의 비디오 압축 정보에 포함된 모션 벡터를 기초로 상기 모션 피쳐(Motion features)를 생성하는 동작; 및상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features) 및 상기 모션 피쳐(Motion features)를 기초로 상기 어텐디드 모션 피쳐(Attended Motion features)를 생성하는 동작을 포함하는 비디오 질의 응답 학습 방법
|
13 |
13
제12항에 있어서,상기 모션 피쳐(Motion features)를 생성하는 동작은,상기 비디오에 포함된 적어도 하나의 프레임에서 추출한 어피어런스 피쳐(Appearance features)와 상기 비디오의 비디오 압축 정보에 포함된 모션 벡터를 와핑(warping)하여 상기 어피어런스 피쳐(Appearance features)를 추출한 프레임의 인접 프레임의 어피어런스 피쳐에 해당하는 예측 어피어런스 피쳐(Appearance features)를 생성하는 동작;상기 예측 어피어런스 피쳐와 상기 어피어런스 피쳐(Appearance features)를 추출한 프레임의 인접 프레임에서 실제 추출한 인접 어피어런스 피쳐(Appearance features)의 연관성을 계산하는 동작; 및상기 계산한 연관성을 기초로 상기 어피어런스 피쳐(Appearance features)와 상기 인접 어피어런스 피쳐(Appearance features)를 결합하여 모션 피쳐를 생성하는 동작을 포함하는 비디오 질의 응답 학습 방법
|
14 |
14
제12항에 있어서,상기 어텐디드 모션 피쳐(Attended Motion features)를 생성하는 동작은,상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features)와 상기 모션 피쳐(Motion features)의 유사도를 계산하는 동작; 및상기 계산한 유사도를 기초로 상기 모션 피쳐(Motion features)에 어텐션(Attention)을 적용하는 동작을 포함하는 비디오 질의 응답 학습 방법
|
15 |
15
비디오 질의 응답 장치에 있어서,적어도 하나의 프로세서를 포함하고,상기 적어도 하나의 프로세서는,질의 피쳐(Question features), 상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features) 및 상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features)를 기초로 시퀀스 질의 피쳐를 생성하고,비디오에 포함된 적어도 하나의 프레임에서 추출한 어피어런스 피쳐(Appearance features) 및 어텐디드 어피어런스 피쳐(Attended Attention features)를 기초로 시퀀스 어피어런스 피쳐를 생성하고, 상기 어피어런스 피쳐(Appearance features)와 관련된 모션 피쳐(Motion features) 및 어텐디드 모션 피쳐(Attended Motion features)를 기초로 시퀀스 모션 피쳐를 생성하고,상기 시퀀스 질의 피쳐, 상기 시퀀스 어피어런스 피쳐 및 상기 시퀀스 모션 피쳐를 기초로 적어도 하나의 응답을 생성하는 비디오 질의 응답 장치
|
16 |
16
제15항에 있어서,상기 적어도 하나의 프로세서는,상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features) 및 상기 어피어런스 피쳐(Appearance features)를 기초로 상기 어텐디드 어피어런스 피쳐(Attended Attention features)를 생성하는 비디오 질의 응답 장치
|
17 |
17
제16항에 있어서,상기 적어도 하나의 프로세서는,상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features)와 상기 어피어런스 피쳐(Appearance features)의 유사도를 계산하고,상기 계산한 유사도를 기초로 상기 어피어런스 피쳐(Appearance features)에 어텐션(Attention)을 적용하는 비디오 질의 응답 장치
|
18 |
18
제15항에 있어서,상기 적어도 하나의 프로세서는,상기 어피어런스 피쳐(Appearance features) 및 상기 비디오의 비디오 압축 정보에 포함된 모션 벡터를 기초로 상기 모션 피쳐(Motion features)를 생성하고,상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features) 및 상기 모션 피쳐(Motion features)를 기초로 상기 어텐디드 모션 피쳐(Attended Motion features)를 생성하는 비디오 질의 응답 장치
|
19 |
19
제18항에 있어서,상기 적어도 하나의 프로세서는,상기 비디오에 포함된 적어도 하나의 프레임에서 추출한 어피어런스 피쳐(Appearance features)와 상기 비디오의 비디오 압축 정보에 포함된 모션 벡터를 와핑(warping)하여 상기 어피어런스 피쳐(Appearance features)를 추출한 프레임의 인접 프레임의 어피어런스 피쳐에 해당하는 예측 어피어런스 피쳐(Appearance features)를 생성하고,상기 예측 어피어런스 피쳐와 상기 어피어런스 피쳐(Appearance features)를 추출한 프레임의 인접 프레임에서 실제 추출한 인접 어피어런스 피쳐(Appearance features)의 연관성을 계산하고,상기 계산한 연관성을 기초로 상기 어피어런스 피쳐(Appearance features)와 상기 인접 어피어런스 피쳐(Appearance features)를 결합하여 모션 피쳐를 생성하는 비디오 질의 응답 장치
|
20 |
20
제18항에 있어서,상기 적어도 하나의 프로세서는,상기 어텐디드 모션 피쳐(Attended Motion features)를 생성하는 동작은,상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features)와 상기 모션 피쳐(Motion features)의 유사도를 계산하고,상기 계산한 유사도를 기초로 상기 모션 피쳐(Motion features)에 어텐션(Attention)을 적용하는 비디오 질의 응답 장치
|
21 |
21
질의 피쳐(Question features), 상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features) 및 상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features)를 기초로 시퀀스 질의 피쳐를 생성하는 동작;비디오에 포함된 적어도 하나의 프레임에서 추출한 어피어런스 피쳐(Appearance features) 및 어텐디드 어피어런스 피쳐(Attended Attention features)를 기초로 시퀀스 어피어런스 피쳐를 생성하는 동작; 상기 어피어런스 피쳐(Appearance features)와 관련된 모션 피쳐(Motion features) 및 어텐디드 모션 피쳐(Attended Motion features)를 기초로 시퀀스 모션 피쳐를 생성하는 동작; 및상기 시퀀스 질의 피쳐, 상기 시퀀스 어피어런스 피쳐 및 상기 시퀀스 모션 피쳐를 기초로 적어도 하나의 응답을 생성하는 동작을 포함하는 비디오 질의 응답 방법
|
22 |
22
제21항에 있어서,상기 시퀀스 어피어런스 피쳐를 생성하는 동작은,상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features) 및 상기 어피어런스 피쳐(Appearance features)를 기초로 상기 어텐디드 어피어런스 피쳐(Attended Attention features)를 생성하는 동작을 포함하는 비디오 질의 응답 방법
|
23 |
23
제22항에 있어서,상기 어텐디드 어피어런스 피쳐(Attended Attention features)를 생성하는 동작은,상기 질의 피쳐(Question features)에 대한 어피어런스 쿼리 어텐션 피쳐(Appearance Query Attention features)와 상기 어피어런스 피쳐(Appearance features)의 유사도를 계산하는 동작; 및상기 계산한 유사도를 기초로 상기 어피어런스 피쳐(Appearance features)에 어텐션(Attention)을 적용하는 동작을 포함하는 비디오 질의 응답 방법
|
24 |
24
제21항에 있어서,상기 시퀀스 모션 피쳐를 생성하는 동작은,상기 어피어런스 피쳐(Appearance features) 및 상기 비디오의 비디오 압축 정보에 포함된 모션 벡터를 기초로 상기 모션 피쳐(Motion features)를 생성하는 동작; 및상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features) 및 상기 모션 피쳐(Motion features)를 기초로 상기 어텐디드 모션 피쳐(Attended Motion features)를 생성하는 동작을 포함하는 비디오 질의 응답 방법
|
25 |
25
제24항에 있어서,상기 모션 피쳐(Motion features)를 생성하는 동작은,상기 비디오에 포함된 적어도 하나의 프레임에서 추출한 어피어런스 피쳐(Appearance features)와 상기 비디오의 비디오 압축 정보에 포함된 모션 벡터를 와핑(warping)하여 상기 어피어런스 피쳐(Appearance features)를 추출한 프레임의 인접 프레임의 어피어런스 피쳐에 해당하는 예측 어피어런스 피쳐(Appearance features)를 생성하는 동작;상기 예측 어피어런스 피쳐와 상기 어피어런스 피쳐(Appearance features)를 추출한 프레임의 인접 프레임에서 실제 추출한 인접 어피어런스 피쳐(Appearance features)의 연관성을 계산하는 동작; 및상기 계산한 연관성을 기초로 상기 어피어런스 피쳐(Appearance features)와 상기 인접 어피어런스 피쳐(Appearance features)를 결합하여 모션 피쳐를 생성하는 동작을 포함하는 비디오 질의 응답 방법
|
26 |
26
제24항에 있어서,상기 어텐디드 모션 피쳐(Attended Motion features)를 생성하는 동작은,상기 질의 피쳐(Question features)에 대한 모션 쿼리 어텐션 피쳐(Motion Query Attention features)와 상기 모션 피쳐(Motion features)의 유사도를 계산하는 동작; 및상기 계산한 유사도를 기초로 상기 모션 피쳐(Motion features)에 어텐션(Attention)을 적용하는 동작을 포함하는 비디오 질의 응답 방법
|