1 |
1
텍스트-비디오(Text-to-video) 생성 장치에 의해 수행되는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법에 있어서,비디오 생성을 위한 텍스트에 대한 캡션 임베딩, 이전 프레임의 비디오 특징 및 노이즈를 제1 LSTM(long-short term memory) 네트워크인 제1 시계열 신경망에 입력시켜 순차적인 특징을 추출하는 단계; 상기 추출된 순차적인 특징으로부터 다음 프레임을 생성하여 실제와 같은 비디오(Real-like video)를 생성하는 단계; 기저장된 실제 비디오 또는 상기 생성된 비디오 중에서 어느 하나의 비디오를 샘플링하는 단계; 및제2 LSTM 네트워크인 제2 시계열 신경망을 이용하여 상기 샘플링된 비디오가 상기 생성된 비디오로부터 샘플링된 비디오인지 또는 상기 실제 비디오로부터 샘플링된 비디오인지를 판별하는 단계를 포함하고, 상기 생성된 다음 프레임은 상기 다음 프레임 이후의 프레임을 생성하기 위한 제1 시계열 신경망에 다시 입력되고,상기 비디오를 생성하는 단계는, 상기 다시 입력된 다음 프레임으로부터 새롭게 추출된 순차적인 특징을 이용하여, 상기 다음 프레임 이후의 적어도 하나의 프레임들을 순차적으로 생성하여 상기 실제와 같은 비디오를 생성하는, 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법
|
2 |
2
제1항에 있어서,캡션 처리를 통해 캡션을 원-핫 벡터(one-hot vector)로 변환하고, 상기 변환된 원-핫 벡터와 상기 제1 시계열 신경망을 이용하여 상기 캡션 임베딩을 생성하는 단계를 더 포함하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법
|
3 |
3
제1항에 있어서,비디오 프레임 처리를 통해 상기 이전 프레임을 제1 컨벌루션 신경망에 입력시켜 상기 이전 프레임의 비디오 특징을 추출하는 단계를 더 포함하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법
|
4 |
4
제1항에 있어서,랜덤 분포(random distribution)로부터 상기 노이즈를 샘플링하는 단계를 더 포함하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법
|
5 |
5
삭제
|
6 |
6
제1항에 있어서,상기 실제와 같은 비디오를 생성하는 단계는, 상기 추출된 순차적인 특징을 디컨벌루션(deconvolutional) 신경망에 입력시켜 상기 비디오의 다음 프레임을 생성하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법
|
7 |
7
삭제
|
8 |
8
제1항에 있어서,상기 판별하는 단계는, 상기 샘플링된 비디오를 제2 컨벌루션 신경망에 입력시켜 상기 샘플링된 비디오 특징을 추출하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법
|
9 |
9
삭제
|
10 |
10
제1항에 있어서,상기 판별하는 단계는, 상기 생성된 비디오 및 상기 실제 비디오로부터 샘플링된 비디오를 비교하여 상기 생성된 비디오가 상기 실제 비디오로부터 샘플링된 비디오와 동일한지를 판단하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법
|
11 |
11
비디오 생성을 위한 텍스트에 대한 캡션 임베딩, 이전 프레임의 비디오 특징 및 노이즈를 제1 LSTM(long-short term memory) 네트워크인 제1 시계열 신경망에 입력시켜 순차적인 특징을 추출하고, 상기 추출된 순차적인 특징으로부터 다음 프레임을 생성하여 실제와 같은 비디오(Real-like video)를 생성하는 생성기; 및기저장된 실제 비디오 또는 상기 생성된 비디오 중에서 어느 하나의 비디오를 샘플링하고, 제2 LSTM 네트워크인 제2 시계열 신경망을 이용하여 상기 샘플링된 비디오가 상기 생성된 비디오로부터 샘플링된 비디오인지 또는 상기 실제 비디오로부터 샘플링된 비디오인지를 판별하는 판별기를 포함하고, 상기 생성된 다음 프레임은 상기 다음 프레임 이후의 프레임을 생성하기 위한 제1 시계열 신경망에 다시 입력되고,상기 생성기는, 상기 다시 입력된 다음 프레임으로부터 새롭게 추출된 순차적인 특징을 이용하여, 상기 다음 프레임 이후의 적어도 하나의 프레임들을 순차적으로 생성하여 상기 실제와 같은 비디오를 생성하는, 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 장치
|
12 |
12
제11항에 있어서,상기 생성기는, 캡션 처리를 통해 캡션을 원-핫 벡터(one-hot vector)로 변환하고, 상기 변환된 원-핫 벡터와 상기 제1 시계열 신경망을 이용하여 상기 캡션 임베딩을 생성하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 장치
|
13 |
13
제11항에 있어서,상기 생성기는, 비디오 프레임 처리를 통해 상기 이전 프레임을 제1 컨벌루션 신경망에 입력시켜 상기 이전 프레임의 비디오 특징을 추출하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 장치
|
14 |
14
제11항에 있어서,상기 생성기는, 랜덤 분포(random distribution)로부터 상기 노이즈를 샘플링하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 장치
|
15 |
15
삭제
|
16 |
16
제11항에 있어서,상기 생성기는, 상기 추출된 순차적인 특징을 디컨벌루션(deconvolutional) 신경망에 입력시켜 상기 비디오의 다음 프레임을 생성하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 장치
|
17 |
17
삭제
|
18 |
18
제11항에 있어서,상기 판별기는, 상기 샘플링된 비디오를 제2 컨벌루션 신경망에 입력시켜 상기 샘플링된 비디오 특징을 추출하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 장치
|
19 |
19
삭제
|
20 |
20
제11항에 있어서,상기 판별기는, 상기 생성된 비디오 및 상기 실제 비디오로부터 샘플링된 비디오를 비교하여 상기 생성된 비디오가 상기 실제 비디오로부터 샘플링된 비디오와 동일한지를 판단하는 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 장치
|
21 |
21
시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법을 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 있어서, 캡션 임베딩, 이전 프레임의 비디오 특징 및 노이즈가 연결된 데이터를 제1 LSTM(long-short term memory) 네트워크인 제1 시계열 신경망에 입력시켜 순차적인 특징을 추출하는 단계; 상기 추출된 순차적인 특징으로부터 다음 프레임을 생성하여 실제와 같은 비디오를 생성하는 단계; 기저장된 실제 비디오 또는 상기 생성된 비디오 중에서 어느 하나의 비디오를 샘플링하는 단계; 및 제2 LSTM 네트워크인 제2 시계열 신경망을 이용하여 상기 샘플링된 비디오가 상기 생성된 비디오로부터 샘플링된 비디오인지 또는 상기 실제 비디오로부터 샘플링된 비디오인지를 판별하는 단계를 포함하고, 상기 생성된 다음 프레임은 상기 다음 프레임 이후의 프레임을 생성하기 위한 제1 시계열 신경망에 다시 입력되고,상기 비디오를 생성하는 단계는, 상기 다시 입력된 다음 프레임으로부터 새롭게 추출된 순차적인 특징을 이용하여, 상기 다음 프레임 이후의 적어도 하나의 프레임들을 순차적으로 생성하여 상기 실제와 같은 비디오를 생성하도록 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
|