1 |
1
미리 학습된 제1 패턴 추정 방식에 따라 비디오의 다수 프레임 각각에서 기지정된 객체가 포함된 영역인 경계 박스를 탐색하고, 다수의 프레임에서 대응하는 경계 박스를 연결하여 객체 튜블릿을 생성하는 객체 튜블릿 획득부; 액션 레이블이 주석된 액션 학습용 비디오를 이용하는 약지도 학습 방식으로 제2 패턴 추정 방식이 미리 학습되어, 상기 객체 튜블릿의 다수의 경계 박스의 크기를 조절하여 튜블릿을 획득하는 튜블릿 조절부; 상기 튜블릿의 크기가 조절된 다수의 경계 박스를 시간 평균 풀링하여 튜블릿 이미지로 변환하고, 미리 학습된 제3 패턴 추정 방식에 따라 상기 튜블릿 이미지의 특징을 추출하여 특징맵을 생성하는 특징맵 획득부; 상기 특징맵에서 액션 가중치를 획득하여 대응하는 특징맵에 가중하여 가중 특징맵을 획득하는 액션 가중치 획득부; 및 상기 가중 특징맵이 기지정된 다수의 액션 클래스 각각에 대응하는 수준을 나타내는 액션 클래스 스코어를 계산하고, 상기 액션 클래스 스코어에 따라 튜블릿에 대응하는 액션을 선택하고, 상기 튜블릿에 포함된 상기 크기가 조절된 경계 박스의 위치 정보를 출력하는 액션 인식 및 영역 판별부; 를 포함하는 비디오 액션 인식 및 액션 영역 탐지 장치
|
2 |
2
제1항에 있어서, 상기 튜블릿 조절부는 상기 제2 패턴 추정 방식에 따라 객체 튜블릿의 다수의 경계 박스(Btn) 각각의 폭(utn)에 대한 조절 폭(∇utn)과 높이(vtn)에 대한 조절 높이(∇vtn)를 획득하고, 획득된 조절 폭(∇utn)과 조절 높이(∇vtn)로부터 수학식에 따라 상기 크기가 조절된 경계 박스()를 획득하는 비디오 액션 인식 및 액션 영역 탐지 장치
|
3 |
3
제1항에 있어서, 상기 액션 인식 및 영역 판별부는 인공 신경망을 포함하여 구성되고 비디오에 포함된 N(N은 자연수)개 튜블릿 중 n번째 튜블릿(Pn)에 대한 상기 액션 클래스 스코어(λn(c))를 수학식 (여기서 αn은 의 액션 가중치이고, yn 은 특징맵이며, wT(c, d)는 지정된 액션 클래스(c ∈ {1,
|
4 |
4
제1항에 있어서, 상기 액션 인식 및 영역 판별부는 상기 액션 클래스 스코어 중 기지정된 기준 액션 클래스 스코어 이상인 액션 클래스 스코어를 선택하고, 선택된 액션 클래스 스코어에 대응하는 액션 클래스를 객체의 액션으로 출력하고, 선택된 액션 클래스 스코어에 대응하는 튜블릿의 크기가 조절된 경계 박스의 위치 정보를 출력하는 비디오 액션 인식 및 액션 영역 탐지 장치
|
5 |
5
제4항에 있어서, 상기 액션 인식 및 영역 판별부는 동일한 튜블릿에 대해 기준 액션 클래스 스코어 이상인 액션 클래스 스코어가 다수개인 경우, 기지정된 설정에 따라 액션 클래스 스코어가 가장 높은 하나의 액션 클래스를 출력하거나, 기준 액션 클래스 스코어 이상으로 나타난 다수의 액션 클래스를 함께 출력하는 비디오 액션 인식 및 액션 영역 탐지 장치
|
6 |
6
제1항에 있어서, 상기 비디오 액션 인식 및 액션 영역 탐지 장치는 액션 레이블만이 주석된 액션 학습용 비디오를 기반으로 상기 튜블릿 조절부, 상기 특징맵 획득부, 상기 액션 가중치 획득부 및 액션 인식 및 영역 판별부를 약지도 학습시키기 위한 학습부; 를 더 포함하고, 상기 학습부는 상기 액션 학습용 비디오에 응답하여, 액션 가중치 획득부(150)에서 모든 액션 튜블릿(Pn)에 대해 출력되는 가중 특징맵을 가산하여 비디오 특징맵을 획득하고, 비디오 특징맵으로부터 비디오 액션 클래스 스코어를 획득하며, 비디오 액션 클래스 스코어와 액션 학습용 비디오의 액션 레이블과의 차이를 액션 손실로 획득하여 역전파하여 약지도 학습을 수행하는 비디오 액션 인식 및 액션 영역 탐지 장치
|
7 |
7
제6항에 있어서, 상기 객체 튜블릿 획득부는 상기 제1 패턴 추정 방식에 따라 비디오의 다수 프레임 각각에서 기지정된 객체가 포함된 영역인 경계 박스를 탐색하고, 각 경계 박스에 검출해야 하는 객체가 존재할 확률을 나타내는 객체 스코어를 함께 획득하고, 획득된 객체 스코어가 기지정된 기준 객체 스코어 이상인 경계 박스를 이용하여 객체 튜블릿을 생성하고, 상기 학습부는 객체 레이블만이 주석된 객체 학습용 비디오가 인가되어 상기 객체 튜블릿 획득부에서 획득된 상기 객체 스코어와 객체 학습용 비디오에 주석된 객체 레이블 사이의 차이를 객체 손실로 획득하여 역전파함으로써, 상기 객체 튜블릿 획득부를 약지도 학습시키는 비디오 액션 인식 및 액션 영역 탐지 장치
|
8 |
8
미리 학습된 제1 패턴 추정 방식에 따라 비디오의 다수 프레임 각각에서 기지정된 객체가 포함된 영역인 경계 박스를 탐색하고, 다수의 프레임에서 대응하는 경계 박스를 연결하여 객체 튜블릿을 생성하는 단계; 액션 레이블이 주석된 액션 학습용 비디오를 이용하는 약지도 학습 방식으로 학습된 제2 패턴 추정 방식에 따라 상기 객체 튜블릿의 다수의 경계 박스의 크기를 조절하여 튜블릿을 획득하는 단계; 상기 튜블릿의 크기가 조절된 경계 박스를 시간 평균 풀링하여 튜블릿 이미지로 변환하고, 미리 학습된 제3 패턴 추정 방식에 따라 상기 튜블릿 이미지의 특징을 추출하여 특징맵을 생성하는 단계; 상기 특징맵에서 액션 가중치를 획득하여 대응하는 특징맵에 가중하여 가중 특징맵을 획득하는 단계; 및 상기 가중 특징맵이 기지정된 다수의 액션 클래스 각각에 대응하는 수준을 나타내는 액션 클래스 스코어를 계산하고, 상기 액션 클래스 스코어에 따라 튜블릿에 대응하는 액션을 선택하고, 상기 튜블릿에 포함된 상기 크기가 조절된 경계 박스의 위치 정보를 출력하는 단계; 를 포함하는 비디오 액션 인식 및 액션 영역 탐지 방법
|
9 |
9
제8항에 있어서, 상기 위치 정보를 출력하는 단계는 인공 신경망을 포함하여 구성되고 비디오에 포함된 N(N은 자연수)개 튜블릿 중 n번째 튜블릿(Pn)에 대한 상기 액션 클래스 스코어(λn(c))를 수학식 (여기서 αn은 의 액션 가중치이고, yn 은 특징맵이며, wT(c, d)는 지정된 액션 클래스(c ∈ {1,
|
10 |
10
제8항에 있어서, 상기 위치 정보를 출력하는 단계는 상기 액션 클래스 스코어 중 기지정된 기준 액션 클래스 스코어 이상인 액션 클래스 스코어를 선택하는 단계; 선택된 액션 클래스 스코어에 대응하는 액션 클래스를 객체의 액션으로 출력하는 단계; 및선택된 액션 클래스 스코어에 대응하는 튜블릿의 크기가 조절된 경계 박스의 위치 정보를 출력하는 단계; 를 포함하는 비디오 액션 인식 및 액션 영역 탐지 방법
|
11 |
11
제8항에 있어서, 상기 비디오 액션 인식 및 액션 영역 탐지 방법은 액션 레이블만이 주석된 액션 학습용 비디오를 기반으로 약지도 학습시키는 단계; 를 더 포함하고, 상기 약지도 학습시키는 단계는 상기 액션 학습용 비디오에 응답하여, 획득되는 모든 액션 튜블릿(Pn)에 대해 출력되는 가중 특징맵(αnyn)을 가산하여 비디오 특징맵(y*)을 획득하는 단계; 상기 비디오 특징맵(y*)으로부터 비디오 액션 클래스 스코어(λ(c))를 획득하는 단계; 및 비디오 액션 클래스 스코어(λ(c))와 액션 학습용 비디오의 액션 레이블과의 차이를 액션 손실로 획득하여 역전파하는 단계; 를 포함하는 비디오 액션 인식 및 액션 영역 탐지 방법
|
12 |
12
제8항에 있어서, 상기 객체 튜블릿을 생성하는 단계는 상기 제1 패턴 추정 방식에 따라 비디오의 다수 프레임 각각에서 기지정된 객체가 포함된 영역인 경계 박스를 탐색하는 단계; 각 경계 박스에 검출해야 하는 객체가 존재할 확률을 나타내는 객체 스코어를 함께 획득하는 단계: 및 획득된 객체 스코어가 기지정된 기준 객체 스코어 이상인 경계 박스를 이용하여 객체 튜블릿을 생성하는 단계; 를 포함하고, 상기 약지도 학습시키는 단계는 객체 레이블만이 주석된 객체 학습용 비디오가 인가되어 상기 객체 튜블릿 획득부에서 획득된 상기 객체 스코어와 객체 학습용 비디오에 주석된 객체 레이블 사이의 차이를 객체 손실로 획득하여 역전파함으로써, 상기 객체 튜블릿 획득부를 약지도 학습시키는 단계; 를 더 포함하는 비디오 액션 인식 및 액션 영역 탐지 방법
|