1 |
1
비디오 카메라 또는 동영상 파일에서 주어지는 영상 프레임들(100, 200a-200n)로 구성된 입력 영상의 현재 영상 프레임(100)에서 대상 물체의 위치 예측시 참고 가능한 최대 N개의 과거 영상 프레임(200a-200n)에 대한 시간 상관관계를 분석하여 대상 물체의 위치를 예측하도록 구성되는 물체 추적부를 포함하는 비디오 영상에서의 물체 추적시스템에 있어서,상기 물체 추적부는,입력 영상의 현재 영상 프레임(100)과 최근 M(M≤N)개의 과거 영상 프레임들(200a-200n)을 입력받아 영상의 특징들을 추출하고 현재 영상 프레임(100)과 연속된 과거 영상 프레임들(200a-200n)의 배경 특성들(배경의 밝기, 광원 위치, 색깔 분포, 추적 물체와의 구분 정도 변화)을 분석하여 현재 영상 프레임(100)과 일관된 배경특성을 가지는(현재 영상 프레임과의 시간적 상관관계가 높은), 시간적으로 연속인 최근 M(M≤N)개의 과거 영상 프레임들(200a-200n)의 개수를 예측하고, 다수 개의 제2인공신경망들(400a-400n) 중에서 해당 필요개수의 과거 영상 프레임들을 사용하는 어느 하나의 제2인공신경망 선택정보를 출력하는 제1인공신경망(300); 및입력 영상의 현재 영상 프레임(100)과 서로 다른 개수의 과거 영상 프레임들(200a-200n)을 각각 입력받고 현재 영상 프레임(100)과 연속된 과거 영상 프레임들(200a-200n)의 시간 상관관계를 이용하여 물체 형태와 움직임을 학습하고 현재 영상 프레임(100)에서 대상 물체의 위치를 각각 예측하여, 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 경계상자의 좌표정보로 출력하는 다수 개의 제2인공신경망들(400a-400n);을 포함하여,현재 영상 프레임과 과거 영상 프레임들의 시간 상관관계에 따라 물체의 위치 예측에 사용되는 과거 영상 프레임들의 개수가 가변되도록 한 것을 특징으로 하는 비디오 영상에서의 물체 추적시스템
|
2 |
2
제1항에 있어서, 상기 제1인공신경망(300)은,영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하여 영상의 특징을 추출하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석하는 제1특징추출 인공신경망(310);하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 상기 제1특징추출 인공신경망(310)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 수행하고 비선형 변환으로 계산된 변수들을 최종출력 인공신경망(330)의 입력으로 제공하여 최종출력 인공신경망(330)에서 다수의 제2인공신경망들(400a-400n) 중에서 현재 영상 프레임(100)과의 시간 상관관계가 높고 시간적으로 연속인 과거 영상 프레임들을 사용하는 하나의 제2인공신경망을 예측하는 자료로 사용할 수 있게 하는 제1완전연결 인공신경망(320); 및상기 제1완전연결 인공신경망(320)을 구성하는 완전연결 계층들의 개수와 같게 구성되며, 상기 제1완전연결 인공신경망(320)에서 분류된 각 계층별 정보를 1차원 벡터값으로 변환하여, 다수의 제2인공신경망들(400a-400n) 중에서 선택할 하나의 제2인공신경망에 대한 정보를 출력하는 최종출력 인공신경망(330);을 포함하여 구성되는 것을 특징으로 하는 비디오 영상에서의 물체 추적시스템
|
3 |
3
제2항에 있어서, 상기 최종출력 인공신경망(330)은,다수의 제2인공신경망들(400a-400n) 중에서 선택할 하나의 제2인공신경망 선택 정보를 1로 표시하여 출력하는 것을 특징으로 하는 비디오 영상에서의 물체 추적시스템
|
4 |
4
제1항에 있어서, 상기 다수 개의 제2인공신경망들(400a-400n)은,영상 프레임들에 대해 3차원 합성곱(3D convolution) 연산들을 수행하는 하나 이상의 계층들로 구성되며, 입력된 영상 프레임(100,200a-200n)들로부터 3차원 합성곱(3D convolution) 연산들을 수행하여 영상의 특징들을 추출하고 현재 영상 프레임(100)에 대한 과거 영상 프레임들(200a-200n)의 시간적 상관관계를 분석하는 제2특징추출 인공신경망(410);하나 이상의 완전연결 계층(fully-connected layer)들로 구성되며, 상기 제2특징추출 인공신경망(410)으로부터 얻어진 영상의 특징들의 가중치합의 비선형 변환을 수행하고 비선형 변환으로 계산된 변수들을 경계상자 출력 인공신경망(430)의 입력으로 제공하여 경계상자 출력 인공신경망(430)에서 현재 영상 프레임(100)과의 시간 상관관계가 높은 시간적으로 연속인 과거 영상 프레임들(200a-200n)로부터 물체의 위치를 예측하는 자료로 사용할 수 있게 하는 제2완전연결 인공신경망(420); 및현재 영상 프레임에서 대상 물체의 위치를 예측하기 위한 경계상자 회귀(bounding box regression) 알고리즘의 입력으로 제2완전연결 인공신경망(420)의 출력을 입력받아 제2특징추출 인공신경망(410) 및 제2완전연결 인공신경망(420)에서 예측된 대상 물체의 위치정보를 해당 대상 물체를 둘러싸는 직사각형의 위치정보로 계산하여 출력하는 경계상자 출력 인공신경망(430);을 포함하여 구성되는 것을 특징으로 하는 비디오 영상에서의 물체 추적시스템
|