1 |
1
컴퓨팅 장치에 의해 수행되는, 6자유도 자세 추정 방법에 있어서,제1 프레임의 제1 영상 및 제2 프레임의 제2 영상을 획득하는 단계;상기 제1 영상 및 제2 영상을 인공신경망에 입력하는 단계;상기 인공신경망의 특징 추출 네트워크를 이용하여 상기 제1 영상 및 상기 제2 영상으로부터 특징맵을 생성하는 단계;상기 6자유도에 대응하는 6개의 토큰들 및 상기 특징맵을 이용하여 결합 집합을 생성하는 단계;상기 특징맵에 포함된 패치들의 위치적 특성을 반영하는 위치 임베딩 벡터를 생성하고, 상기 위치 임베딩 벡터 및 상기 결합 집합을 이용하여 입력 벡터를 생성하는 단계;상기 인공신경망의 차원 축소 네트워크에 상기 입력 벡터를 입력하는 단계; 및상기 차원 축소 네트워크의 출력으로부터 상기 6자유도를 결정하는 단계를 포함하는 6자유도 자세 추정 방법
|
2 |
2
제1 항에 있어서,상기 특징 추출 네트워크는,상기 제1 영상의 3채널 영상 및 제2 영상의 3채널 영상을 채널방향으로 합친 6채널 영상을 이용하여 특징을 추출하는 6자유도 자세 추정 방법
|
3 |
3
제1 항에 있어서,상기 6개의 토큰들 및 상기 특징맵을 이용하여 결합 집합을 생성하는 단계는,상기 생성된 특징맵을 일정한 크기를 가지는 패치들의 집합으로 재구성하는 단계; 및상기 패치들의 집합과 상기 6개의 토큰들을 결합하여 상기 결합 집합을 생성하는 단계를 포함하고상기 6개의 토큰들 각각은 상기 패치들 각각과 같은 크기를 가지는 6자유도 자세 추정 방법
|
4 |
4
제3 항에 있어서,상기 결합 집합은,n+6개의 패치들을 포함하고, 상기 n은 상기 특징맵에 포함된 패치들의 개수인 6자유도 자세 추정 방법
|
5 |
5
제1 항에 있어서,상기 위치 임베딩 벡터는 상기 패치들과 동일한 크기를 가지는 벡터이며,상기 입력 벡터는,상기 결합 집합을 구성하는 원소 벡터와 위치 임베딩 벡터의 합에 기초하여 결정되는 6자유도 자세 추정 방법
|
6 |
6
제1 항에 있어서,상기 차원 축소 네트워크는,상기 입력 벡터에 대한 셀프 어텐션(self-attention) 연산을 반복 진행하여 상기 입력 벡터를 구성하는 패치들의 크기를 감소시키는 6자유도 자세 추정 방법
|
7 |
7
제1 항에 있어서,상기 6자유도를 결정하는 단계는,상기 차원 축소 네트워크에 의해 크기가 감소된 입력 벡터의 패치들 가운데 상기 6개의 토큰들에 대응하는 패치들을 추출하는 단계; 및상기 추출한 패치들을 이용하여 패치 별 평균 풀링(average pooling)을 계산하여 6자유도를 추정하는 단계를 포함하는 6자유도 자세 추정 방법
|
8 |
8
컴퓨팅 장치에 의해 수행되는, 6자유도 자세 추정을 위한 인공신경망의 학습 방법에 있어서,제1 프레임의 제1 영상 및 제2 프레임의 제2 영상을 획득하는 단계;상기 제1 영상의 제1 깊이맵 및 상기 제2 영상의 제2 깊이맵을 추정하는 단계; 상기 제1 영상 및 상기 제2 영상을 상기 인공신경망에 입력하여 6자유도 정보를 출력하는 단계;상기 6자유도 정보에 기초하여 상기 제1 프레임과 상기 제2 프레임 사이의 변환행렬을 계산하는 단계; 및상기 제1 깊이맵, 상기 제2 깊이맵 및 상기 변환행렬에 기초하여 손실함수의 출력 값을 계산하고 상기 손실함수의 출력 값에 기초하여 상기 인공신경망을 갱신하는 단계를 포함하되,상기 6자유도 정보를 출력하는 단계는,상기 제1 영상 및 제2 영상을 인공신경망에 입력하는 단계;상기 인공신경망의 특징 추출 네트워크를 이용하여 상기 제1 영상 및 상기 제2 영상으로부터 특징맵을 생성하는 단계;상기 6자유도에 대응하는 6개의 토큰들 및 상기 특징맵을 이용하여 결합 집합을 생성하는 단계;상기 특징맵에 포함된 패치들의 위치적 특성을 반영하는 위치 임베딩 벡터를 생성하고, 상기 위치 임베딩 벡터 및 상기 결합 집합을 이용하여 입력 벡터를 생성하는 단계;상기 인공신경망의 차원 축소 네트워크에 상기 입력 벡터를 입력하는 단계; 및상기 차원 축소 네트워크의 출력으로부터 상기 6자유도를 결정하는 단계를 포함하는 인공신경망 학습방법
|
9 |
9
제8 항에 있어서,상기 6개의 토큰들 및 상기 위치 임베딩 벡터는,소정의 초기 값들로 설정된 이후 상기 손실함수의 출력 값이 작아지도록 갱신되는 인공신경망 학습방법
|
10 |
10
제8 항에 있어서,상기 손실함수의 출력은 소정 조건을 만족하는 유효 픽셀에 대하여 상기 변환행렬 및 제1 깊이맵을 이용하여 제2 프레임을 재구성한 제3 프레임과 제1 프레임 간의 차이를 모두 더하는 하는 제1 보조함수의 출력에 기초하여 결정되고,상기 제1 보조함수는,상기 유효 픽셀에 대하여 상기 제1 프레임과 상기 제3 프레임 간의 구조적 유사 지수를 나타내는 항을 더 포함하고상기 제1 깊이맵을 상기 변환행렬로 재구성한 제3 깊이맵과 제2 깊이맵이 제1 깊이맵과 같은 픽셀 그리드에 위치하도록 재구성한 제4 깊이맵에 대하여 제3 깊이맵과 제4 깊이맵의 차이를 제3 깊이맵과 제4 깊이맵의 합으로 나눈 정규화 함수를 곱하여 계산하는 함수이고,상기 구조적 유사 지수는 픽셀 간의 휘도, 대비, 구조에 대한 비교를 기반으로 하고,상기 소정 조건은 상기 제1 프레임과 제3 프레임에서의 차이가 제1 프레임과 제2 프레임에서의 차이보다 적은 픽셀인 인공신경망 학습방법
|
11 |
11
제10 항에 있어서,상기 손실함수의 출력은 공간상 모든 픽셀에 대하여 상기 제1 프레임의 공간상 기울기 성분과 제1 깊이맵의 기울기 성분의 곱을 모두 더하는 제2 보조함수의 출력을 더 고려하여 결정되는 인공신경망 학습방법
|
12 |
12
제11 항에 있어서,상기 손실함수의 출력은 상기 정규화 함수를 상기 유효 픽셀에 대하여 모두 더하는 제3 보조함수의 출력을 더 고려하여 결정되는 인공신경망 학습방법
|
13 |
13
제8 항에 있어서,상기 6자유도에 대응하는 6개의 토큰들 및 상기 특징맵을 이용하여 결합 집합을 생성하는 단계는,상기 생성된 특징맵을 겹치지 않는 일정한 크기의 패치들로 나누는 단계;상기 패치들로 이루어진 패치 집합을 생성하는 단계;상기 패치들과 같은 크기를 갖고 상기 6자유도에 대응되는 6개의 토큰들을 생성하는 단계; 및상기 패치 집합과 상기 6개의 토큰들을 결합하여 상기 결합 집합을 생성하는 단계를 포함하고상기 결합 집합은,n+6개의 패치들을 포함하고, 상기 n은 상기 특징맵에 포함된 패치들의 개수인 인공신경망 학습방법
|
14 |
14
제8 항에 있어서,상기 6자유도를 결정하는 단계는,상기 차원 축소 네트워크에 의해 크기가 감소된 입력 벡터의 패치들 가운데 상기 6개의 토큰들에 대응하는 패치들을 추출하는 단계; 및추출한 패치들을 이용하여 패치 별 평균 풀링을 계산하여 6자유도를 추정하는 단계를 포함하는 인공신경망 학습방법
|
15 |
15
컴퓨팅 장치에 있어서,프로세서를 포함하며, 상기 프로세서는 제1 프레임의 제1 영상 및 제2 프레임의 제2 영상을 획득하는 단계; 상기 제1 영상 및 제2 영상을 인공신경망에 입력하는 단계; 상기 인공신경망의 특징 추출 네트워크를 이용하여 상기 제1 영상 및 상기 제2 영상으로부터 특징맵을 생성하는 단계; 상기 6자유도에 대응하는 6개의 토큰들 및 상기 특징맵을 이용하여 결합 집합을 생성하는 단계; 상기 특징맵에 포함된 패치들의 위치적 특성을 반영하는 위치 임베딩 벡터를 생성하고, 상기 위치 임베딩 벡터 및 상기 결합 집합을 이용하여 입력 벡터를 생성하는 단계; 상기 인공신경망의 차원 축소 네트워크에 상기 입력 벡터를 입력하는 단계; 및 상기 차원 축소 네트워크의 출력으로부터 상기 6자유도를 결정하는 단계를 수행하는 컴퓨팅 장치
|
16 |
16
컴퓨팅 장치에 있어서,프로세서를 포함하며, 상기 프로세서는 제1 프레임의 제1 영상 및 제2 프레임의 제2 영상을 획득하는 단계; 상기 제1 영상의 제1 깊이맵 및 상기 제2 영상의 제2 깊이맵을 추정하는 단계; 상기 제1 영상 및 상기 제2 영상을 상기 인공신경망에 입력하여 6자유도 정보를 출력하는 단계; 상기 6자유도 정보에 기초하여 상기 제1 프레임과 상기 제2 프레임 사이의 변환행렬을 계산하는 단계; 및 상기 제1 깊이맵, 상기 제2 깊이맵 및 상기 변환행렬에 기초하여 손실함수의 출력 값을 계산하고 상기 손실함수의 출력 값에 기초하여 상기 인공신경망을 갱신하는 단계를 수행하되,상기 6자유도 정보를 출력하는 단계는,상기 제1 영상 및 제2 영상을 인공신경망에 입력하는 단계;상기 인공신경망의 특징 추출 네트워크를 이용하여 상기 제1 영상 및 상기 제2 영상으로부터 특징맵을 생성하는 단계;상기 6자유도에 대응하는 6개의 토큰들 및 상기 특징맵을 이용하여 결합 집합을 생성하는 단계;상기 특징맵에 포함된 패치들의 위치적 특성을 반영하는 위치 임베딩 벡터를 생성하고, 상기 위치 임베딩 벡터 및 상기 결합 집합을 이용하여 입력 벡터를 생성하는 단계;상기 인공신경망의 차원 축소 네트워크에 상기 입력 벡터를 입력하는 단계; 및상기 차원 축소 네트워크의 출력으로부터 상기 6자유도를 결정하는 단계를 포함하는 컴퓨팅 장치
|