1 |
1
증강 현실(AR) 디바이스에서 포즈를 예측하는 방법에 있어서,IMU(Inertial Measurement Unit) 센서를 이용하여, 제 1 주파수의 IMU 레이트(IMU rate)로 상기 AR 디바이스의 움직임에 대응하는 IMU 값들을 획득하는 단계;VI-SLAM(Visual-Inertial Simultaneous Localization And Mapping) 모듈에서, 상기 획득된 IMU 값들 및 상기 AR 디바이스에 구비된 카메라에 의해 제 2 주파수의 프레임 레이트(frame rate)로 획득된 상기 AR 디바이스 주변의 이미지들의 입력들에 기초하여, 상기 AR 디바이스의 중간 6D (6 degrees of freedom) 포즈들을 추정하는 단계; 및프로세서에서, 딥 뉴럴 네트워크(DNN)를 이용하여 상기 획득된 IMU 값들 및 상기 중간 6D 포즈들의 입력들에 기초한 학습(learning)을 수행함으로써, 상기 AR 디바이스의 상대적 6D 포즈들(relative 6D poses)을 예측하는 포즈 예측 모델을 생성하는 단계를 포함하는,방법
|
2 |
2
제 1 항에 있어서,상기 중간 6D 포즈들은상기 획득된 IMU 값들 및 상기 제 2 주파수의 프레임 레이트로 획득된 상기 이미지들을 융합하는 SLAM 기법을 수행함으로써 추정된 상기 프레임 레이트의 제 1 타입의 포즈 데이터이거나, 또는상기 SLAM 기법을 수행함으로써 추정된 상기 프레임 레이트의 이미지 기반 포즈 데이터 및 상기 획득된 IMU 값들로부터 프리-인테그레이션(pre-integration) 방식에 의해 계산된 적분 값들에 대응하는 포즈 데이터를 포함하는 상기 IMU 레이트의 제 2 타입의 포즈 데이터인,방법
|
3 |
3
제 1 항에 있어서,상기 포즈 예측 모델은슬라이딩 방식으로 이동하는 윈도우 내 k개의(k는 자연수) IMU 값들 및 m개의(m은 자연수) 중간 6D 포즈들의 입력들에 기초한 상기 딥 뉴럴 네트워크의 상기 학습을 수행함으로써, 각 윈도우에 대응하는 상대적 6D 포즈를 출력하는,방법
|
4 |
4
제 1 항에 있어서,상기 윈도우는상기 IMU 레이트에 기초하여 슬라이딩되어 상기 딥 뉴럴 네트워크로 입력되고,상기 포즈 예측 모델은상기 IMU 레이트로 상기 각 윈도우에 대응하는 상기 상대적 6D 포즈를 출력하는,방법
|
5 |
5
제 1 항에 있어서,상기 VI-SLAM 모듈에 의해 중간 6D 포즈에 대한 상기 추정이 완료될 때마다, 상기 추정된 중간 6D 포즈를 이미지가 촬영된 실제 시점에서의 그라운드 트루스(ground truth, GT) 포즈로 갱신하여 설정하는 단계를 더 포함하는,방법
|
6 |
6
제 5 항에 있어서,상기 포즈 예측 모델은상기 GT 포즈의 갱신에 기초하여 자가 지도(self-supervised) 방식으로 상기 딥 뉴럴 네트워크의 상기 학습을 수행하는,방법
|
7 |
7
제 1 항에 있어서,상기 포즈 예측 모델은상기 IMU 레이트의 IMU 입력들 및 상기 프레임 레이트의 중간 6D 포즈 입력들을 포함하는 멀티-레이트(multi-rate) 입력들로 상기 딥 뉴럴 네트워크의 상기 학습을 수행하고,상기 제 1 주파수는 상기 제 2 주파수보다 큰 것인,방법
|
8 |
8
제 1 항에 있어서,상기 딥 뉴럴 네트워크는LSTM (Long Short Term Memory) 또는 GRU (Gated Recurrent Unit)를 이용한 RNN(Recurrent Neural Network)인,방법
|
9 |
9
제 8 항에 있어서,상기 딥 뉴럴 네트워크는갱신된 GT 포즈를 이용하여 손실 함수(Loss function)를 최소화함으로써 BPTT(back propagation through time)를 수행하는,방법
|
10 |
10
제 1 항에 있어서,상기 포즈 예측 모델의 상기 학습된 딥 뉴럴 네트워크에 상기 AR 디바이스의 움직임에 따른 새로 획득된 IMU 값들 및 새로 추정된 중간 6D 포즈들이 입력되는 경우, 상기 포즈 예측 모델의 상기 학습된 딥 뉴럴 네트워크에 의한 처리를 통해 실시간으로 상대적 6D 포즈들을 예측한 추론 결과를 출력하는 단계를 더 포함하는,방법
|
11 |
11
제 1 항 내지 제 10 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 비일시적인(non-transitory) 기록매체
|
12 |
12
증강 현실(AR) 디바이스에 있어서,제 1 주파수의 IMU 레이트(IMU rate)로 상기 AR 디바이스의 움직임에 대응하는 IMU 값들을 획득하는 IMU(Inertial Measurement Unit) 센서;상기 획득된 IMU 값들 및 상기 AR 디바이스에 구비된 카메라에 의해 제 2 주파수의 프레임 레이트(frame rate)로 획득된 상기 AR 디바이스 주변의 이미지들의 입력들에 기초하여, 상기 AR 디바이스의 중간 6D (6 degrees of freedom) 포즈들을 추정하는 VI-SLAM(Visual-Inertial Simultaneous Localization And Mapping) 모듈; 및딥 뉴럴 네트워크(DNN)를 이용하여 상기 획득된 IMU 값들 및 상기 중간 6D 포즈들의 입력들에 기초한 학습(learning)을 수행함으로써, 상기 AR 디바이스의 상대적 6D 포즈들(relative 6D poses)을 예측하는 포즈 예측 모델을 생성하는 프로세서를 포함하는,AR 디바이스
|
13 |
13
제 12 항에 있어서,상기 포즈 예측 모델은슬라이딩 방식으로 이동하는 윈도우 내 k개의(k는 자연수) IMU 값들 및 m개의(m은 자연수) 중간 6D 포즈들의 입력들에 기초한 상기 딥 뉴럴 네트워크의 상기 학습을 수행함으로써, 각 윈도우에 대응하는 상대적 6D 포즈를 출력하는,AR 디바이스
|
14 |
14
제 12 항에 있어서,상기 윈도우는상기 IMU 레이트에 기초하여 슬라이딩되어 상기 딥 뉴럴 네트워크로 입력되고,상기 포즈 예측 모델은상기 IMU 레이트로 상기 각 윈도우에 대응하는 상기 상대적 6D 포즈를 출력하는,AR 디바이스
|
15 |
15
제 12 항에 있어서,상기 프로세서는상기 VI-SLAM 모듈에 의해 중간 6D 포즈에 대한 상기 추정이 완료될 때마다, 상기 추정된 중간 6D 포즈를 이미지가 촬영된 실제 시점에서의 그라운드 트루스(ground truth, GT) 포즈로 갱신하여 설정하는,AR 디바이스
|
16 |
16
제 15 항에 있어서,상기 포즈 예측 모델은상기 GT 포즈의 갱신에 기초하여 자가 지도(self-supervised) 방식으로 상기 딥 뉴럴 네트워크의 상기 학습을 수행하는,AR 디바이스
|
17 |
17
제 12 항에 있어서,상기 포즈 예측 모델은상기 IMU 레이트의 IMU 입력들 및 상기 프레임 레이트의 중간 6D 포즈 입력들을 포함하는 멀티-레이트(multi-rate) 입력들로 상기 딥 뉴럴 네트워크의 상기 학습을 수행하고,상기 제 1 주파수는 상기 제 2 주파수보다 큰 것인,AR 디바이스
|
18 |
18
제 12 항에 있어서,상기 딥 뉴럴 네트워크는LSTM (Long Short Term Memory) 또는 GRU (Gated Recurrent Unit)를 이용한 RNN(Recurrent Neural Network)인,AR 디바이스
|
19 |
19
제 18 항에 있어서,상기 딥 뉴럴 네트워크는갱신된 GT 포즈를 이용하여 손실 함수(Loss function)를 최소화함으로써 BPTT(back propagation through time)를 수행하는,AR 디바이스
|
20 |
20
제 12 항에 있어서,상기 프로세서는상기 포즈 예측 모델의 상기 학습된 딥 뉴럴 네트워크에 상기 AR 디바이스의 움직임에 따른 새로 획득된 IMU 값들 및 새로 추정된 중간 6D 포즈들이 입력되는 경우, 상기 포즈 예측 모델의 상기 학습된 딥 뉴럴 네트워크에 의한 처리를 통해 실시간으로 상대적 6D 포즈들을 예측한 추론 결과를 출력하는,AR 디바이스
|
21 |
21
프로세서에서 포즈를 예측하는 방법에 있어서,IMU(Inertial Measurement Unit) 센서로부터, 제 1 주파수의 IMU 레이트(IMU rate)로 AR 디바이스의 움직임에 대응하는 IMU 값들을 획득하는 단계;VI-SLAM(Visual-Inertial Simultaneous Localization And Mapping) 모듈로부터, 상기 획득된 IMU 값들 및 상기 AR 디바이스에 구비된 카메라에 의해 제 2 주파수의 프레임 레이트(frame rate)로 획득된 주변의 이미지들의 입력들에 기초하여 추정된, 상기 AR 디바이스의 중간 6D (6 degrees of freedom) 포즈들을 획득하는 단계; 및딥 뉴럴 네트워크(DNN)를 이용하여 상기 획득된 IMU 값들 및 상기 중간 6D 포즈들의 입력들에 기초한 학습(learning)을 수행함으로써, 상기 AR 디바이스의 상대적 6D 포즈들(relative 6D poses)을 예측하는 포즈 예측 모델을 생성하는 단계를 포함하는,방법
|