1 |
1
컴퓨터 장치에 의해 수행되는 벽면 부착을 위한 틸팅 드론의 강화학습 기반 낮은 수준의 자세 제어 방법에 있어서, 가치 네트워크(value network) 및 정책 네트워크(policy network)에서 현재 드론의 상태를 나타내는 상태 벡터를 입력 받는 단계; 상기 가치 네트워크에서 입력 받은 상기 상태 벡터를 이용하여 현재 상태의 가치 추정치를 추정하는 단계; 및 상기 정책 네트워크에서 입력 받은 상기 상태 벡터 및 상기 가치 추정치를 이용하여 현재 상태에 대응되는 최적의 행동을 선택하는 단계를 포함하는, 자세 제어 방법
|
2 |
2
제1항에 있어서,시뮬레이션에서의 보상과 상기 가치 추정치의 에러를 사용하여 상기 가치 네트워크를 학습하는 단계를 더 포함하는, 자세 제어 방법
|
3 |
3
제1항에 있어서,시뮬레이션에서의 보상, 상기 가치 추정치 및 상기 정책 네트워크의 결과인 로터의 추력(thrust)을 사용하여 상기 정책 네트워크를 학습하는 단계를 더 포함하는, 자세 제어 방법
|
4 |
4
제1항에 있어서,틸팅 멀티로터(tilting multirotor)에 강화학습을 적용하는 것을 특징으로 하는, 자세 제어 방법
|
5 |
5
제1항에 있어서,시뮬레이션을 통해 비행을 학습한 후, 전이 학습을 통해 시뮬레이션 및 현실 간극을 극복하는 단계를 더 포함하는, 자세 제어 방법
|
6 |
6
제5항에 있어서,상기 전이 학습을 통해 시뮬레이션 및 현실 간극을 극복하는 단계는, 실제 비행 데이터를 사용하여 시뮬레이션에서 학습된 상기 가치 네트워크 및 상기 정책 네트워크를 추가 학습하는 것을 특징으로 하는, 자세 제어 방법
|
7 |
7
제5항에 있어서,상기 전이 학습 후, 상기 정책 네트워크를 실제 드론의 제어기에 삽입하여 비행을 진행하는 단계를 더 포함하는, 자세 제어 방법
|
8 |
8
제2항 또는 제3항에 있어서,상기 시뮬레이션에서의 보상은, 원하는 틸팅 각도를 사용하며, 학습 과정에서 현재 틸팅 각도에 대한 최적의 자세를 학습하는 것을 특징으로 하는, 자세 제어 방법
|
9 |
9
벽면 부착을 위한 틸팅 드론의 강화학습 기반 낮은 수준의 자세 제어 장치에 있어서, 현재 드론의 상태를 나타내는 상태 벡터를 입력 받아 현재 상태의 가치 추정치를 추정하는 가치 네트워크(value network); 및 상기 상태 벡터 및 상기 가치 추정치를 이용하여 현재 상태에 대응되는 최적의 행동을 선택하는 정책 네트워크(policy network)를 포함하는, 자세 제어 장치
|
10 |
10
제9항에 있어서, 상기 가치 네트워크는, 시뮬레이션에서의 보상과 상기 가치 추정치의 에러를 사용하여 학습하는 것을 특징으로 하는, 자세 제어 장치
|
11 |
11
제9항에 있어서,상기 정책 네트워크는, 시뮬레이션에서의 보상, 상기 가치 추정치 및 상기 정책 네트워크의 결과인 로터의 추력(thrust)을 사용하여 학습하는 것을 특징으로 하는, 자세 제어 장치
|
12 |
12
제9항에 있어서,틸팅 멀티로터(tilting multirotor)에 강화학습을 적용하는 것을 특징으로 하는, 자세 제어 장치
|
13 |
13
제9항에 있어서,시뮬레이션을 통해 비행을 학습한 후, 전이 학습을 통해 시뮬레이션 및 현실 간극을 극복하는 전이 학습부를 더 포함하는, 자세 제어 장치
|
14 |
14
제13항에 있어서,상기 전이 학습부는, 실제 비행 데이터를 사용하여 시뮬레이션에서 학습된 상기 가치 네트워크 및 상기 정책 네트워크를 추가 학습하는 것을 특징으로 하는, 자세 제어 장치
|
15 |
15
제13항에 있어서,상기 전이 학습 후, 상기 정책 네트워크를 실제 드론의 제어기에 삽입하여 비행을 진행하는 것을 특징으로 하는, 자세 제어 장치
|