1 |
1
자율비행체의 상태 데이터를 입력 받아 경로 전진 속도(forward velocity)와 방향각 속도(heading rate) 대한 상태 값을 출력하는 풀리 커넥티드 액터 신경망 네트워크 및자율비행체의 상태 데이터를 입력 받아 자율비행체가 비행할 영역 안에서 가치함수에 대한 상태 값을 출력하는 풀리 커넥티드 크리틱 신경망 네트워크를 포함하며,상기 자율비행체가 상기 풀리 커넥티드 액터 신경망 네트워크와, 풀리 커넥티드 크리틱 신경망 네트워크에서 각기 출력된 상태 값을 이용하여 보상을 책정하며, 목표 지점(Goal-Point)에 대한 비행경로를 수정하며 최적화하는 심층강화학습을 수행하도록 구성되는 것을 특징으로 하는, 지능형 자율비행을 위한 액터-크리틱 심층강화학습 기반 목표점 추정 및 충돌회피 기법을 이용하는 자율 비행 플랫폼
|
2 |
2
제 1 항에 있어서,상기 상태 데이터는,자율비행체의 레이저 스캐닝 측정 데이터, 자율비행체의 속도 데이터, 자율비행체의 위치 데이터, 자율비행체의 목표 지점에 대한 방향각 데이터, 상기 자율비행체의 레이저 스캐닝 측정 데이터, 속도 데이터, 위치 데이터 및 방향각 데이터에 대한 변화 데이터를 포함하는, 지능형 자율비행을 위한 액터-크리틱 심층강화학습 기반 목표점 추정 및 충돌회피 기법을 이용하는 자율 비행 플랫폼
|
3 |
3
제 1 항에 있어서,model-free, on-policy, actor-critic 및 policy-gradient의 방법으로, 상기 풀리 커넥티드 크리틱 신경망 네트워크의 가중치가 반영된 목적 함수의 기울기를 기초로 최대화된 실제 가치 함수를 이용한 정책으로 최적화된 비행경로를 심층강화학습 하는 것을 특징으로 하는, 지능형 자율비행을 위한 액터-크리틱 심층강화학습 기반 목표점 추정 및 충돌회피 기법을 이용하는 자율 비행 플랫폼
|
4 |
4
제 3 항에 있어서,상기 목적 함수의 기울기는,자율비행체가 비행하는 단계 동안 자율비행체의 비행 궤적 내에서 얻은 모든 보상을 합한 보상 합계 함수와 주어진 정책을 이용하여 상기 자율비행체의 비행 궤적의 확률을 계산하고, 이를 이용해 목적 함수의 기울기를 계산하는 것을 특징으로 하는, 지능형 자율비행을 위한 액터-크리틱 심층강화학습 기반 목표점 추정 및 충돌회피 기법을 이용하는 자율 비행 플랫폼
|
5 |
5
제 4 항에 있어서,상기 비행 궤적 내에서 얻은 모든 보상은 각 비행 단계마다 할인요인이 적용된 보상인 것을 특징으로 하는, 지능형 자율비행을 위한 액터-크리틱 심층강화학습 기반 목표점 추정 및 충돌회피 기법을 이용하는 자율 비행 플랫폼
|
6 |
6
제 3 항에 있어서,상기 목적 함수의 기울기를 이용해 기대값의 기울기를 추정하며, 기대값의 기울기 중 이점 값을 n-step λ-target 일반화 이점 추정을 사용하여 추정하고, 추정된 이점은 TD- λ로 표현되며, TD- λ에 있어서, λ=0이면 one-step 이점 추정치를 얻고, λ=1이면 infinite-step 이점 추정치를 얻는 것을 특징으로 하는, 지능형 자율비행을 위한 액터-크리틱 심층강화학습 기반 목표점 추정 및 충돌회피 기법을 이용하는 자율 비행 플랫폼
|
7 |
7
제 1 항에 있어서,상기 자율비행체의 비행경로를 최적화하기 위한 보상은,자율비행체의 장애물과의 최소 거리가 1m 미만인 경우 제공되는 부정적인 보상과, 자율비행체의 장애물로부터 거리가 1m 보다 크고 자율비행체가 목표 지점을 2m 오차 범위 내에서 도달하면 제공되는 긍정적인 보상과, 자율비행체가 목표 지점에서 설정된 기준 이상으로 멀리 떨어져 있으면 제공되는 shaped reward를 합한 보상인 것을 특징으로 하는, 지능형 자율비행을 위한 액터-크리틱 심층강화학습 기반 목표점 추정 및 충돌회피 기법을 이용하는 자율 비행 플랫폼
|