1 |
1
설정된 시작점과 목표점까지 이동하는 이동체; 및상기 이동체의 이동 완료 후 상기 시작점과 목표점으로 기 정해진 그리드 환경에서의 단위 그리드 마다 상기 이동체의 상태 및 행동에 대해 Q 러닝 기반의 가치 함수의 해로 보상값과 처벌값을 도출하되, 이동체의 랜덤 이동이 불가능한 단위 그리드의 행동 방향에 도출된 보상값 및 처벌값을 공급하는 이동경로 탐색부; 및 상기 단위 그리드의 보상값 및 처벌값으로 이동경로에 대한 학습을 수행하여 최적 이동경로를 탐색하는 학습부를 포함하되,상기 이동경로 탐색부는,일방향으로의 이동체의 랜덤 이동이 불가능한 단위 그리드의 일방향에 대해 처벌값을 도출하도록 구비되는 것을 특징으로 하는 이동체의 경로 탐색 시스템
|
2 |
2
제1항에 있어서, 상기 이동경로 탐색부는,현재 단위 그리드의 주변 단위 그리드가 모든 랜덤 행동 방향에 대해 상기 이동체의 랜덤 이동이 가능한 단위 그리드인 경우 이동체의 행동 방향에 Q 러닝 기반의 가치함수의 해로 도출된 최대 Q 값의 확률로 도출된 +1의 보상값을 공급하도록 구비되는 것을 특징으로 하는 이동체의 경로 탐색 시스템
|
3 |
3
제1항에 있어서, 상기 이동경로 탐색부는, 상기 이동체의 랜덤 이동이 불가능한 일방향의 단위 그리드에 대해, Q 러닝 기반의 가치함수의 해로 도출된 1-최대 Q 값의 확률로 도출된 -1의 처벌값을 상기 단위 그리드의 일방향에 공급하도록 구비되는 것을 특징으로 하는 이동체의 경로 탐색 시스템
|
4 |
4
제1항에 있어서, 상기 이동경로 탐색부는,상기 이동경로 탐색부는,각 단위 그리드의 모든 행동 방향에 대한 보상값을 0으로 초기화하는 초기화 모듈;상기 이동체의 상태 및 행동을 토대로 현재 단위 그리드를 기준으로 주변 단위 그리드가 이동이 가능한 단위 그리드인 지를 판단하는 상태 판단모듈;상기 이동체의 랜덤 행동이 가능한 단위 그리드에 대해, 기 정해진 벨만 방정식으로 도출된 Q 기반의 가치함수의 해로 보상값을 도출하고, 도출된 보상값을 현재 단위 그리드의 이동체의 행동 방향에 제공하는 보상값 도출모듈; 상기 이동체의 랜덤 행동이 일방향에 대해 불가능한 단위 그리드에 대해, 상기 가치함수의 해로 도출된 처벌값을 상기 일방향에 공급하는 처벌값 도출모듈을 포함하는 것을 특징으로 하는 이동체의 경로 탐색 시스템
|
5 |
5
제1항에 있어서, 상기 학습부는,상기 각 단위 그리드의 상태 및 모든 행동 방향에 대한 보상값과 처벌값으로 설정된 이동경로에 대해 학습 수행하여 최적 이동경로를 추정하도록 구비되는 것을 특징으로 하는 이동체의 경로 탐색 시스템
|
6 |
6
이동체의 시작점에서 목표점까지의 행동 완료한 후 시작점과 목표점으로 기 정해진 그리드 환경에서의 단위 그리드 마다 이동체의 상태 및 행동에 대한 보상값 및 처벌값을 도출하는 이동경로 탐색부에서 수행되는 이동체의 경로 탐색 방법에 있어서,각 단위 그리드의 모든 행동 방향에 대한 보상값을 0으로 초기화하는 초기화 단계;상기 이동체의 상태 및 행동을 토대로 현재 단위 그리드의 주변 단위 그리드 각각이 모든 랜덤 행동 방향으로 이동이 가능한 단위 그리드인 지를 판단하는 상태 판단단계;상기 이동체의 랜덤 행동이 가능한 단위 그리드에 대해, 기 정해진 벨만 방정식으로 도출된 Q 러닝 기반의 가치함수의 해의 최대 Q 값 확률로 보상값을 도출하고, 도출된 보상값을 현재 단위 그리드의 행동 방향에 제공하는 보상값 도출단계; 상기 이동체의 랜덤 행동이 일방향에 대해 불가능한 단위 그리드에 대해, 1-최대 Q 값 확률로 처벌값을 도출하고 도출된 처벌값을 상기 일방향에 공급하는 처벌값 도출단계를 포함하는 것을 특징으로 하는 이동체의 경로 탐색 방법
|