1 |
1
모바일 로봇이 수행할 작업과 작업 환경을 포함하는 DQN 인공지능의 파라미터를 입력 받는 단계; 입력된 작업 환경에 대해서 복수의 구역별로 노드를 할당하여 그래프로 표시하고, 상기 작업에 대한 환경 상태와 관측 가능 상태를 정의하고, 상기 작업에 대한 목표와 상기 목표에 따른 보상 함수를 설계하여 모의환경을 설계하는 단계; 상기 모의환경에서 상기 DQN 인공지능이, 행동가치 함수 값이 최대가 되는 이동경로를 선택하도록 하여 강화학습시키는 단계; 및 학습된 DQN 인공지능을 이용하여 실제 환경 또는 시뮬레이션 환경에서 상기 모바일 로봇의 자율주행을 제어하는 단계;를 포함하는 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 방법
|
2 |
2
제1항에 있어서, 상기 강화학습 단계는, 상기 모의환경의 환경 상태, 상기 DQN 인공지능이 선택한 행동과, 선택된 행동에 따른 관측 가능 상태를 반영하여 손실 함수 값을 계산하는 단계; 상기 손실 함수 값이 최소화되는 파라미터를 계산하는 단계; 및 상기 계산된 파라미터로 상기 DQN 인공지능을 업데이트 하는 단계;를 포함하고,상기 손실 함수 값을 계산하는 단계 내지 상기 업데이트 하는 단계를 반복 수행하는 포함하는 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 방법
|
3 |
3
제2항에 있어서, 상기 DQN 인공지능은 상기 모의환경에서 복수의 노드로 표현된 그래프에서 복수의 정보를 갖는 상태를 1차원 합성곱으로 적용하는 CNN(Convolutional Neural Network)으로 구성되는 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 방법
|
4 |
4
제1항에 있어서, 상기 모의환경을 설계하는 단계는, 입력된 작업 환경의 지도를 작성하고, 상기 작업 환경을 복수의 구역으로 구분하고, 각 구역별로 노드를 할당하고, 상기 각 구역에서 다른 구역으로의 이동 가능성과 동적 장애물의 관측가능성을 표시하여, 상기 작업 환경을 그래프로 표시하는, 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 방법
|
5 |
5
제4항에 있어서, 상기 환경 상태는 상기 작업 환경 내에서 상기 모바일 로봇이 상기 작업을 수행하기 위한 정보를 포함하고, 상기 관측 가능 상태는 상기 환경 상태에서 상기 모바일 로봇이 상기 작업을 수행하는 중에 접근 가능한 상태를 포함하는, 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 방법
|
6 |
6
제1항에 있어서, 상기 모바일 로봇의 자율주행을 제어하는 단계는, 학습된 DQN 인공지능을 이용하여 상기 모의환경 내에서 작업을 수행하기 위한 이동경로를 선택하기 위한 이동경로 선택 명령을 생성하고, 상기 이동경로 선택 명령과 상기 작업 환경에 대한 인식 결과를 토대로 상기 모바일 로봇의 자율주행을 위한 제어 명령을 생성하고, 상기 제어 명령에 따라 실제 환경 또는 시뮬레이션 환경에서 상기 모바일 로봇을 운용하는, 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 방법
|
7 |
7
제6항에 있어서, 상기 모바일 로봇의 자율주행을 제어하는 단계는, 상기 모바일 로봇이 운용되는 실제 환경 또는 시뮬레이션 환경에서, 상기 모바일 로봇에 구비된 복수의 센서를 통해 측정된 센서 측정값을 입력 받아서 상기 모바일 로봇의 현재 위치와 자세를 추정하는, 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 방법
|
8 |
8
다종 작업을 수행하는 모바일 로봇의 자율주행을 제어하는 이동경로 선택 시스템에 있어서, 모바일 로봇이 수행할 작업 및 작업 환경을 포함하는 DQN 인공지능의 파라미터를 입력 받는 입력부; 상기 DQN 인공지능의 강화학습을 위한 모의환경을 설계하고, 설계된 모의환경에서 상기 DQN 인공지능을 강화학습시키는 학습부; 및 학습된 DQN 인공지능을 이용하여 실제 환경 또는 시뮬레이션 환경에서 모바일 로봇의 자율주행을 제어하는 주행제어부;를 포함하는 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 시스템
|
9 |
9
제8항에 있어서, 상기 학습부는, 상기 DQN 인공지능이 행동가치 함수 값을 최대화하는 이동경로를 취함으로써 행동을 선택하고, 상기 DQN 인공지능이 선택한 행동 및 모의환경을 반영하여 손실 함수 값을 최소화하는 파라미터를 계산하고, 상기 계산된 파라미터로 상기 DQN 인공지능을 업데이트하여 상기 DQN 인공지능을 강화학습시키는, 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 시스템
|
10 |
10
제8항에 있어서, 상기 모의환경은, 입력된 작업 환경에 대해서, 복수개로 구역별로 노드를 할당하여 표시되는 그래프와, 상기 작업 환경 내에서 상기 모바일 로봇이 상기 작업을 수행하기 위한 정보를 포함하는 환경 상태 및 상기 환경 상태에서 상기 모바일 로봇이 상기 작업을 수행하는 중에 접근 가능한 상태를 포함하는 관측 가능 상태와, 상기 작업에 알맞은 목표 및 상기 목표에 따른 보상 조건으로 설정되는 보상함수를 포함하는, 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 시스템
|
11 |
11
제10항에 있어서, 상기 그래프는, 각 구역에서 다른 구역으로의 이동가능성 및 동적 장애물의 관측가능성을 표시하는 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 시스템
|
12 |
12
제8항에 있어서, 상기 주행제어부는, 학습된 DQN 인공지능을 이용하여 상기 모의환경 내에서 작업을 수행하기 위한 이동경로를 선택하기 위한 이동경로 선택 명령을 생성하는 이동경로 선택부; 상기 이동경로 선택 명령과 상기 작업 환경에 대한 인식 결과를 토대로 상기 모바일 로봇의 자율주행을 위한 제어 명령을 생성하는 자율주행부; 상기 제어 명령에 따라 실제 환경에서 상기 모바일 로봇을 운용하는 로봇구동부; 및 상기 제어 명령에 따라 시뮬레이션 환경에서 상기 모바일 로봇을 운용하는 시뮬레이션부;를 포함하는 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 시스템
|
13 |
13
제12항에 있어서, 상기 자율주행부는, 상기 모바일 로봇의 현재 위치에서 선택된 구역까지의 전역 경로를 설계하고, 상기 전역 경로를 따라가기 위한 지역 궤적을 생성하여 상기 제어 명령을 생성하는 제어 모듈, 및상기 작업 환경 내에서 현재 위치에서의 모바일 로봇의 위치와 자세를 추정하고, 장애물 지도를 작성하고, 표적을 탐지하는 환경 인식 모듈을 포함하는, 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 시스템
|
14 |
14
제13항에 있어서, 상기 환경 인식 모듈은, 상기 로봇구동부 및 상기 시뮬레이션부로부터 상기 모바일 로봇에 구비된 복수의 센서를 통해 측정된 센서 측정값을 입력 받는, 다종 작업을 수행하는 모바일 로봇의 강화학습 기반 이동경로 선택 시스템
|
15 |
15
입력된 작업 및 작업 환경에 대한 모의환경을 설계하고, 상기 모의환경에서 행동가치 함수 값을 최대화는 이동경로를 선택하여 DQN 인공지능을 강화학습시키고, 학습된 DQN 인공지능을 기반으로 하여 운용되는 다종 작업을 수행하는 모바일 로봇
|