1 |
1
무인운반차에 대한 현재의 관측데이터를 에이전트 강화학습모델에 입력하여 행동가치가 높은 행동을 추출하는 에이전트; 및각 상기 에이전트별로 상기 추출한 행동에 따른 개별보상을 제공하는 매니저;를 포함하며,상기 에이전트 강화학습모델에 상기 개별보상과 상기 행동가치를 이용하여 계산한 로컬손실을 적용하여 강화학습하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 시스템
|
2 |
2
청구항 1에 있어서,상기 에이전트는,상기 현재의 관측데이터와 이전에 추출한 행동을 상기 에이전트 강화학습모델에 입력하여 상기 행동가치가 높은 행동을 추출하는 행동 추출부;상기 현재의 관측데이터를 포함하는 과거의 관측데이터 및 상기 추출한 행동을 포함하는 상기 행동가치를 상기 매니저로 제공하는 행동가치 제공부; 및상기 매니저로부터 수신한 상기 개별보상에 따라 상기 행동가치를 조정하여 상기 로컬손실을 계산하는 로컬손실 계산부;를 더 포함하며,상기 로컬손실은, 상기 개별보상이 높을수록 상기 행동가치를 높게 조정함으로써 최소화되며, 상기 에이전트 강화학습모델에서 역전파되어 상기 현재의 관측데이터에 따라 상기 행동가치가 높은 행동을 추출하도록 상기 강화학습에 이용되는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 시스템
|
3 |
3
청구항 1에 있어서,상기 관측데이터는, 상기 무인운반차가 적용된 현장을 복수의 셀로 구성한 레이아웃에서, 각 상기 무인운반차를 중심으로 사전에 설정한 범위에 대한 제1 채널 이미지 및 제2 채널 이미지를 포함하여 구성되며,상기 제1 채널 이미지는, 상기 범위 내의 각 상기 셀에 대한 상기 무인운반차의 이동 가능여부를 포함하며,상기 제2 채널 이미지는, 상기 범위 내의 각 상기 셀에 대한 상기 무인운반차의 목적지까지 남은 거리정보를 포함하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 시스템
|
4 |
4
청구항 3에 있어서,상기 매니저는,각 상기 에이전트로부터 제공받은 각 행동가치와 상기 레이아웃에서 각 셀에 대한 에이전트의 현재 누적 방문횟수를 포함하는 전역 상태데이터를 매니저 강화학습모델에 입력하여 모든 에이전트의 행동에 따른 공동행동가치를 추출하는 공동행동가치 추출부; 및상기 개별보상을 모두 합산한 전역보상 및 상기 공동행동가치에 따라 전역손실을 계산하여 각 상기 에이전트로 제공하는 전역손실 계산부;를 더 포함하며,상기 에이전트는, 상기 로컬손실과 상기 전역손실을 합산하여 최종 손실을 계산하고, 상기 에이전트 강화학습모델에 상기 최종 손실을 역전파하여 상기 강화학습을 수행하는 것을 더 포함하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 시스템
|
5 |
5
청구항 1에 있어서,상기 에이전트는,사전에 부여된 식별자에 따라 순차적으로 상기 행동을 추출하며,상기 행동을 순차적으로 추출하기 위해, 상기 식별자 순으로 상기 추출한 행동에 따른 상기 무인운반차의 제어결과를 현장에 대한 레이아웃에 마스킹하여 마스킹 데이터를 생성하고, 상기 매니저를 통해 상기 마스킹 데이터를 다음 순서의 식별자를 가지는 에이전트로 순차적으로 공유하도록 함으로써 무인운반차 상호간에 충돌이 발생하지 않도록 하는 행동을 추출하도록 하는 것을 더 포함하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 시스템
|
6 |
6
청구항 1에 있어서,상기 에이전트는,상기 강화학습을 수행한 결과에 따라 상기 무인운반차에 대한 실제 관측데이터를 상기 에이전트 강화학습모델에 입력하여 행동가치가 높은 행동을 추출하여 다른 에이전트와 독립적으로 상기 무인운반차의 목적지까지 최적 경로로 제어하는 무인운반차 제어부;를 더 포함하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 시스템
|
7 |
7
무인운반차의 에이전트에서, 무인운반차에 대한 현재의 관측데이터를 에이전트 강화학습모델에 입력하여 행동가치가 높은 행동을 추출하는 단계; 및매니저에서, 각 상기 에이전트별로 상기 추출한 행동에 따른 개별보상을 제공하는 단계;를 포함하며,상기 에이전트 강화학습모델에 상기 개별보상과 상기 행동가치를 이용하여 계산한 로컬손실을 적용하여 강화학습하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 방법
|
8 |
8
청구항 1에 있어서,상기 방법은,상기 에이전트에서, 상기 현재의 관측데이터와 이전에 추출한 행동을 상기 에이전트 강화학습모델에 입력하여 상기 행동가치가 높은 행동을 추출하는 행동 추출 단계;상기 에이전트에서, 상기 현재의 관측데이터를 포함하는 과거의 관측데이터 및 상기 추출한 행동을 포함하는 상기 행동가치를 상기 매니저로 제공하는 행동가치 제공 단계; 및상기 에이전트에서, 상기 매니저로부터 수신한 상기 개별보상에 따라 상기 행동가치를 조정하여 상기 로컬손실을 계산하는 로컬손실 계산 단계;를 더 포함하며,상기 로컬손실은, 상기 개별보상이 높을수록 상기 행동가치를 높게 조정함으로써 최소화되며, 상기 에이전트 강화학습모델에서 역전파되어 상기 현재의 관측데이터에 따라 상기 행동가치가 높은 행동을 추출하도록 상기 강화학습에 이용되는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 방법
|
9 |
9
청구항 7에 있어서,상기 관측데이터는, 상기 무인운반차가 적용된 현장을 복수의 셀로 구성한 레이아웃에서, 각 상기 무인운반차를 중심으로 사전에 설정한 범위에 대한 제1 채널 이미지 및 제2 채널 이미지를 포함하여 구성되며,상기 제1 채널 이미지는, 상기 범위 내의 각 상기 셀에 대한 상기 무인운반차의 이동 가능여부를 포함하며,상기 제2 채널 이미지는, 상기 범위 내의 각 상기 셀에 대한 상기 무인운반차의 목적지까지 남은 거리정보를 포함하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 방법
|
10 |
10
청구항 9에 있어서,상기 방법은,상기 매니저에서, 각 상기 에이전트로부터 제공받은 각 행동가치와 상기 레이아웃의 각 셀에 대한 에이전트의 현재 누적 방문횟수를 포함하는 전역 상태데이터를 매니저 강화학습모델에 입력하여 모든 에이전트의 행동에 따른 공동행동가치를 추출하는 공동행동가치 추출 단계; 및상기 매니저에서, 상기 개별보상을 모두 합산한 전역보상 및 상기 공동행동가치에 따라 전역손실을 계산하여 각 상기 에이전트로 제공하는 전역손실 계산 단계;를 더 포함하며,상기 에이전트는, 상기 로컬손실과 상기 전역손실을 합산하여 최종 손실을 계산하고, 상기 에이전트 강화학습모델에 상기 최종 손실을 역전파하여 상기 강화학습을 수행하는 것을 더 포함하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 방법
|
11 |
11
청구항 7에 있어서,상기 에이전트는,사전에 부여된 식별자에 따라 순차적으로 상기 행동을 추출하며,상기 행동을 순차적으로 추출하기 위해, 상기 식별자 순으로 상기 추출한 행동에 따른 상기 무인운반차의 제어결과를 현장에 대한 레이아웃에 마스킹하여 마스킹 데이터를 생성하고, 상기 매니저를 통해 상기 마스킹 데이터를 다음 순서의 식별자를 가지는 에이전트로 순차적으로 공유하도록 함으로써 무인운반차 상호간에 충돌이 발생하지 않도록 하는 행동을 추출하도록 하는 것을 더 포함하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 방법
|
12 |
12
청구항 7에 있어서,상기 방법은,상기 에이전트에서, 상기 강화학습을 수행한 결과에 따라 상기 무인운반차에 대한 실제 관측데이터를 상기 에이전트 강화학습모델에 입력하여 행동가치가 높은 행동을 추출하여 다른 에이전트와 독립적으로 상기 무인운반차의 목적지까지 최적 경로로 제어하는 무인운반차 제어 단계;를 더 포함하는 것을 특징으로 하는 다중 에이전트 강화학습 기반 다중 무인운반차 최적 경로 제어 방법
|