1 |
1
강화학습(Reinforcement Learning)을 이용한 입고물품의 적치순서 최적화 방법에 있어서, 미리 정의된 강화학습 알고리즘을 이용하여, 에이전트(agent)와 환경(environment)의 상호작용을 통해 물품의 적치계획에 대한 학습을 행하여 상기 물품의 적치순서를 최적화 하기 위한 에이전트(agent) 모델을 구축하는 처리가 수행되는 학습단계; 및 상기 학습단계에서 구축된 상기 에이전트 모델을 상기 물품의 적치문제에 적용하여 적치계획을 수립하고, 수립된 상기 적치계획에 따라 입고되는 물품을 적치하는 처리가 수행되는 적용단계를 포함하는 처리가 전용의 하드웨어 또는 컴퓨터를 통해 실행되도록 구성되는 것을 특징으로 하는 강화학습을 이용한 입고물품의 적치순서 최적화 방법
|
2 |
2
제 1항에 있어서, 상기 학습단계는, 상기 에이전트의 행동(Action)에 따라 상기 환경으로부터 피드백되는 상태(State)와 보상(Reward)에 근거하여 상기 에이전트의 인공신경망(neural network)의 가중치를 업데이트하는 마르코프 결정과정(Markov decision process ; MDP)에 기반한 강화학습 알고리즘에 따라 학습이 이루어지는 처리가 수행되며, 상기 상태는 상기 에이전트가 행동을 결정하는 시점에서의 상기 물품의 입고현황과 적치현황으로 정의되고, 상기 행동(Action)은 입고된 상기 물품을 적치할 위치를 결정하는 것으로 정의되며, 상기 보상(Reward)은 크레인을 포함하는 상기 물품의 이송수단에 대한 사용횟수를 기준으로 정의되는 것을 특징으로 하는 강화학습을 이용한 입고물품의 적치순서 최적화 방법
|
3 |
3
제 2항에 있어서, 상기 학습단계에서, 상기 입고현황은 적치될 위치가 아직 결정되지 않은 채로 대기하고 있는 물품에 대한 정보이고, 상기 적치현황은 이미 적치장에 적치되어 있는 물품에 대한 정보로 구성되는 것을 특징으로 하는 강화학습을 이용한 입고물품의 적치순서 최적화 방법
|
4 |
4
제 3항에 있어서, 상기 학습단계에서, 상기 물품에 대한 정보는, 각각의 물품마다 계획된 작업공정 투입일 또는 반출일까지의 남은 시간 또는 일자를 의미하는 잔여기간에 대한 정보를 포함하여 구성되는 것을 특징으로 하는 강화학습을 이용한 입고물품의 적치순서 최적화 방법
|
5 |
5
제 4항에 있어서, 상기 학습단계는, 상기 에이전트에 의해 선택된 위치에 처음으로 상기 물품이 적치되는 경우 상기 보상이 미리 정해진 제 1 값으로 설정되고, 상기 에이전트에 의해 선택된 위치에 상기 물품을 적치하였을 때 상기 에이전트에 의해 선택된 위치에 적치된 물품들이 하단부터 차례대로 상기 잔여기간이 긴 순서대로 정렬되어 있지 않은 경우 상기 보상이 미리 정해진 제 2 값으로 설정되며, 상기 에이전트에 의해 선택된 위치에 상기 물품을 적치하였을 때 상기 에이전트에 의해 선택된 위치에 적치된 물품들이 하단부터 차례대로 상기 잔여기간이 긴 순서대로 정렬된 경우 상기 보상이 미리 정해진 제 3 값으로 설정되도록 하는 처리가 수행되도록 구성되는 것을 특징으로 하는 강화학습을 이용한 입고물품의 적치순서 최적화 방법
|
6 |
6
제 5항에 있어서, 상기 학습단계에서, 상기 제 1 값은 상기 제 2 값보다 작고, 상기 제 2 값은 상기 제 3 값보다 작게(제 1 값 003c# 제 2 값 003c# 제 3 값) 설정되는 것을 특징으로 하는 강화학습을 이용한 입고물품의 적치순서 최적화 방법
|
7 |
7
제 6항에 있어서, 상기 학습단계에서, 상기 제 2 값은 상기 에이전트에 의해 선택된 위치에 적치된 물품을 반출하기 위해 사용되는 크레인의 최대 사용횟수에 근거하여 결정되는 것을 특징으로 하는 강화학습을 이용한 입고물품의 적치순서 최적화 방법
|
8 |
8
제 7항에 있어서, 상기 제 2 값은, 상기 에이전트에 의해 선택된 위치에 적치되어 있는 각각의 물품에 대하여 해당 물품보다 위쪽에 적치되어 있는 물품들 중 해당 물품보다 상기 잔여기간이 긴 물품의 수를 각각 계산하고, 계산된 값들 중 최대값을 구하여 상기 최대값의 역수로 설정되는 것을 특징으로 하는 강화학습을 이용한 입고물품의 적치순서 최적화 방법
|
9 |
9
제 1항에 있어서, 상기 강화학습 알고리즘은, A3C(Asynchronous Advantage Actor-Critic) 알고리즘을 이용하여 구성되는 것을 특징으로 하는 강화학습을 이용한 입고물품의 적치순서 최적화 방법
|
10 |
10
청구항 1항 내지 청구항 9항 중 어느 한 항에 기재된 강화학습을 이용한 입고물품의 적치순서 최적화 방법을 컴퓨터나 전용의 하드웨어에 실행시키도록 구성되는 프로그램이 기록된 컴퓨터에서 판독 가능한 기록매체
|
11 |
11
물품 적치 시스템에 있어서, 청구항 1항 내지 청구항 9항 중 어느 한 항에 기재된 강화학습을 이용한 입고물품의 적치순서 최적화 방법을 이용하여 입고되는 물품의 적치계획을 수립하는 적치계획 수립부; 및 크레인을 포함하는 이송수단을 포함하여, 상기 적치계획 수립부에 의해 수립된 적치계획에 따라 상기 물품의 적치를 수행하도록 이루어지는 물품이송부를 포함하여 구성되는 것을 특징으로 하는 물품 적치 시스템
|