1 |
1
물리 환경에 위치하는 적어도 하나 이상의 디바이스;상기 디바이스를 제어하기 위한 제어정보를 강화학습 에이전트로부터 제공받아 상기 디바이스로 송신하고, 상기 디바이스로부터 해당 제어정보에 따라 제어된 상기 디바이스의 상태정보를 수신하고 상기 수신한 디바이스 상태정보에 대한 리워드 정보를 생성하여 상기 디바이스의 상태정보와 상기 리워드 정보를 강화학습 에이전트로 제공하는 사이버 환경부;상기 사이버 환경부로부터 상기 수신한 디바이스의 상태정보를 디바이스 제어용 학습모델에 적용하여 상기 제어정보를 추출하고, 상기 추출한 제어정보를 상기 사이버 환경부로 제공하며, 상기 추출한 제어정보를 토대로 제어되기 전의 디바이스 상태정보, 상기 제어정보, 상기 제어정보를 토대로 제어된 후의 디바이스 상태정보 및 상기 제어된 후의 디바이스 상태정보에 대한 리워드 정보를 포함하는 강화학습 데이터를 생성하여 학습부로 제공하는 강화학습 에이전트; 및디바이스 제어용 학습네트워크를 통해 사전에 정의된 강화학습 데이터를 학습하여, 상기 디바이스를 특정 상태에서 다음의 상태로 제어하기 위한 제어정보를 추출하기 위한 상기 디바이스 제어용 학습모델의 학습 파라미터를 생성하는 학습부;를 포함하며,상기 강화학습 에이전트는, 상기 적어도 하나 이상의 디바이스별로 설정된 고유의 기능에 따라 특정 작업을 수행하는 일련의 과정인 에피소드에 따라 상기 디바이스를 제어할 때, 상기 강화학습 데이터를 누적하여 저장하고, 상기 에피소드가 종료되면, 상기 누적하여 저장한 강화학습 데이터를 미리 설정한 수만큼 랜덤하게 선택하여 배치한 다음 상기 학습부로 제공하고, 상기 학습부로부터 학습 파라미터를 제공받아 상기 디바이스 제어용 학습모델에 적용하여 강화학습을 수행하도록 하며,상기 디바이스 제어용 학습모델은, 상기 강화학습 데이터 간의 상관관계로 인해 강화학습의 속도가 느려지는 것을 방지하지 위해 상기 상관관계를 무시하고 상기 특정 상태에서 미리 설정한 상기 디바이스의 최종 상태까지의 상기 리워드 정보의 총합이 최대가 되는 상기 제어정보를 추출하도록 학습되는 것을 특징으로 하는 강화학습 기반 디바이스 원격 제어 시스템
|
2 |
2
청구항 1에 있어서,상기 디바이스와 상기 사이버 환경부간의 상기 상태정보 및 제어정보는,스위치, 라우터 또는 이들의 조합을 포함하는 복수의 네트워크 노드를 통해서 송수신되며,상기 복수의 네트워크 노드는,네트워크 컨트롤러를 통해, 상기 상태정보 및 제어정보에 대한 최대 대역폭을 할당하고, 상기 네트워크 컨트롤러에서 산출한 최단경로에 따라 상기 상태정보 및 제어정보를 최우선적으로 송수신하도록 설정됨으로써, 상기 상태정보 및 제어정보를 실시간으로 송수신하도록 제어하는 것을 특징으로 하는 강화학습 기반 디바이스 원격 제어 시스템
|
3 |
3
삭제
|
4 |
4
청구항 1에 있어서,상기 리워드 정보는,상기 디바이스의 상태정보가 미리 설정한 임계범위 내에서 제어된 결과인 경우 플러스 보상값을 적용하고, 미리 설정한 임계범위를 초과하여 제어된 결과인 경우 마이너스 보상값을 적용함으로써, 생성되는 것을 특징으로 하는 강화학습 기반 디바이스 원격 제어 시스템
|
5 |
5
삭제
|
6 |
6
청구항 1에 있어서,상기 학습부는,상기 강화학습 에이전트로부터 제공받은 강화학습 데이터를 이용하여 디바이스 제어용 학습네트워크에 대한 강화학습을 수행하여, 강화학습 결과에 대한 학습 파라미터를 생성하고, 상기 생성한 학습 파라미터를 상기 강화학습 에이전트로 제공하여, 상기 디바이스 제어용 학습모델에 상기 학습 파라미터를 적용할 수 있도록 함으로써, 해당 디바이스 제어용 학습모델을 업데이트하도록 하는 것을 더 포함하는 것을 특징으로 하는 강화학습 기반 디바이스 원격 제어 시스템
|
7 |
7
사이버 환경부에서, 물리 환경에 위치하는 적어도 하나 이상의 디바이스를 제어하기 위한 제어정보를 강화학습 에이전트로부터 제공받아 상기 디바이스로 송신하고, 상기 디바이스로부터 해당 제어정보에 따라 제어된 상기 디바이스의 상태정보를 수신하는 단계;상기 사이버 환경부에서, 상기 수신한 디바이스 상태정보에 대한 리워드 정보를 생성하여 상기 디바이스의 상태정보와 상기 리워드 정보를 강화학습 에이전트로 제공하는 단계;상기 강화학습 에이전트에서, 상기 사이버 환경부로부터 상기 수신한 디바이스의 상태정보를 디바이스 제어용 학습모델에 적용하여 상기 제어정보를 추출하고, 상기 추출한 제어정보를 상기 사이버 환경부로 제공하는 단계;상기 강화학습 에이전트에서, 상기 추출한 제어정보를 토대로 제어되기 전의 디바이스 상태정보, 상기 제어정보, 상기 제어정보를 토대로 제어된 후의 디바이스 상태정보 및 상기 제어된 후의 디바이스 상태정보에 대한 리워드 정보를 포함하는 강화학습 데이터를 생성하여 학습부로 제공하는 단계; 및디바이스 제어용 학습네트워크를 통해 사전에 정의된 강화학습 데이터를 학습하여, 상기 디바이스를 특정 상태에서 다음의 상태로 제어하기 위한 제어정보를 추출하기 위한 상기 디바이스 제어용 학습모델의 학습 파라미터를 생성하는 학습 단계;를 포함하며,상기 강화학습 에이전트는, 상기 적어도 하나 이상의 디바이스별로 설정된 고유의 기능에 따라 특정 작업을 수행하는 일련의 과정인 에피소드에 따라 상기 디바이스를 제어할 때, 상기 강화학습 데이터를 누적하여 저장하고, 상기 에피소드가 종료되면, 상기 누적하여 저장한 강화학습 데이터를 미리 설정한 수만큼 랜덤하게 선택하여 배치한 다음 상기 학습부로 제공하고, 상기 학습부로부터 학습 파라미터를 제공받아 상기 디바이스 제어용 학습모델에 적용하여 강화학습을 수행하도록 하며,상기 디바이스 제어용 학습모델은, 상기 강화학습 데이터 간의 상관관계로 인해 강화학습의 속도가 느려지는 것을 방지하지 위해 상기 상관관계를 무시하고 상기 특정 상태에서 미리 설정한 상기 디바이스의 최종 상태까지의 상기 리워드 정보의 총합이 최대가 되는 상기 제어정보를 추출하도록 학습되는 것을 특징으로 하는 강화학습 기반 디바이스 원격 제어 방법
|
8 |
8
청구항 7에 있어서,상기 디바이스와 상기 사이버 환경부간의 상기 상태정보 및 제어정보는,스위치, 라우터 또는 이들의 조합을 포함하는 복수의 네트워크 노드를 통해서 송수신되며,상기 복수의 네트워크 노드는,네트워크 컨트롤러를 통해, 상기 상태정보 및 제어정보에 대한 최대 대역폭을 할당하고, 상기 네트워크 컨트롤러에서 산출한 최단경로에 따라 상기 상태정보 및 제어정보를 최우선적으로 송수신하도록 설정됨으로써, 상기 상태정보 및 제어정보를 실시간으로 송수신하도록 제어하는 것을 특징으로 하는 강화학습 기반 디바이스 원격 제어 방법
|
9 |
9
청구항 7에 있어서,상기 리워드 정보는,상기 디바이스의 상태정보가 미리 설정한 임계범위 내에서 제어된 결과인 경우 플러스 보상값을 적용하고, 미리 설정한 임계범위를 초과하여 제어된 결과인 경우 마이너스 보상값을 적용함으로써, 생성되는 것을 특징으로 하는 강화학습 기반 디바이스 원격 제어 방법
|
10 |
10
청구항 7에 있어서,상기 학습 단계는,상기 강화학습 에이전트로부터 제공받은 강화학습 데이터를 이용하여 디바이스 제어용 학습네트워크에 대한 강화학습을 수행하여, 강화학습 결과에 대한 학습 파라미터를 생성하고, 상기 생성한 학습 파라미터를 상기 강화학습 에이전트로 제공하여, 상기 디바이스 제어용 학습모델에 상기 학습 파라미터를 적용할 수 있도록 함으로써, 해당 디바이스 제어용 학습모델을 업데이트하도록 하는 것을 더 포함하는 것을 특징으로 하는 강화학습 기반 디바이스 원격 제어 방법
|