1 |
1
복수의 디바이스를 각각 제어하기 위한 강화학습을 수행하고, 상기 강화학습의 과정에서 계산되는 그레디언트와, 상기 강화학습의 완료에 따른 학습파라미터를 연합강화학습 매니징 서버로 리포팅하는 복수의 디바이스 제어 장치; 및상기 복수의 디바이스 제어 장치로부터 리포팅된 복수의 그레디언트에 대한 평균을 계산한 평균 그레디언트를 상기 복수의 디바이스 제어 장치로 공유(sharing)하고, 상기 리포팅된 강화학습 파라미터를 상기 강화학습이 완료되지 않은 적어도 하나 이상의 디바이스 제어 장치로 전이(transfer)하는 연합강화학습 매니징 서버;를 포함하며,상기 평균한 그레디언트를 공유하는 것과, 상기 학습파라미터를 전이하는 것을 통해 상기 복수의 디바이스 제어 장치에서, 상기 강화학습을 연합한 연합강화학습을 수행하도록 함으로써, 상기 복수의 디바이스에서 수행하는 각각의 강화학습을 완료하도록 하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 시스템
|
2 |
2
청구항 1에 있어서,상기 복수의 디바이스 제어 장치는,상기 연합강화학습을 통해 상기 디바이스를 제어하기 위한 학습모델을 생성하는 연합강화 학습부;를 포함하며,상기 연합강화 학습부는,상기 연합강화학습 매니징 서버의 요청에 따라, 현재 수행중인 강화학습에 대한 그레디언트를 계산하여 상기 연합강화학습 매니징 서버로 리포팅하는 그레디언트 리포팅부;상기 연합강화학습 매니징 서버로부터 상기 리포팅된 복수의 그레디언트에 대한 평균을 계산한 평균 그레디언트를 수신하는 평균 그레디언트 수신부;상기 연합강화학습 매니징 서버에 상기 학습파라미터를 리포팅하는 학습파라미터 리포팅부; 및상기 연합강화학습 매니징 서버로부터 최초 리포팅된 상기 학습파라미터를 수신하는 학습파라미터 수신부;를 더 포함하며,상기 연합강화 학습부는, 상기 수신한 평균 그레디언트를 이용하여 상기 강화학습을 지속하여 수행하고, 해당 강화학습이 완료되지 않은 상태에서 상기 학습파라미터가 수신되는 경우, 상기 수신한 학습파라미터를 사용하여 상기 강화학습을 수행함으로써, 상기 완료되지 않은 상태의 강화학습을 완료하기 위한 연합강화학습을 수행하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 시스템
|
3 |
3
청구항 1에 있어서,상기 그레디언트는,상기 강화학습을 수행하는 과정에서, 상기 강화학습이 수행되는 속도이며, 상기 평균 그레디언트를 공유하는 것을 통해서, 상기 공유한 평균 그레디언트에 따라 상기 복수의 디바이스 제어 장치를 통해 수행되는 각각의 강화학습이 진행되도록 하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 시스템
|
4 |
4
청구항 2에 있어서,상기 복수의 디바이스 제어 장치는,상기 생성한 학습모델을 이용하여 상기 디바이스를 제어하는 디바이스 제어부; 및상기 디바이스를 제어한 결과인 디바이스의 상태정보를 상기 연합강화학습 매니징 서버로 제공하는 디바이스 상태정보 제공부;를 더 포함하며,상기 복수의 디바이스 제어 장치는, 상기 연합강화학습 매니징 서버로부터, 상기 상태정보를 모니터링한 결과에 따라 상기 연합강화학습에 대한 재수행 명령이 수신되는 경우, 상기 연합강화학습을 재수행하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 시스템
|
5 |
5
청구항 1에 있어서,상기 연합강화학습 매니징 서버는,상기 복수의 디바이스 제어 장치에 상기 그레디언트를 요청하여 수신하는 그레디언트 수신부;상기 복수의 디바이스 제어 장치로부터 수신한 복수의 그레디언트를 평균한 평균 그레디언트를 복수의 디바이스 제어 장치로 전송하여 공유하는 그레디언트 공유부;상기 공유한 평균 그레디언트를 이용하여 지속한 상기 강화학습이 완료된 디바이스 제어 장치로부터, 리포팅되는 학습파라미터를 수신하는 학습파라미터 수신부; 및상기 수신한 학습파라미터를 상기 강화학습이 완료되지 않은, 상기 적어도 하나 이상의 디바이스 제어 장치로 제공하는 학습파라미터 제공부;를 포함하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 시스템
|
6 |
6
청구항 5에 있어서,상기 연합강화학습 매니징 서버는,상기 복수의 디바이스 제어 장치로부터 상기 디바이스를 제어한 결과인 디바이스의 상태정보를 수신하는 디바이스 상태정보 수신부;를 더 포함하며,상기 수신한 상태정보를 모니터링하고, 모니터링한 결과가 사전에 설정한 임계범위를 벗어나는 경우, 상기 연합강화학습에 대한 재수행 명령을 상기 복수의 디바이스 제어 장치로 전송하여 상기 연합강화학습을 재수행하도록 하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 시스템
|
7 |
7
복수의 디바이스 제어 장치에서, 디바이스를 제어하기 위한 강화학습을 개별적으로 수행하고, 연합강화학습 매니징 서버의 요청에 따라 상기 강화학습을 수행하는 과정에서의 그레디언트를 계산하여 상기 연합강화학습 매니징 서버로 리포팅하는 단계;상기 연합강화학습 매니징 서버에서, 상기 복수의 디바이스 제어 장치로부터 리포팅된 복수의 그레디언트에 대한 평균을 계산한 평균 그레디언트를 상기 복수의 디바이스 제어 장치로 제공하여 공유하는 단계;상기 복수의 디바이스 제어 장치에서, 상기 공유한 평균 그레디언트를 이용하여 상기 강화학습을 지속하는 단계;상기 복수의 디바이스 제어 장치 중 적어도 하나에서, 평균 그레디언트를 이용하여 지속한 상기 강화학습이 완료되면, 상기 완료된 결과에 따른 학습파라미터를 상기 연합강화학습 매니징 서버로 리포팅하는 단계;상기 연합강화학습 매니징 서버에서, 상기 학습파라미터를 학습이 완료되지 않은 적어도 하나 이상의 디바이스 제어 장치로 전송하여 전이하는 단계; 및상기 적어도 하나 이상의 디바이스 제어 장치에서, 상기 연합강화학습 매니징 서버에서 전송하여 전이한 상기 학습파라미터를 사용하여 상기 강화학습을 계속하여 수행하는 단계;를 포함하며,상기 평균 그레디언트를 공유하는 것과, 상기 학습파라미터를 전이하는 것을 통해 상기 복수의 디바이스 제어 장치에서, 상기 강화학습을 연합한 연합강화학습을 수행하도록 함으로써, 상기 복수의 디바이스 제어 장치에서 수행하는 각각의 강화학습을 완료하도록 하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 방법
|
8 |
8
청구항 7에 있어서,상기 그레디언트는, 상기 강화학습을 수행하는 과정에서, 상기 강화학습이 수행되는 속도이며, 상기 평균 그레디언트를 공유하는 것을 통해서, 상기 공유한 평균 그레디언트에 따라 상기 복수의 디바이스 제어 장치를 통해 수행되는 각각의 강화학습이 진행되도록 하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 방법
|
9 |
9
청구항 7에 있어서,상기 연합강화학습을 통한 다중 디바이스 제어 방법은,상기 복수의 디바이스 제어 장치에서, 상기 연합강화학습을 통해 생성된 학습모델을 통해 상기 디바이스를 제어하는 단계; 및상기 복수의 디바이스 제어 장치에서, 상기 디바이스를 제어한 결과인 디바이스의 상태정보를 상기 연합강화학습 매니징 서버로 제공하는 단계;를 더 포함하며, 상기 복수의 디바이스 제어 장치에서, 상기 연합강화학습 매니징 서버로부터, 상기 상태정보를 모니터링한 결과에 따라 상기 연합강화학습에 대한 재수행 명령이 수신되는 경우, 상기 연합강화학습을 재수행하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 방법
|
10 |
10
청구항 7에 있어서,상기 연합강화학습을 통한 다중 디바이스 제어 방법은,상기 연합강화학습 매니징 서버에서, 상기 복수의 디바이스 제어 장치로부터 상기 디바이스를 제어한 결과인 디바이스의 상태정보를 수신하는 단계;를 더 포함하며,상기 연합강화학습 매니징 서버에서, 상기 수신한 디바이스의 상태정보를 모니터링하고, 모니터링한 결과가 사전에 설정한 임계범위를 벗어나는 경우, 상기 연합강화학습에 대한 재수행 명령을 상기 복수의 디바이스 제어 장치로 전송하여 상기 연합강화학습을 재수행하도록 하는 것을 특징으로 하는 연합강화학습을 통한 다중 디바이스 제어 방법
|