1 |
1
미리 설정된 알고리즘에 따라 기존 개체를 제어하는 기존 개체 네트워크;상기 기존 개체의 상태 정보를 기초로 미리 학습된 신경망 네트워크를 이용하여 상기 기존 개체를 모방하는 학습 개체를 제어하는 학습 개체 네트워크; 및상기 기존 개체의 상태 정보 및 상기 학습 개체의 상태 정보를 기초로 미리 학습된 신경망 네트워크를 통해 상기 기존 개체 및 상기 학습 개체 각각에 대하여 학습 개체일 확률값을 산출하고 상기 확률값을 기초로 상기 학습 개체 네트워크로 상기 확률값에 대응하는 보상을 제공하는 감독자 네트워크;를 포함하는, 다개체 강화학습 시스템
|
2 |
2
제1 항에 있어서,상기 학습 개체 네트워크는, 상기 감독자 네트워크로부터 수신한 상기 보상을 기초로 강화학습을 통해 학습하는, 다개체 강화학습 시스템
|
3 |
3
제2 항에 있어서,상기 학습 개체 네트워크는, 상기 보상에 의한 강화학습으로 상기 학습 개체가 상기 기존 개체의 상태 정보를 모방하여 상기 학습 개체일 확률값을 낮추도록 학습하는, 다개체 강화학습 시스템
|
4 |
4
제1 항에 있어서,상기 감독자 네트워크는, 상기 기존 개체 및 상기 학습 개체 중 선택된 하나의 개체가 상기 학습 개체일 확률값을 산출하는, 다개체 강화학습 시스템
|
5 |
5
제4 항에 있어서,상기 감독자 네트워크는, 상기 기존 개체 네트워크 및 상기 학습 개체 네트워크로부터 상기 확률값에 대한 피드백을 수신하여 상기 피드백을 기초로 학습하는, 다개체 강화학습 시스템
|
6 |
6
제1 항에 있어서,상기 학습 개체 네트워크 및 상기 감독자 네트워크는, 상기 학습 개체 네트워크가 상기 감독자 네트워크를 기만하는 적대적 학습을 수행하는, 다개체 강화학습 시스템
|
7 |
7
미리 설정된 알고리즘에 따라 기존 개체를 제어하는 기존 개체 제어 단계;상기 기존 개체의 상태 정보를 기초로 미리 학습된 제1 신경망 네트워크를 이용하여 상기 기존 개체를 모방하는 학습 개체를 제어하는 학습 개체 제어 단계; 및상기 기존 개체의 상태 정보 및 상기 학습 개체의 상태 정보를 기초로 미리 학습된 제2 신경망 네트워크를 통해 상기 기존 개체 및 상기 학습 개체 각각에 대하여 학습 개체일 확률값을 산출하고 상기 확률값을 기초로 상기 제1 신경망 네트워크로 상기 확률값에 대응하는 보상을 제공하는 감독자 제어 단계;를 포함하는, 다개체 강화학습 방법
|
8 |
8
제7 항에 있어서,상기 학습 개체 제어 단계는, 상기 제2 신경망 네트워크로부터 수신한 상기 보상을 기초로 강화학습을 통해 상기 제1 신경망 네트워크가 학습하는 단계를 포함하는, 다개체 강화학습 방법
|
9 |
9
제8 항에 있어서,상기 학습 개체 제어 단계는, 상기 보상에 의한 강화학습으로 상기 학습 개체가 상기 기존 개체의 상태 정보를 모방하여 상기 학습 개체일 확률값을 낮추도록 상기 제1 신경망 네트워크가 학습하는 단계를 포함하는, 다개체 강화학습 방법
|
10 |
10
제7 항에 있어서,상기 감독자 제어 단계는, 상기 기존 개체 및 상기 학습 개체 중 선택된 하나의 개체가 상기 학습 개체일 확률값을 산출하는 단계를 포함하는, 다개체 강화학습 방법
|
11 |
11
제10 항에 있어서,상기 감독자 제어 단계는, 기존 개체의 네트워크 및 상기 제1 신경망 네트워크로부터 상기 확률값에 대한 피드백을 수신하여 상기 피드백을 기초로 상기 제2 신경망 네트워크가 학습하는 단계를 포함하는, 다개체 강화학습 방법
|
12 |
12
제7 항에 있어서,상기 제1 신경망 네트워크는 상기 제2 신경망 네트워크를 기만하는 적대적 학습을 수행하는, 다개체 강화학습 방법
|
13 |
13
컴퓨팅 장치를 이용하여 제7 항 내지 제12 항 중 어느 한 항의 방법을 실행시키기 위하여 기록매체에 저장된 컴퓨터 프로그램
|