1 |
1
분산 멀티에이전트 시스템 내의 제1 에이전트의 강화 학습 방법에 있어서,환경의 상태 정보를 획득하고, 상기 상태 정보에 기반하여 문제를 인지하는 단계;상기 분산 멀티에이전트 시스템 내의 적어도 하나의 이웃 에이전트에게 상기 문제를 해결하기 위한 협력을 요청하는 단계;상기 적어도 하나의 이웃 에이전트 중 제2 에이전트로부터 상기 요청에 대한 응답으로서 협력 정보를 수신하는 단계; 및상기 협력 정보를 이용하여 상기 환경에 행동을 적용하는 단계를 포함하는 방법
|
2 |
2
제1항에 있어서,상기 행동이 적용된 후 변화된 환경의 상태 정보를 획득하는 단계; 상기 변화된 환경의 상태 정보에 상응하는 보상을 획득하는 단계; 및상기 보상을 상기 제2 에이전트와 공유하는 단계를 더 포함하는방법
|
3 |
3
제2항에 있어서,상기 적어도 하나의 이웃 에이전트 중 상기 협력 정보를 전송하지 않은 이웃 에이전트와 상기 보상을 공유하는 단계를 더 포함하는방법
|
4 |
4
제3항에 있어서,상기 협력 요청은 상기 문제를 해결하기 위해 필요한 자원 데이터 또는 지식 데이터에 대한 요청을 포함하는방법
|
5 |
5
제1항에 있어서,상기 문제를 해결하기 위한 협력을 요청하는 단계는상기 문제를 상기 제1 에이전트 내에서 해결할 수 있는지 여부를 판단하는 단계; 및상기 판단 결과에 기반하여 상기 제2 에이전트로 상기 협력 요청을 전송하는 단계를 포함하는방법
|
6 |
6
제5항에 있어서,상기 행동을 상기 제1 에이전트 내에서 수행할 수 있는지 여부를 판단하는 단계는 상기 행동이 상기 제1 에이전트에 저장된 자원 데이터 또는 지식 데이터를 이용하여 수행될 수 있는 행동인지 여부를 판단하는 단계를 포함하는방법
|
7 |
7
제5항에 있어서,상기 문제를 상기 제1 에이전트 내에서 해결할 수 있는지 여부를 판단하는 단계는 상기 문제를 상기 제1 에이전트 내에서 해결할 때 보다 상기 제2 에이전트와 협력하는 것이 더 속도가 빠르거나 더 높은 정확도로 해결할 수 있는지 여부를 판단하는 단계를 포함하는방법
|
8 |
8
분산 멀티에이전트 시스템 내의 제1 에이전트의 강화 학습 방법에 있어서,상기 분산 멀티에이전트 시스템 내의 적어도 하나의 이웃 에이전트 중 제2 에이전트로부터 문제를 해결하기 위한 협력 요청을 수신하는 단계;상기 협력 요청에 응답하여 협력 정보를 상기 제2 에이전트로 전송하는 단계;상기 제2 에이전트로부터 상기 문제가 해결된 후 변화된 환경의 상태 정보에 상응하는 보상을 수신하는 단계; 및상기 보상을 이용하여 상기 문제에 대한 강화 학습을 수행하는 단계를 포함하는방법
|
9 |
9
제8항에 있어서,상기 협력 요청을 분석하는 단계; 및상기 분석 결과에 기반하여 상기 문제에 대하여 협력할지 여부를 판단하는 단계를 더 포함하며,상기 협력 요청에 응답하여 협력 정보를 상기 제2 에이전트로 전송하는 단계는 상기 판단 결과에 기반하여 상기 협력 정보를 상기 제2 에이전트로 전송하는 단계를 포함하는방법
|
10 |
10
제9항에 있어서,상기 협력 요청은 상기 문제를 해결하기 위해 필요한 자원 데이터 또는 지식 데이터에 대한 요청을 포함하며,상기 협력 요청을 분석하는 단계는 상기 문제를 해결하기 위해 필요한 자원 데이터 또는 지식 데이터가 상기 제1 에이전트에 저장되어 있는지 여부를 분석하는 단계를 포함하는방법
|
11 |
11
강화 학습을 수행하는 제1 에이전트로서,프로세서 및 메모리를 포함하고, 상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,환경의 상태 정보를 획득하고, 상기 상태 정보에 기반하여 문제를 인지하는 단계;상기 분산 멀티에이전트 시스템 내의 적어도 하나의 이웃 에이전트에게 상기 문제를 해결하기 위한 협력을 요청하는 단계;상기 적어도 하나의 이웃 에이전트 중 제2 에이전트로부터 상기 요청에 대한 응답으로서 협력 정보를 수신하는 단계; 및상기 협력 정보를 이용하여 상기 환경에 행동을 적용하는 단계를 수행하는 제1 에이전트
|
12 |
12
제11항에 있어서,상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,상기 행동이 적용된 후 변화된 환경의 상태 정보를 획득하는 단계; 상기 변화된 환경의 상태 정보에 상응하는 보상을 획득하는 단계; 그리고상기 보상을 상기 제2 에이전트와 공유하는 단계를 수행하는 제1 에이전트
|
13 |
13
제12항에 있어서,상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,상기 적어도 하나의 이웃 에이전트 중 상기 협력 정보를 전송하지 않은 이웃 에이전트와 상기 보상을 공유하는 단계를 수행하는 제1 에이전트
|
14 |
14
제13항에 있어서,상기 협력 요청은 상기 문제를 해결하기 위해 필요한 자원 데이터 또는 지식 데이터에 대한 요청을 포함하는제1 에이전트
|
15 |
15
제11항에 있어서,상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,상기 문제를 상기 제1 에이전트 내에서 해결할 수 있는지 여부를 판단하는 단계; 및상기 판단 결과에 기반하여 상기 제2 에이전트로 상기 협력 요청을 전송하는 단계를 수행하는 제1 에이전트
|
16 |
16
제15항에 있어서,상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,상기 행동이 상기 제1 에이전트에 저장된 자원 데이터 또는 지식 데이터를 이용하여 수행될 수 있는 행동인지 여부를 판단하는 단계를 수행하는 제1 에이전트
|
17 |
17
제15항에 있어서,상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,상기 문제를 상기 제1 에이전트 내에서 해결할 때 보다 상기 제2 에이전트와 협력하는 것이 더 속도가 빠르거나 더 높은 정확도로 해결할 수 있는지 여부를 판단하는 단계를 수행하는 제1 에이전트
|