1 |
1
(a) 강화학습 하이퍼파라미터를 정의하고, 상기 정의된 하이퍼파라미터에 따라 MADDPG 알고리즘을 기반으로 각 드론 에이전트별 액터 신경망을 학습시키는 단계;(b) 다중 드론 네트워크 임무 정보를 기초로 마르코프 게임 정식화 정보를 생성하고, 상기 정식화 정보를 기초로 상기 학습된 액터 신경망을 이용하여 상태-행동 이력 정보를 생성하는 단계; 및(c) 상기 상태-행동 이력 정보를 기초로 다중 드론 네트워크 운용 계획을 생성하는 단계;를 포함하는 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
|
2 |
2
제1항에 있어서, 상기 다중 드론 네트워크 임무 정보는,기지국에 관한 정보, 표적지점에 관한 정보, 드론 에이전트에 관한 정보, 통신에 관한 정보 및 임무 종료 조건을 포함하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
|
3 |
3
제1항에 있어서, 상기 (b) 단계는,(b1) 상기 임무 정보를 기초로 상기 정식화 정보를 생성하는 단계;(b2) 상기 정식화 정보에 따라 드론 에이전트별 상태를 초기화하는 단계;(b3) 드론 에이전트별 상태에 기초하여 드론 에이전트별 관측을 획득하는 단계;(b4) 상기 관측을 상기 액터 신경망에 입력하여 드론 에이전트별 행동을 추론하는 단계;(b5) 상기 상태 및 상기 행동을 기초로 드론 에이전트별 다음 상태를 획득하는 단계; 및(b6) 상기 다음 상태를 기초로, 상기 임무 정보에 포함되어 있는 임무 종료 조건에 도달했는지 여부를 판단하고, 도달하지 않은 경우 (b3) 내지 (b5) 단계를 반복하고, 도달한 경우 상기 상태 및 상기 행동을 종합하여 상기 상태-행동 이력 정보를 생성하는 단계;를 포함하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
|
4 |
4
제1항에 있어서, 상기 상태-행동 이력 정보는,의사결정 시점별 드론의 위치 정보를 포함하고,상기 (c) 단계는,상기 위치 정보를 기초로 상기 운용 계획에 포함되는 드론의 비행경로 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
|
5 |
5
제1항에 있어서, 상기 상태-행동 이력 정보는,의사결정 시점별 드론의 임무 시간과 드론의 위치 정보를 포함하고,상기 (c) 단계는,상기 임무 시간과 상기 위치 정보를 기초로 상기 운용 계획에 포함되는 드론의 속도 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
|
6 |
6
제1항에 있어서, 상기 상태-행동 이력 정보는,의사결정 시점별 네트워크 토폴로지 이력 정보를 포함하고,상기 (c) 단계는,상기 토폴로지 이력 정보를 기초로 상기 운용 계획에 포함되는 토폴로지 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
|
7 |
7
제1항에 있어서, 상기 상태-행동 이력 정보는,의사결정 시점별 드론의 임무수행의도 및 드론의 행동을 포함하고,상기 (c) 단계는,상기 임무수행의도 및 상기 드론의 행동을 기초로 상기 운용 계획에 포함되는 임무수행 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
|
8 |
8
(a) 강화학습 하이퍼파라미터를 정의하는 단계;(b) 마르코프 게임 상태를 초기화하고, 상기 상태를 기초로 드론 에이전트별 관측을 획득하는 단계;(c) 상기 정의된 하이퍼파라미터와 상기 상태를 기초로 MADDPG 알고리즘을 이용하여 드론 에이전트별로 관측, 행동, 보상 및 다음 관측을 포함하는 튜플 데이터를 생성하고, 상기 튜플 데이터를 리플레이 버퍼에 저장하는 단계;(d) 상기 리플레이 버퍼에서 랜덤 샘플링으로 튜플 데이터의 미니배치를 추출하는 단계; 및(e) 상기 미니배치를 기초로 드론 에이전트별 액터 신경망을 업데이트하는 단계;를 포함하는 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
9 |
9
제8항에 있어서, 상기 (e) 단계 이후에,(f) 반복 회수를 1 증가시키고, 상기 반복 회수가 설정된 상한에 도달했는지 여부를 판단하여, 도달하지 않은 경우 상기 (c) 단계 내지 (e) 단계를 반복하는 단계를 더 포함하는 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
10 |
10
제9항에 있어서, 상기 (f) 단계 이후에,(g) 소정의 학습 종료 조건에 도달했는지 여부를 판단하여, 도달한 경우 학습을 종료하고, 도달하지 않은 경우 상기 (b) 단계 내지 (f) 단계를 반복하는 단계를 더 포함하는 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
11 |
11
제8항에 있어서, 상기 (c) 단계는,상기 상태를 기초로 상기 관측을 획득하고,상기 관측을 기초로 상기 행동을 추론하며,상기 상태 및 상기 행동을 기초로 상기 보상 및 드론 에이전트별 다음 상태를 획득하며,상기 다음 상태를 기초로 상기 다음 관측을 획득하는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
12 |
12
제8항에 있어서, 상기 하이퍼파라미터는,상기 액터 신경망에 대한 파라미터를 포함하고,상기 (c) 단계는,상기 액터 신경망을 이용하여 상기 행동을 추론하는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
13 |
13
제8항에 있어서, 상기 하이퍼파라미터는,다중 드론의 통신 네트워크에 관한 토폴로지 모델 및 통신 비용 모델을 포함하고,상기 (c) 단계는,상기 상태 및 상기 행동을 기초로 상기 토폴로지 모델 및 통신 비용 모델을 이용하여 상기 통신 네트워크의 통신 비용을 산출하고, 상기 상태, 상기 행동 및 상기 통신 비용을 기초로 상기 보상을 산출하는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
14 |
14
제8항에 있어서, 상기 상태는,임무 시간, 드론 에이전트별 위치 벡터, 다중 드론 통신 네트워크 토폴로지, 다중 드론 통신 네트워크의 연결성 및 드론 에이전트별 임무 완료 여부를 포함하는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
15 |
15
제8항에 있어서, 상기 관측은,현재 임무 시간, 드론 에이전트의 위치, 드론 에이전트의 현재 임무수행의도, 다중 드론의 통신 네트워크 연결성, 지상국의 상대적 위치 좌표, 표적지점의 상대적 위치 좌표, 드론 에이전트의 임무 완료 여부 및 다른 드론 에이전트의 상대적 위치 좌표를 포함하며,상기 임무수행의도는,다른 드론 에이전트 간의 통신 중계, 상기 드론 에이전트의 임무 수행, 다른 드론 에이전트가 있는 방향으로 이동하기 및 지상국 방향으로 이동하기 중 어느 하나인 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
16 |
16
제8항에 있어서, 상기 보상은,다중 드론 통신 네트워크의 연결성, 상기 네트워크의 통신 비용 및 드론 에이전트별 임무 완료 여부를 기초로 정의되는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
17 |
17
제8항에 있어서, 상기 드론 에이전트는,매 의사결정 시점마다 하나의 임무수행의도를 가지며,상기 행동은,단순 이동방향 결정 행동 및 의도명시적 결정 행동 중 어느 하나의 행동에 해당하며,상기 단순 이동방향 결정 행동은 현재의 임무수행의도를 다음 의사결정시점에서 변경하지 않고 이동방향만을 결정하는 행동이고,상기 의도명시적 결정 행동은 다음 의사결정시점의 임무수행의도를 명시적으로 선택하는 행동이며,상기 임무수행의도는,다른 드론 에이전트 간의 통신 중계, 상기 드론 에이전트의 임무 수행, 다른 드론 에이전트가 있는 방향으로 이동하기 및 지상국 방향으로 이동하기 중 어느 하나인 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
|
18 |
18
강화학습 하이퍼파라미터와 다중 드론 네트워크 임무 정보를 입력받는 입력부;상기 강화학습 하이퍼파라미터에 따라 MADDPG 알고리즘을 이용하여 각 드론 에이전트별 액터 신경망을 학습시키는 학습부; 및상기 다중 드론 네트워크 임무 정보를 기초로 상기 학습된 액터 신경망을 이용하여 상태-행동 이력 정보를 생성하고, 상기 상태-행동 이력 정보를 기초로 다중 드론 네트워크 운용 계획을 생성하는 계획 생성부;를 포함하는 강화학습 기반 다중 드론 네트워크 운용 계획 생성기
|
19 |
19
제18항에 있어서, 상기 학습부는,상기 강화학습 하이퍼파라미터에 따라 MADDPG 알고리즘을 이용하여 드론 에이전트별 관측, 행동, 보상 및 다음 관측을 포함하는 튜플 데이터를 생성하고, 상기 튜플 데이터의 미니배치를 기초로 상기 액터 신경망을 학습시키는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성기
|
20 |
20
제18항에 있어서, 상기 계획 생성부는,상기 임무 정보를 기초로 드론 에이전트별 상태를 초기화하고,상기 상태에 기초하여 드론 에이전트별 관측을 획득하며,상기 관측을 상기 학습된 액터 신경망에 입력하여 드론 에이전트별 행동을 추론하며,상기 상태 및 상기 행동을 기초로 상기 상태를 천이시키며,상기 상태를 기초로 상기 임무 정보에 포함되어 있는 임무 종료 조건에 도달하였는지 여부를 판단하고, 임무 종료 조건에 도달한 것으로 판단한 경우 상기 상태 및 상기 행동의 이력을 종합하여 상기 상태-행동 이력 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성기
|