1 |
1
강화 학습을 사용한 UAV BS 기반의 통신 방법은, 강화 학습 서버가 모바일 에이전트를 기반으로 제1 Q-네트워크를 학습하는 단계;상기 강화 학습 서버가 스태틱 에이전트를 기반으로 제2 Q-네트워크를 학습하는 단계;상기 강화 학습 서버가 DQN(Deep Q-network)을 통해 상태 정보를 기반으로 상기 모바일 에이전트의 액션을 결정하는 단계; 및상기 강화 학습 서버가 상기 DQN을 통해 상태 정보를 기반으로 상기 스태틱 에이전트의 액션을 결정하는 단계를 포함하되,상기 DQN은 상기 제1 Q-네트워크와 상기 제2 Q-네트워크를 포함하는 것을 특징으로 하는 방법
|
2 |
2
제1항에 있어서,상기 스태틱 에이전트의 액션은 스태틱 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 상기 모바일 에이전트의 액션은 모바일 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 상기 스태틱 충전 스테이션은 서비스 영역 내에 고정되어서 UAV BS의 충전을 위해 구현되고, 상기 모바일 충전 스테이션은 상기 서비스 영역 간을 이동하면서 UAV BS의 충전을 위해 구현되는 것을 특징으로 하는 방법
|
3 |
3
제2항에 있어서, 상기 제1 Q-네트워크는 UAV BS의 영역 내 배치를 학습하기 위해 구현되고,상기 제2 Q-네트워크는 UAV BS의 영역 간 배치를 학습하기 위해 구현되고,상기 모바일 에이전트의 상기 제1 Q-네트워크의 학습을 위한 리워드는 UAV BS가 적합한 위치에 존재 여부를 고려하여 결정되고,상기 스태틱 에이전트의 상기 제2 Q-네트워크의 학습을 위한 리워드는 서비스 영역 내의 사용자에게 제공되는 통신 서비스 품질을 기반으로 결정되는 것을 특징으로 하는 방법
|
4 |
4
제3항에 있어서, 상기 상태 정보는 UAV 상태1, UAV 상태2, UAV 상태3 및 UAV 상태4를 기반으로 정의되고, 상기 UAV 상태1는 UAV BS가 사용자에게 통신 서비스를 제공하는 상태이고상기 UAV 상태2는 UAV BS가 상기 스태틱 충전 스테이션에서 충전되는 상태이고,상기 UAV 상태3는 UAV BS가 충전 또는 통신 서비스를 위해 이동하는 상태이고,상기 UAV 상태4는 UAV BS가 상기 모바일 충전 스테이션에서 충전되면서 이동하는 상태인 것을 특징으로 하는 방법
|
5 |
5
강화 학습을 사용한 UAV BS 기반의 통신을 위한 강화 학습 서버는, 모바일 에이전트를 기반으로 제1 Q-네트워크를 학습하고,스태틱 에이전트를 기반으로 제2 Q-네트워크를 학습하고,DQN(Deep Q-network)을 통해 상태 정보를 기반으로 상기 모바일 에이전트의 액션을 결정하고,상기 DQN을 통해 상태 정보를 기반으로 상기 스태틱 에이전트의 액션을 결정하도록 구현되되,상기 DQN은 상기 제1 Q-네트워크와 상기 제2 Q-네트워크를 포함하는 것을 특징으로 하는 강화 학습 서버
|
6 |
6
제5항에 있어서,상기 스태틱 에이전트의 액션은 스태틱 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 상기 모바일 에이전트의 액션은 모바일 충전 스테이션을 기반으로 한 충전 UAV BS의 개수와 서비스 UAV BS의 개수이고, 상기 스태틱 충전 스테이션은 서비스 영역 내에 고정되어서 UAV BS의 충전을 위해 구현되고, 상기 모바일 충전 스테이션은 상기 서비스 영역 간을 이동하면서 UAV BS의 충전을 위해 구현되는 것을 특징으로 하는 강화 학습 서버
|
7 |
7
제6항에 있어서, 상기 제1 Q-네트워크는 UAV BS의 영역 내 배치를 학습하기 위해 구현되고,상기 제2 Q-네트워크는 UAV BS의 영역 간 배치를 학습하기 위해 구현되고,상기 모바일 에이전트의 상기 제1 Q-네트워크의 학습을 위한 리워드는 UAV BS가 적합한 위치에 존재 여부를 고려하여 결정되고,상기 스태틱 에이전트의 상기 제2 Q-네트워크의 학습을 위한 리워드는 서비스 영역 내의 사용자에게 제공되는 통신 서비스 품질을 기반으로 결정되는 것을 특징으로 하는 강화 학습 서버
|
8 |
8
제7항에 있어서, 상기 상태 정보는 UAV 상태1, UAV 상태2, UAV 상태3 및 UAV 상태4를 기반으로 정의되고, 상기 UAV 상태1는 UAV BS가 사용자에게 통신 서비스를 제공하는 상태이고상기 UAV 상태2는 UAV BS가 상기 스태틱 충전 스테이션에서 충전되는 상태이고,상기 UAV 상태3는 UAV BS가 충전 또는 통신 서비스를 위해 이동하는 상태이고,상기 UAV 상태4는 UAV BS가 상기 모바일 충전 스테이션에서 충전되면서 이동하는 상태인 것을 특징으로 하는 강화 학습 서버
|