1 |
1
심층강화학습(deep reinforcement learning) 모델을 이용하여, 다중 기지국 대용량 안테나 시스템에서 에너지 하베스팅(energy harvesting)을 수행할 기지국을 결정하는 방법에 있어서,복수의 기지국들로부터 사용자 단말들 각각의 하향링크(downlink) 채널 정보, 상기 사용자 단말들 각각의 데이터 요구량 및 기지국들 각각의 전송 전력 조건을 획득하는 단계;상기 하향링크 채널 정보, 상기 데이터 요구량 및 상기 전송 전력 조건을 이용하여 현재 상태(state)를 생성하는 단계;상기 현재 상태에 기초하여, 에너지 하베스팅을 수행할 기지국을 선택하는 행동(action)을 결정하는 단계;상기 결정된 행동에 따른 상기 사용자 단말들의 총 데이터 전송률을 보상(reward)으로 획득하는 단계;상기 현재 상태, 상기 행동 및 상기 보상을 이용하여, 상기 보상이 최대가 되도록 심층강화학습 모델을 학습하는 단계;를 포함하는, 방법
|
2 |
2
제 1 항에 있어서,상기 방법은,상기 학습된 심층강화학습 모델을 이용하여, 상기 기지국들 중에서 상기 보상이 최대가 되도록 에너지 하베스팅을 수행할 기지국을 결정하는 단계;를 더 포함하는, 방법
|
3 |
3
제 1 항에 있어서,상기 결정하는 단계는,상기 선택된 기지국을 활성 모드(active mode)로 설정하고, 선택되지 않은 기지국을 휴면 모드(sleep mode)로 설정하도록, 상기 행동을 결정하는 단계;를 포함하는, 방법
|
4 |
4
제 1 항에 있어서,상기 획득하는 단계는,최적화 기법을 이용하여, 상기 선택된 기지국 각각에 대한 전송 전력량을 할당하는 단계; 및상기 할당된 전력량에 기초하여, 상기 총 데이터 전송률을 상기 보상으로서 획득하는 단계;를 포함하는, 방법
|
5 |
5
제 4 항에 있어서,상기 최적화 기법은 볼록 최적화 기법(convex optimization)인 것인, 방법
|
6 |
6
다중 기지국 대용량 안테나 시스템에서 에너지 하베스팅(energy harvesting)을 수행할 기지국을 결정하는 장치에 있어서,적어도 하나의 프로그램이 저장된 메모리; 및상기 적어도 하나의 프로그램을 실행함으로써 심층강화학습 모델을 구동하는 프로세서를 포함하고,상기 프로세서는,사용자 단말들 각각의 하향링크 채널 정보, 상기 사용자 단말들 각각의 데이터 요구량 및 기지국들 각각의 전송 전력 조건을 이용하여 현재 상태(state)를 생성하고,상기 현재 상태에 기초하여, 에너지 하베스팅을 수행할 기지국을 선택하는 행동(action)을 결정하고,상기 결정된 행동에 따른 상기 사용자 단말들의 총 데이터 전송률을 보상(reward)으로 획득하며,상기 현재 상태, 상기 행동 및 상기 보상을 이용하여, 상기 보상이 최대가 되도록 심층강화학습 모델을 학습하는 것인, 장치
|
7 |
7
제 6 항에 있어서,상기 프로세서는, 상기 학습된 심층강화학습 모델을 이용하여, 상기 기지국들 중에서 상기 보상이 최대가 되도록 에너지 하베스팅을 수행할 기지국을 결정하는 것인, 장치
|
8 |
8
제 6 항에 있어서,상기 프로세서는, 상기 선택된 기지국을 활성 모드(active mode)로 설정하고, 선택되지 않은 기지국을 휴면 모드(sleep mode)로 설정하도록, 상기 행동을 결정하는 것인, 장치
|
9 |
9
제 8 항에 있어서,상기 프로세서는,최적화 기법을 이용하여, 상기 선택된 기지국 각각에 대한 전송 전력량을 할당하며, 상기 할당된 전력량에 기초하여, 상기 총 데이터 전송률을 상기 보상으로서 획득하는 것인, 장치
|
10 |
10
제 9 항에 있어서,상기 최적화 기법은 볼록 최적화 기법(convex optimization)인 것인, 장치
|
11 |
11
제 6 항에 있어서,상기 장치는,통신부;를 더 포함하고,상기 통신부는, 복수의 기지국들로부터 상기 하향링크(downlink) 채널 정보, 상기 데이터 요구량 및 상기 전력 조건을 수신하는 것인, 장치
|
12 |
12
제 1 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
|