1 |
1
무선 협력 통신 시스템을 기반으로 하는 Q-러닝 기반의 중계기 선정 방법에 있어서,소스 단말, 목적지 단말, K개의 중계기를 포함한 N개 단말(N=K+2)로부터 임의 선택된 n(n=1,…,N)번째 송신측 단말을 상태(sn)로, 해당 상태(sn)에서 임의 선택된 m(m=1,…,N)번째 수신측 단말을 행동(am)으로, m번째 수신측 단말에서의 SNR 지표를 해당 상태(sn)에서 취한 행동(am)에 따른 즉각적인 보상(R; R(sn,am))으로 정의하는 단계;상기 상태 및 행동에 각각 대응하여 행과 열 성분을 구성한 N×N 크기의 Q 행렬 내 원소들인 Q값들을 초기화하는 단계;상기 N개의 단말 중에서 임의 선택된 상태(sn)와 행동(am)에 대한 즉각적인 보상(R(sn,am))과, 현재 취한 행동(am)으로 인해 이동한 미래 상태(sn')의 선택 가능한 모든 행동(am')에 대응하는 Q값들 중 최대치(max(Q(sn',am'))를 이용하여 Q-러닝을 수행하여, 상기 Q 행렬 내의 Q(sn,am) 값을 업데이트하는 단계; 상기 상태 및 행동의 임의 선택을 통해 Q-러닝을 반복 수행하면서 Q 행렬을 지속 업데이트하는 단계; 및업데이트가 완료된 Q 행렬 내에서 탐색한 최대 Q값에 대응된 하나의 중계기를 최적 중계기로 선정하는 단계를 포함하며,상기 N개 단말 중 n,m=1인 단말은 상기 소스 단말, n,m=N인 단말은 상기 목적지 단말, 나머지 N-2개는 상기 K개의 중계기이며,상기 즉각적인 보상인 R은 상기 선택된 행동 및 상태에 따라 N×N 가지로 존재하고 R(sn,am)=R(n,m)로 설정되되, N×N 개의 즉각적인 보상 중에서, 송신측 단말과 수신측 단말이 동일한 경우(n=m=i)의 보상값 R(i,i)과, 상기 소스 단말과 상기 목적지 단말 간 직경로에 해당한 경우의 보상값 R(1,N), 그리고 상기 목적지 단말(n=N)이 송신측인 경우의 보상값 R(N,i)은 아래의 수학식과 같이 모두 '0'의 값으로 설정되는 중계기 선정 방법:여기서, i={1,…N}이다
|
2 |
2
청구항 1에 있어서,상기 즉각적인 보상 R은 SNR을 기반으로 아래 수학식에 의해 결정되는 중계기 선정 방법:여기서, SNRm는 m번째 수신측 단말에서의 SNR 값, d는 n번째 송신측 단말과 m번째 수신측 단말 사이의 거리, ρ는 자유 공간 경로 손실을 나타낸다
|
3 |
3
삭제
|
4 |
4
청구항 1에 있어서,상기 중계기가 송신측(n=2,…,N-1)이고 상기 목적지 단말이 수신측(m=N)인 경우의 보상값 R(i,N)(이때, i≠1,N)은,보상 R의 수학식에 설정 가중치가 추가로 가산된 값을 사용하는 중계기 선정 방법
|
5 |
5
청구항 1에 있어서,상기 Q 행렬 내의 Q(sn,am) 값은 아래 수학식에 의해 업데이트되는 중계기 선정 방법:여기서, New Q(sn,am)는 업데이트된 Q(sn,am) 값, (0003c#003c#1)는 학습률, (0003c#003c#1)는 할인 계수(discount factor)를 나타낸다
|
6 |
6
청구항 1에 있어서,상기 상태와 행동의 임의 선택 시에 Decaying ε-greedy 알고리즘을 적용하여 시간이 경과할수록 무작위 선택 행동의 확률을 감소시키는 중계기 선정 방법
|
7 |
7
협력 통신 시스템을 위한 Q-러닝 기반의 중계기 선정 장치에 있어서,소스 단말, 목적지 단말, K개의 중계기를 포함한 N개 단말(N=K+2)로부터 임의 선택된 n(n=1,…,N)번째 송신측 단말을 상태(sn)로, 해당 상태(sn)에서 임의 선택된 m(m=1,…,N)번째 수신측 단말을 행동(am)으로, m번째 수신측 단말에서의 SNR 지표를 해당 상태(sn)에서 취한 행동(am)에 따른 즉각적인 보상(R; R(sn,am))으로 정의하는 설정부;상기 상태 및 행동에 각각 대응하여 행과 열 성분을 구성한 N×N 크기의 Q 행렬 내 원소들인 Q값들을 초기화하는 초기화부;상기 N개의 단말 중에서 임의 선택된 상태(sn)와 행동(am)에 대한 즉각적인 보상(R(sn,am))과, 현재 취한 행동(am)으로 인해 이동한 미래 상태(sn')의 선택 가능한 모든 행동(am')에 대응하는 Q값들 중 최대치(max(Q(sn',am'))를 이용하여 Q-러닝을 수행하여, 상기 Q 행렬 내의 Q(sn,am) 값을 업데이트하되, 상기 상태 및 행동의 임의 선택을 통해 Q-러닝을 반복 수행하면서 Q 행렬을 지속 업데이트하는 학습부; 및상기 업데이트가 완료된 Q 행렬 내에서 탐색한 최대 Q값에 대응된 하나의 중계기를 최적 중계기로 선정하는 결정부를 포함하며,상기 N개 단말 중 n,m=1인 단말은 상기 소스 단말, n,m=N인 단말은 상기 목적지 단말, 나머지 N-2개는 상기 K개의 중계기이며,상기 즉각적인 보상인 R은 상기 선택된 행동 및 상태에 따라 N×N 가지로 존재하고 R(sn,am)=R(n,m)로 설정되되, N×N 개의 즉각적인 보상 중에서, 송신측 단말과 수신측 단말이 동일한 경우(n=m=i)의 보상값 R(i,i)과, 상기 소스 단말과 상기 목적지 단말 간 직경로에 해당한 경우의 보상값 R(1,N), 그리고 상기 목적지 단말(n=N)이 송신측인 경우의 보상값 R(N,i)은 아래의 수학식과 같이 모두 '0'의 값으로 설정되는 중계기 선정 장치:여기서, i={1,…N}이다
|
8 |
8
청구항 7에 있어서,상기 즉각적인 보상 R은 SNR을 기반으로 아래 수학식에 의해 결정되는 중계기 선정 장치:여기서, SNRm는 m번째 수신측 단말에서의 SNR 값, d는 n번째 송신측 단말과 m번째 수신측 단말 사이의 거리, ρ는 자유 공간 경로 손실을 나타낸다
|
9 |
9
삭제
|
10 |
10
청구항 7에 있어서,상기 중계기가 송신측(n=2,…,N-1)이고 상기 목적지 단말이 수신측(m=N)인 경우의 보상값 R(i,N)(이때, i≠1,N)은,보상 R의 수학식에 설정 가중치가 추가로 가산된 값을 사용하는 중계기 선정 장치
|
11 |
11
청구항 7에 있어서,상기 Q 행렬 내의 Q(sn,am) 값은 아래 수학식에 의해 업데이트되는 중계기 선정 장치:여기서, New Q(sn,am)는 업데이트된 Q(sn,am) 값, (0003c#003c#1)는 학습률, (0003c#003c#1)는 할인 계수(discount factor)를 나타낸다
|
12 |
12
청구항 7에 있어서,상기 학습부는,상기 상태와 행동의 임의 선택 시에 Decaying ε-greedy 알고리즘을 적용하여 시간이 경과할수록 무작위 선택 행동의 확률을 감소시키는 중계기 선정 장치
|