1 |
1
자율적인 행동 학습(Q-Learning)을 이용한 협력 통신을 위한 릴레이 선택 장치에 있어서,상기 자율적인 행동 학습의 상태, 행동 및 보상에 대해, 선택된 협력 릴레이 개수를 상태로, 상기 릴레이 개수의 변화를 행동으로, 그리고 신호대잡음비(Signal-to-Noise Ratio: SNR)에 관한 함수값을 보상으로 설정하는 설정부;상기 자율적인 행동 학습의 상태에서 임의의 상태값 및 상기 선택된 상태값에서 가능한 하나 이상의 행동값을 선택하는 선택부;상기 선택된 상태값 및 행동값을 기초로 이에 대응하는 하나 이상의 보상값을 연산하는 연산부; 및상기 하나 이상의 보상값 중에서 최고의 보상값을 가지는 행동의 릴레이 개수를 최적의 릴레이 개수로 결정하는 제어부를 포함하되,상기 연산부는,아래 수학식에 따라 보상값을 업데이트 하는 협력 통신을 위한 릴레이 선택 장치:여기서, s는 현재 상태, s'는 미래 상태, a는 현재 행동 그리고 a'는 미래 행동을 그리고 r은 즉각적인 보상값을 의미하고, (0003c#003c#1)는 미래 상황이 현재의 학습에 미치는 영향을 결정하는 할인계수(Discount Factor)이다
|
2 |
2
청구항 2은(는) 설정등록료 납부시 포기되었습니다
|
3 |
3
청구항 3은(는) 설정등록료 납부시 포기되었습니다
|
4 |
4
삭제
|
5 |
5
제 1항에 있어서,상기 제어부는,상기 업데이트된 보상값인, Q-Value Q(s, a)으로 Q-Table을 생성하고,상기 최적의 릴레이 개수 결정에서 상기 Q-Table을 이용하는 협력 통신을 위한 릴레이 선택 장치
|
6 |
6
자율적인 행동 학습(Q-Learning)을 이용한 협력 통신을 위한 릴레이 선택 장치의 릴레이 선택 방법에 있어서,협력통신 네트워크의 이득을 최대화시키기 위해, 자율적인 행동 학습(Q-Learning)을 이용한 릴레이 선택 방법에 있어서,상기 자율적인 행동 학습의 상태, 행동 및 보상에 대해, 선택된 협력 릴레이 개수를 상태로, 상기 릴레이 개수의 변화를 행동으로, 그리고 신호대잡음비(Signal-to-Noise Ratio: SNR)에 관한 함수값을 보상으로 각각 설정하는 단계;상기 자율적인 행동 학습의 상태에서 임의의 상태값 및 상기 선택된 상태값에서 가능한 하나 이상의 행동값을 선택하는 단계;상기 선택된 상태값 및 행동값을 기초로 이에 대응하는 하나 이상의 보상값을 연산하는 단계; 및상기 하나 이상의 보상값 중에서 최고의 보상값을 가지는 행동의 릴레이 개수를 최적의 릴레이 개수로 결정하는 단계를 포함하되,상기 연산하는 단계에서,다음의 수학식에 따라 보상값을 업데이트 하는 협력 통신을 위한 릴레이 선택 방법:여기서, s는 현재 상태, s'는 미래 상태, a는 현재 행동, a'는 미래 행동을 그리고 r은 즉각적인 보상값을 의미하고, (0003c#003c#1)는 미래 상황이 현재의 학습에 미치는 영향을 결정하는 할인계수(Discount Factor)이다
|
7 |
7
청구항 7은(는) 설정등록료 납부시 포기되었습니다
|
8 |
8
청구항 8은(는) 설정등록료 납부시 포기되었습니다
|
9 |
9
삭제
|
10 |
10
제 6항에 있어서,상기 최적의 릴레이 개수로 결정하는 단계에서,상기 업데이트된 보상값인, Q-Value Q(s, a)으로 Q-Table을 생성하고,상기 최적의 릴레이 개수 결정에서 상기 Q-Table을 이용하는 협력 통신을 위한 릴레이 선택 방법
|