1 |
1
프로세서에 의해 수행되는, NFQ (Neural Fitted Q-Iteration) 기반의 강화 학습에 따른 행동 결정 방법으로서, 복수의 상태 전이 샘플 데이터를 기반으로, 현재 상태 (state) 및 행동 (action) 을 입력으로 가지고 상기 행동에 따른 Q 값을 출력으로 가지는 Q 값 함수를 인공 신경망에 훈련시키는 단계; 상기 Q 값 함수를 기반으로 소정 상태에서의 복수의 행동들에 따른 Q 값을 각각 산출하는 단계; 및상기 복수의 행동들 중 Q 값이 가장 큰 행동을 다음 행동으로 결정하는 단계를 포함하고, 상기 훈련시키는 단계는 학습 대상인 샘플 데이터의 시퀀스의 길이를 기반으로 다음 상태로의 전이 비용 (transition cost) 을 결정하는 것을 포함하고, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 길이 및 상기 시퀀스의 최종 상태 보상을 기반으로 결정되며, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 최종 상태 보상을 상기 시퀀스의 길이로 나눈 값에서 1 을 뺀 값으로 결정되는, 강화 학습에 따른 행동 결정 방법
|
2 |
2
제 1 항에 있어서, 상기 훈련시키는 단계는, 다음 상태가 최종 상태일 경우, 다음 상태의 보상 (Reward) 을 상기 Q 값으로 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 방법
|
3 |
3
제 1 항에 있어서, 상기 훈련시키는 단계는, 다음 상태가 최종 상태가 아닐 경우, 다음 상태로의 전이 비용 및 다음 상태의 최대 Q 값을 기반으로 상기 Q 값을 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 방법
|
4 |
4
제 1 항에 있어서, 상기 훈련시키는 단계는, 다음 상태가 최종 상태가 아닐 경우, 다음 상태로의 전이 비용과 디스카운트된 다음 상태의 최대 Q 값의 합을 상기 Q 값으로 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 방법
|
5 |
5
삭제
|
6 |
6
삭제
|
7 |
7
제 1 항에 있어서, 상기 최종 상태 보상은 정규화 (Normalize) 된 값인, 강화 학습에 따른 행동 결정 방법
|
8 |
8
제 1 항에 있어서, 상기 현재 상태는 현재까지 수행된 활동들을 나타내는, 강화 학습에 따른 행동 결정 방법
|
9 |
9
제 1 항에 있어서, 상기 행동은 현재 수행하고자 하는 활동을 나타내는, 강화 학습에 따른 행동 결정 방법
|
10 |
10
NFQ (Neural Fitted Q-Iteration) 기반의 강화 학습에 따른 행동 결정 장치로서, 상기 장치는 프로세서를 포함하고, 상기 프로세서는, 복수의 상태 전이 샘플 데이터를 기반으로, 현재 상태 (state) 및 행동 (action) 을 입력으로 가지고 상기 행동에 따른 Q 값을 출력으로 가지는 Q 값 함수를 인공 신경망에 훈련시키는 것; 상기 Q 값 함수를 기반으로 소정 상태에서의 복수의 행동들에 따른 Q 값을 각각 산출하는 것; 및상기 복수의 행동들 중 Q 값이 가장 큰 행동을 다음 행동으로 결정하는 것을 수행하도록 구성되고, 상기 훈련시키는 것은 학습 대상인 샘플 데이터의 시퀀스의 길이를 기반으로 다음 상태로의 전이 비용 (transition cost) 을 결정하는 것을 포함하고, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 길이 및 상기 시퀀스의 최종 상태 보상을 기반으로 결정되며, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 최종 상태 보상을 상기 시퀀스의 길이로 나눈 값에서 1 을 뺀 값으로 결정되는, 강화 학습에 따른 행동 결정 장치
|
11 |
11
제 10 항에 있어서, 상기 훈련시키는 것은, 다음 상태가 최종 상태일 경우, 다음 상태의 보상 (Reward) 을 상기 Q 값으로 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 장치
|
12 |
12
제 10 항에 있어서, 상기 훈련시키는 것은, 다음 상태가 최종 상태가 아닐 경우, 다음 상태로의 전이 비용 및 다음 상태의 최대 Q 값을 기반으로 상기 Q 값을 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 장치
|
13 |
13
제 10 항에 있어서, 상기 훈련시키는 것은, 다음 상태가 최종 상태가 아닐 경우, 다음 상태로의 전이 비용과 디스카운트된 다음 상태의 최대 Q 값의 합을 상기 Q 값으로 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 장치
|
14 |
14
삭제
|
15 |
15
삭제
|
16 |
16
제 10 항에 있어서, 상기 최종 상태 보상은 정규화 (Normalize) 된 값인, 강화 학습에 따른 행동 결정 장치
|
17 |
17
제 10 항에 있어서, 상기 현재 상태는 현재까지 수행된 활동들을 나타내는, 강화 학습에 따른 행동 결정 장치
|
18 |
18
제 10 항에 있어서, 상기 행동은 현재 수행하고자 하는 활동을 나타내는, 강화 학습에 따른 행동 결정 장치
|
19 |
19
컴퓨터 판독 가능한 저장 매체로서, NFQ (Neural Fitted Q-Iteration) 기반의 강화 학습에 따른 행동 결정을 수행하게 하기 위해, 상기 컴퓨터에 포함된 프로세서로 하여금, 복수의 상태 전이 샘플 데이터를 기반으로, 현재 상태 (state) 및 행동 (action) 을 입력으로 가지고 상기 행동에 따른 Q 값을 출력으로 가지는 Q 값 함수를 인공 신경망에 훈련시키도록 하기 위한 명령어; 상기 Q 값 함수를 기반으로 소정 상태에서의 복수의 행동들에 따른 Q 값을 각각 산출하도록 하기 위한 명령어; 및상기 복수의 행동들 중 Q 값이 가장 큰 행동을 다음 행동으로 결정하도록 하기 위한 명령어를 저장하고, 상기 훈련시키도록 하기 위한 명령어에는 학습 대상인 샘플 데이터의 시퀀스의 길이를 기반으로 다음 상태로의 전이 비용 (transition cost) 을 결정하는 명령어를 포함하고, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 길이 및 상기 시퀀스의 최종 상태 보상을 기반으로 결정되며, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 최종 상태 보상을 상기 시퀀스의 길이로 나눈 값에서 1 을 뺀 값으로 결정되는, 컴퓨터 판독 가능한 저장 매체
|