1 |
1
강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 방법에 있어서상기 환경 시스템으로부터 상태 정보(state)를 수신하는 단계;상기 상태 정보에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하고, Q 함수를 이용하여 제 2 액션(action)을 계산하는 단계;Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하는 단계;상기 환경 시스템에 상기 선택된 액션을 전달하는 단계;상기 선택된 액션에 기초하여 수행된 제어 동작 결과에 대한 보상(reward) 값을 수신하는 단계; 및상기 보상값에 기초하여 Q 네트워크를 업데이트하는 단계;를 포함하되, 초기 학습 단계에서는 상기 제 1 액션이 선택되고,상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부가 결정되고,상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
|
2 |
2
제 1항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,에러값이 임계 에러값보다 작고, 상기 에러값이 상기 임계 에러값보다 작다고 판단된 횟수가 임계 횟수과 동일한 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
|
3 |
3
제 2항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
|
4 |
4
제 1항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고,상기 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
|
5 |
5
제 4항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
|
6 |
6
제 1항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,상기 제 1 액션 값과 상기 제 2 액션 값이 동일하고,동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
|
7 |
7
제 1항에 있어서상기 알고리즘은 상기 환경 시스템에 대한 제어를 수행하고, 상기 초기 학습 단계 동안 상기 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당되는 것을 특징으로 초기 제어 동작의 품질을 확보하는 방법
|
8 |
8
제 7항에 있어서상기 알고리즘은 휴리스틱 알고리즘에 해당되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
|
9 |
9
강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 장치에 있어서상태 정보(state)에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하는 알고리즘 기반 액션 계산부;상기 상태 정보에 기초하여 Q 함수를 이용하여 제 2 액션(action)을 계산하는 Q 함수 기반 액션 계산부; 및Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하는 평가 및 업데이트부;를 포함하되, 상기 상태 정보는 상기 환경 시스템으로부터 수신되고,상기 환경 시스템에 상기 선택된 액션이 전달되는 경우,상기 평가 및 업데이트부는초기 학습 단계에서는 상기 제 1 액션을 선택하고,상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부를 결정하고,상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
|
10 |
10
제 9항에 있어서상기 평가 및 업데이트부는 상기 선택된 액션에 기초하여 수행된 제어 결과에 대한 보상(reward) 값을 수신하고, 상기 보상값에 기초하여 Q 네트워크를 업데이트하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
|
11 |
11
제 9항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,에러값이 임계 에러값보다 작고, 상기 에러값이 상기 임계 에러값보다 작다고 판단된 횟수가 임계값과 동일한 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
|
12 |
12
제 11항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
|
13 |
13
제 9항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고,상기 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
|
14 |
14
제 13항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
|
15 |
15
제 9항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,상기 제 1 액션 값과 상기 제 2 액션 값이 동일하고,동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
|
16 |
16
제 9항에 있어서상기 알고리즘은 상기 환경 시스템에 대한 제어를 수행하고, 상기 초기 학습 단계 동안 상기 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
|
17 |
17
강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 시스템에 있어서상기 강화학습 에이전트 장치로부터 선택된 액션에 기초하여 제어 동작을 수행하고, 상기 제어 동작 결과에 대한 보상(reward) 값을 생성하는 상기 환경 시스템; 및상기 강화학습 에이전트 장치;를 포함하되,상기 강화학습 에이전트 장치는 상기 환경 시스템으로부터 상태 정보(state)를 수신하고상기 상태 정보에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하고, Q 함수에 기초하여 제 2 액션(action)을 계산하고, Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하고,상기 환경 시스템에 상기 선택된 액션을 전달하고,상기 보상값을 수신하고, 상기 보상값에 기초하여 Q 네트워크를 업데이트하되초기 학습 단계에서는 상기 제 1 액션이 선택되고,상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부가 결정되고,상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 시스템
|