1 |
1
시뮬레이션을 이용한 강화 학습 방법에 있어서,에이전트의 목표 작업과 연계된 시뮬레이션 환경에 대한 제 1 조건 하에서 상기 에이전트의 상기 목표 작업에 대한 학습을 수행하는 단계; 및상기 시뮬레이션 환경에 대한 제 2 조건 하에서 상기 학습된 에이전트의 재학습(Re-train)을 수행하는 단계를 포함하고,상기 제 1 조건은, 상기 에이전트와 연계된 하드웨어가 상기 에이전트의 출력 액션이 지시하는 동작대로 작동하는 조건으로 정의되고,상기 제 2 조건은, 상기 에이전트의 출력 액션이 지시하는 동작과 상기 에이전트와 연계된 하드웨어의 동작 간에 오차가 존재하는 조건으로 정의되는,강화 학습 방법
|
2 |
2
제 1 항에 있어서,상기 학습을 수행하는 단계는,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하는 단계; 및상기 제 1 조건 하에서, 상기 에이전트와 연계된 하드웨어가 상기 출력 액션이 지시하는 동작대로 작동한 결과에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하는 단계를 포함하는,강화 학습 방법
|
3 |
3
제 2 항에 있어서,상기 학습을 수행하는 단계는,상기 다음 목표 상태와 상기 다음 상태를 비교하는 단계; 및상기 비교의 결과에 기반하여 상기 에이전트에게 리워드(reward)를 제공하는 단계를 더 포함하는,강화 학습 방법
|
4 |
4
제 1 항에 있어서,상기 재학습을 수행하는 단계는,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하는 단계;상기 제 2 조건 하에서, 상기 출력 액션이 지시하는 동작 및 상기 오차에 기반하여 상기 에이전트와 연계된 하드웨어의 동작을 결정하는 단계;결정된 상기 하드웨어의 동작에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하는 단계를 포함하는,강화 학습 방법
|
5 |
5
제 4 항에 있어서,상기 재학습을 수행하는 단계는,상기 다음 목표 상태와 상기 다음 상태를 비교하는 단계; 및상기 비교의 결과에 기반하여 상기 에이전트에게 리워드를 제공하는 단계를 더 포함하는,강화 학습 방법
|
6 |
6
제 1 항에 있어서,상기 재학습을 수행하는 단계는,상기 오차에 대한 확률 분포로부터 상기 오차를 샘플링하는 단계를 포함하는,강화 학습 방법
|
7 |
7
제 6 항에 있어서,상기 확률 분포는 상기 출력 액션에 대한 상기 하드웨어의 동작 오차의 확률 분포로서, 상기 출력 액션의 특성에 기반하여 결정되는,강화 학습 방법
|
8 |
8
제 1 항에 있어서,복수의 에피소드에 대하여 상기 재학습을 반복적으로 수행하는 단계를 더 포함하고,각 에피소드는 상기 시뮬레이션 환경의 현재 상태 및 상기 현재 상태에서의 상기 에이전트의 출력 액션의 데이터열에 대응하는,강화 학습 방법
|
9 |
9
제 8 항에 있어서,상기 재학습을 반복적으로 수행하는 단계는,각 에피소드마다 상기 오차를 확률적으로 샘플링하는 단계를 포함하는,강화 학습 방법
|
10 |
10
시뮬레이션을 이용한 강화 학습 장치에 있어서,상기 시뮬레이션을 실행하는 프로세서를 포함하고,상기 프로세서는,에이전트의 목표 작업과 연계된 시뮬레이션 환경에 대한 제 1 조건 하에서 상기 에이전트의 상기 목표 작업에 대한 학습을 수행하고,상기 시뮬레이션 환경에 대한 제 2 조건 하에서 상기 학습된 에이전트의 재학습을 수행하도록 구성되고,상기 제 1 조건은, 상기 에이전트와 연계된 하드웨어가 상기 에이전트의 출력 액션이 지시하는 동작대로 작동하는 조건으로 정의되고,상기 제 2 조건은, 상기 에이전트의 출력 액션이 지시하는 동작과 상기 에이전트와 연계된 하드웨어의 동작 간에 오차가 존재하는 조건으로 정의되는,강화 학습 장치
|
11 |
11
제 10 항에 있어서,상기 프로세서는,상기 학습을 수행하기 위하여,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하고,상기 제 1 조건 하에서, 상기 에이전트와 연계된 하드웨어가 상기 출력 액션이 지시하는 동작대로 작동한 결과에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하도록 구성되는,강화 학습 장치
|
12 |
12
제 11 항에 있어서,상기 프로세서는,상기 학습을 수행하기 위하여,상기 다음 목표 상태와 상기 다음 상태를 비교하고,상기 비교의 결과에 기반하여 상기 에이전트에게 리워드를 제공하도록 구성되는,강화 학습 장치
|
13 |
13
제 10 항에 있어서,상기 프로세서는,상기 재학습을 수행하기 위하여,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하고,상기 제 2 조건 하에서, 상기 출력 액션이 지시하는 동작 및 상기 오차에 기반하여 상기 에이전트와 연계된 하드웨어의 동작을 결정하고,결정된 상기 하드웨어의 동작에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하도록 구성되는,강화 학습 장치
|
14 |
14
제 13 항에 있어서,상기 프로세서는,상기 재학습을 수행하기 위하여,상기 다음 목표 상태와 상기 다음 상태를 비교하고,상기 비교의 결과에 기반하여 상기 에이전트에게 리워드를 제공하도록 구성되는,강화 학습 장치
|
15 |
15
제 10 항에 있어서,상기 프로세서는,상기 재학습을 수행하기 위하여,상기 오차에 대한 확률 분포로부터 상기 오차를 샘플링하도록 구성되는,강화 학습 장치
|
16 |
16
제 15 항에 있어서,상기 확률 분포는 상기 출력 액션에 대한 상기 하드웨어의 동작 오차의 확률 분포로서, 상기 출력 액션의 특성에 기반하여 결정되는,강화 학습 장치
|
17 |
17
제 10 항에 있어서,상기 프로세서는,복수의 에피소드에 대하여 상기 재학습을 반복적으로 수행하도록 구성되고,각 에피소드는 상기 시뮬레이션 환경의 현재 상태 및 상기 현재 상태에서의 상기 에이전트의 출력 액션의 데이터열에 대응하는,강화 학습 장치
|
18 |
18
제 17 항에 있어서,상기 프로세서는,상기 재학습을 반복적으로 수행하기 위하여,각 에피소드마다 상기 오차를 확률적으로 샘플링하도록 구성되는,강화 학습 장치
|