1 |
1
정해진 방식을 이용한 우선순위에 기초하여 리플레이 버퍼로부터 데이터 배치를 샘플링하는 순위 설정 모듈, 그리고상기 순위 설정 모듈에 의해 샘플링된 데이터 배치를 이용하여 강화 학습을 수행하는 강화 학습 모듈을 포함하고,상기 순위 설정 모듈은,상기 강화 학습 모듈의 강화 학습 결과를 기초로 계산한 시간차(Temporal-Difference, TD) 오류를 이용하여 상기 우선순위를 업데이트하고, 업데이트한 우선순위에 기초하여 데이터 배치를 샘플링하는, 강화 학습 신경망 시스템
|
2 |
2
제1항에서,상기 순위 설정 모듈은,에이전트가 강화 학습 결과인 파라미터를 이용하여 수행한 액션을 통해 환경으로부터 취득한 보상을 이용하여 상기 시간차 오류를 계산하는, 강화 학습 신경망 시스템
|
3 |
3
제1항에서,상기 순위 설정 모듈은,상기 시간차 오류를 토대로, 상기 리플레이 버퍼로부터 에피소드를 선택할 확률을 통해 에피소드 우선순위를 설정하고, 에피소드 내에서 현재 상태, 액션 및 다음 상태로 구성된 전환 및 강화 학습의 목표의 쌍(Pair)을 선택할 확률인 목표 우선 순위를 설정하며,상기 에피소드 우선순위와 상기 목표 우선순위에 기초하여 현재 상태, 액션, 다음 상태, 목표로 구성된 데이터 배치를 샘플링하는, 강화 학습 신경망 시스템
|
4 |
4
제3항에서,상기 순위 설정 모듈은,에피소드의 평균 시간차 오류를 이용하여 상기 에피소드 우선순위를 설정하는, 강화 학습 신경망 시스템
|
5 |
5
제3항에서,상기 순위 설정 모듈은,전환 및 목표의 쌍(Pair)의 시간차 오류 크기를 이용하여 상기 목표 우선순위를 설정하는, 강화 학습 신경망 시스템
|
6 |
6
제3항에서,상기 순위 설정 모듈은,상기 우선순위 설정으로 인한 데이터 배치의 편향을 보정하기 위한 편향 보정 가중치를 설정하고, 설정한 편향 보정 가중치를 강화 학습 모듈에게 제공하고,상기 강화 학습 모듈은, 상기 편향 보정 가중치를 이용하여 강화 학습을 수행하는, 강화 학습 신경망 시스템
|
7 |
7
제6항에서,상기 순위 설정 모듈은,상기 에피소드 우선순위와 상기 목표 우선순위를 이용하여 상기 편향 보정 가중치를 설정하는, 강화 학습 신경망 시스템
|
8 |
8
적어도 하나의 프로세서에 의해 동작하는 강화 학습 신경망 시스템의 동작 방법으로서,정해진 기초하여 리플레이 버퍼로부터 데이터 배치를 샘플링하는 단계,상기 샘플링된 데이터 배치를 이용하여 강화 학습을 수행하는 단계,강화 학습 결과를 기초로 시간차(Temporal-Difference, TD) 오류 계산하는 단계,상기 시간차 오류를 이용하여 상기 우선순위를 업데이트하는 단계, 그리고업데이트한 우선순위에 기초하여 샘플링한 데이터 배치를 이용하여 강화 학습을 수행하는 단계를 포함하는, 방법
|
9 |
9
제8항에서,상기 업데이트한 우선순위에 기초하여 샘플링한 데이터 배치를 이용하여 강화 학습을 수행하는 단계는,상기 시간차 오류를 토대로, 상기 리플레이 버퍼로부터 에피소드를 선택할 확률을 통해 에피소드 우선순위를 설정하는 단계,에피소드 내에서 현재 상태, 액션 및 다음 상태로 구성된 전환 및 강화 학습의 목표의 쌍(Pair)을 선택할 확률인 목표 우선 순위를 설정하는 단계, 그리고상기 에피소드 우선순위와 상기 목표 우선순위에 기초하여 현재 상태, 액션, 다음 상태, 목표로 구성된 데이터 배치를 샘플링하는 단계를 포함하는, 방법
|
10 |
10
제9항에서, 상기 에피소드 우선순위와 상기 목표 우선순위에 기초하여 현재 상태, 액션, 다음 상태, 목표로 구성된 데이터 배치를 샘플링하는 단계 이후,상기 우선순위 설정으로 인한 데이터 배치의 편향을 보정하기 위한 편향 보정 가중치를 설정하는 단계, 그리고상기 편향 보정 가중치를 이용하여 강화 학습을 수행하는 단계를 더 포함하는, 방법
|
11 |
11
제10항에서, 상기 편향 보정 가중치를 설정하는 단계는,상기 에피소드 우선순위와 상기 목표 우선순위를 이용하여 상기 편향 보정 가중치를 설정하는, 방법
|