1 |
1
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계는,상기 랜덤 미니 배치(mini-batch)의 크기를 상기 리플레이 메모리의 크기 L에 해당하는 배수로 조정하는 단계를 포함하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
|
2 |
2
삭제
|
3 |
3
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 매개 변수를 업데이트하는 단계는,상기 리플레이 메모리를 대상으로, 드롭에서 제외되고 남은 배치로부터 상기 조정된 랜덤 미니 배치의 크기에 기초하여 샘플링을 수행하는 단계;샘플링된 배치에 기초하여 목적 함수를 계산하는 단계; 및계산된 목적 함수에 기초하여 상기 매개 변수를 업데이트하는 단계를 포함하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
|
4 |
4
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 리플레이 메모리(replay memory)에 저장하는 단계는,업데이트마다 생성되는 복수개의 상기 샘플의 정보 튜플 을 미리 지정된 배치 단위로 상기 리플레이 메모리에 저장하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
|
5 |
5
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 리플레이 메모리(replay memory)에 저장하는 단계는,업데이트마다 정책 최적화 기법(Proximal Policy Optimization, PPO)에 기초하여 생성되는 어드밴티지(advantage) 함수 , 상태 가치 , 가우시안(Gaussian) 신경망의 평균 및 표준편차 를 포함하도록 상기 샘플의 정보 튜플을 구성하여 상기 리플레이 메모리에 저장하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
|
6 |
6
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 매개 변수를 업데이트하는 단계는,상기 배치 드롭 계수보다 큰 배치를 업데이트에서 제외시키는 단계를 포함하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
|
7 |
7
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 비중 제어부는,상기 랜덤 미니 배치(mini-batch)의 크기를 상기 리플레이 메모리의 크기 L에 해당하는 배수로 조정하는 것을 포함하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
|
8 |
8
삭제
|
9 |
9
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 업데이트 제어부는,상기 리플레이 메모리를 대상으로, 드롭에서 제외되고 남은 배치로부터 상기 조정된 랜덤 미니 배치의 크기에 기초하여 샘플링을 수행하고, 샘플링된 배치에 기초하여 목적 함수를 계산하고, 계산된 목적 함수에 기초하여 상기 매개 변수를 업데이트하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
|
10 |
10
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 저장 제어부는,업데이트마다 생성되는 복수개의 상기 샘플의 정보 튜플 을 미리 지정된 배치 단위로 상기 리플레이 메모리에 저장하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
|
11 |
11
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 저장 제어부는,업데이트마다 정책 최적화 기법(Proximal Policy Optimization, PPO)에 기초하여 생성되는 어드밴티지(advantage) 함수 , 상태 가치 , 가우시안(Gaussian) 신경망의 평균 및 표준편차 를 포함하도록 상기 샘플의 정보 튜플을 구성하여 상기 리플레이 메모리에 저장하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
|
12 |
12
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 업데이트 제어부는,상기 배치 드롭 계수보다 큰 배치를 업데이트에서 제외시키는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
|