1 |
1
분포적 강화학습에서의 섭동 기반 탐색 장치가 수행하는 방법으로서,트랜지션(transition)과 탐색 조건 및 초기값이 포함된 탐색 정보를 입력받는 단계와,보상분포를 나타내는 확률변수에 대해 기댓값을 대체할 리스크 측도(risk measure)가 반영된 기댓값을 얻기 위한 요소인 섭동을 상기 탐색 정보의 모호집합으로부터 샘플링하는 단계와,상기 샘플링된 섭동에 기반하여 상기 탐색 정보로부터 상기 리스크 측도를 계산하는 단계와,상기 계산된 리스크 측도를 기반으로 하였을 때의 기댓값을 가장 최대로 만드는 행동을 설정한 후 이를 타켓으로 하여 벨만 업데이트를 진행하는 단계와,상기 벨만 업데이트가 진행된 결과를 탐색 결과로서 출력하는 단계를 포함하는분포적 강화학습에서의 섭동 기반 탐색 방법
|
2 |
2
제 1 항에 있어서,상기 탐색 조건은 디스카운트(discount), 타임스텝(timestep), 입실론(epsilon) 및 밀집도(concentration)를 포함하고,상기 리스크 측도는 상기 탐색 조건을 반영한 대칭적 디리클레 분포를 통해 구현된 상기 섭동의 집합이 함수로 포함된 가중평균식을 이용해 계산하는분포적 강화학습에서의 섭동 기반 탐색 방법
|
3 |
3
제 1 항에 있어서,상기 벨만 업데이트를 진행하는 단계는, 손실함수는 휴버 분위수 손실(huber quantile loss)을 사용하여 경사하강법을 통한 매개변수 업데이트를 진행하는분포적 강화학습에서의 섭동 기반 탐색 방법
|
4 |
4
분포적 강화학습에서의 섭동 기반 탐색을 위한 트랜지션(transition)과 탐색 조건 및 초기값이 포함된 탐색 정보를 입력받는 입력부와,상기 탐색 정보에 대한 섭동 기반 탐색을 수행하는 프로세서부와,상기 프로세서부에 의한 탐색 결과를 출력하는 출력부를 포함하고,상기 프로세서부는,보상분포를 나타내는 확률변수에 대해 기댓값을 대체할 리스크 측도(risk measure)가 반영된 기댓값을 얻기 위한 요소인 섭동을 상기 탐색 정보의 모호집합으로부터 샘플링하며,상기 샘플링된 섭동에 기반하여 상기 탐색 정보로부터 상기 리스크 측도를 계산하고,상기 계산된 리스크 측도를 기반으로 하였을 때의 기댓값을 가장 최대로 만드는 행동을 설정한 후 이를 타켓으로 하여 벨만 업데이트를 진행하며,상기 벨만 업데이트가 진행된 결과를 상기 탐색 결과로서 제공하는분포적 강화학습에서의 섭동 기반 탐색 장치
|
5 |
5
제 4 항에 있어서,상기 탐색 조건은 디스카운트, 타임스텝, 입실론 및 밀집도를 포함하고,상기 리스크 측도는 상기 탐색 조건을 반영한 대칭적 디리클레 분포를 통해 구현된 상기 섭동의 집합이 함수로 포함된 가중평균식을 이용해 계산하는분포적 강화학습에서의 섭동 기반 탐색 장치
|
6 |
6
제 4 항에 있어서,상기 벨만 업데이트를 진행할 때에, 손실함수는 휴버 분위수 손실을 사용하여 경사하강법을 통한 매개변수 업데이트를 진행하는분포적 강화학습에서의 섭동 기반 탐색 장치
|
7 |
7
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,분포적 강화학습에서의 섭동 기반 탐색을 위한 트랜지션과 탐색 조건 및 초기값이 포함된 탐색 정보를 입력받는 단계와,보상분포를 나타내는 확률변수에 대해 기댓값을 대체할 리스크 측도가 반영된 기댓값을 얻기 위한 요소인 섭동을 상기 탐색 정보의 모호집합으로부터 샘플링하는 단계와,상기 샘플링된 섭동에 기반하여 상기 탐색 정보로부터 상기 리스크 측도를 계산하는 단계와,상기 계산된 리스크 측도를 기반으로 하였을 때의 기댓값을 가장 최대로 만드는 행동을 설정한 후 이를 타켓으로 하여 벨만 업데이트를 진행하는 단계와,상기 벨만 업데이트가 진행된 결과를 탐색 결과로서 출력하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는,컴퓨터 판독 가능한 기록매체
|
8 |
8
컴퓨터 판독 가능 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,분포적 강화학습에서의 섭동 기반 탐색을 위한 트랜지션과 탐색 조건 및 초기값이 포함된 탐색 정보를 입력받는 단계와,보상분포를 나타내는 확률변수에 대해 기댓값을 대체할 리스크 측도가 반영된 기댓값을 얻기 위한 요소인 섭동을 상기 탐색 정보의 모호집합으로부터 샘플링하는 단계와,상기 샘플링된 섭동에 기반하여 상기 탐색 정보로부터 상기 리스크 측도를 계산하는 단계와,상기 계산된 리스크 측도를 기반으로 하였을 때의 기댓값을 가장 최대로 만드는 행동을 설정한 후 이를 타켓으로 하여 벨만 업데이트를 진행하는 단계와,상기 벨만 업데이트가 진행된 결과를 탐색 결과로서 출력하는 단계를 포함하는 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는,컴퓨터 프로그램
|