1 |
1
신규한 가중치를 이용한 센터링 연산을 적용한 강화 학습 방법에 있어서,(a) 컴퓨팅 장치가, 강화 학습 에이전트로 하여금, k가 1인 경우 소정의 제k 행동 추정용 확률 분포를 참조로 하고 k가 2 이상인 경우 제k-1행동이 선택됨으로써 생성된 제k 행동 추정용 확률 분포를 참조로 하여, 상기 강화 학습 에이전트가 제k 행동을 선택하기 위한 제k 추정 파라미터를 결정하도록 하는 단계;(b) 상기 컴퓨팅 장치가, 상기 강화 학습 에이전트로 하여금, (i) 상기 제k 추정 파라미터 및 (ii) 상기 강화 학습 에이전트가 상기 k 번째 행동으로서 선택 가능한 N개 - N은 2이상의 정수임- 의 행동 후보군과 관련된 공변량을 나타내는 제k 컨텍스트를 참조로 하여 상기 N개의 행동 후보군들 중 하나의 행동 후보군을 제k 행동으로서 선택하도록 하는 단계;(c) 상기 N개의 행동 후보군들 각각이 제k 행동으로 선택될 확률에 대응하는 제k 행동 확률이 획득되면, 상기 컴퓨팅 장치가, 상기 강화 학습 에이전트로 하여금 상기 제k 행동 확률을 가중치로 사용하여 상기 제k 컨텍스트의 제k 가중 평균을 생성하고, 상기 제k 가중 평균을 이용하여 각각의 상기 제k 컨텍스트에 결과 값들의 평균이 조정되도록 하는 상기 센터링 연산을 적용함으로써 제k 조정 컨텍스트를 생성하도록 하는 단계; 및(d) 상기 제k 행동에 의한 제k 보상 값이 획득되면, 상기 컴퓨팅 장치가, 상기 강화 학습 에이전트로 하여금, 상기 제k 조정 컨텍스트, 상기 제k 행동 확률 및 상기 제k 보상 값을 이용하여 제k+1 행동 추정용 확률 분포를 생성하도록 하는 단계;를 포함하는 것을 특징으로 하는 방법
|
2 |
2
제 1항에 있어서,상기 (b) 단계에서,상기 강화 학습 에이전트는, 상기 제k 행동이 될 수 있는 상기 N개의 행동 후보군 중 하나의 행동 후보군 번호 를 다음 수식에 의해 결정하고,는 상기 제k 행동 선택을 위한 상기 제k 추정 파라미터를 의미하고, - i는 1 이상 N 이하인 정수임 - 은 상기 N개의 행동 후보군과 관련된 공변량을 나타내는 상기 제k 컨텍스트를 의미하는 것을 특징으로 하는 방법
|
3 |
3
제 1항에 있어서,상기 (c) 단계에서,상기 강화 학습 에이전트가 다음 수식에 따라 상기 제k 컨텍스트들에 센터링 연산을 적용하고, 는 상기 제k 조정 컨텍스트, 는 상기 제k 컨텍스트, 는 상기 제k 가중 평균, 는 1 이상 N 이하의 정수인 것을 의미하는 것을 특징으로 하는 방법
|
4 |
4
제 1항에 있어서,상기 (c) 단계에서,상기 강화 학습 에이전트가 다음 수식에 따라 상기 제k 가중 평균을 계산하고,는 i번째 행동 후보의 제k 행동 확률이고, 는 제k 컨텍스트인 것을 특징으로 하는 방법
|
5 |
5
제 1항에 있어서,상기 (d) 단계에서,상기 강화 학습 에이전트는, 상기 제k 조정 컨텍스트 및 상기 제k 행동 확률을 이용하여 제k 회귀 파라미터 행렬을 조정함으로써 제k+1 회귀 파라미터 행렬을 생성하고, 상기 제k 조정 컨텍스트 및 상기 제k 보상 값을 이용하여 제k 종속 변수를 조정함으로써 제k+1 종속 변수를 생성하며, 상기 제k+1 회귀 파라미터 행렬 및 제k+1 종속 변수를 참조로 하여 상기 제k+1 행동 추정용 확률 분포를 생성하는 것을 특징으로 하되,상기 제k 회귀 파라미터 행렬은, 선형 회귀 추정을 위해 사용되는 회귀 파라미터들로 이루어진 행렬이고, 상기 제k 종속 변수는 선형 회귀 추정의 대상이 되는 변수인 것을 특징으로 하는 방법
|
6 |
6
제 5항에 있어서,상기 강화 학습 에이전트는, 상기 제k 회귀 파라미터 행렬을 다음 수식에 의해 조정하고,상기 수식에서 은 상기 제k+1 회귀 파라미터 행렬을 의미하고, 는 조정되기 전의 상기 제k 회귀 파라미터 행렬을 의미하며, 는 선택된 상기 제k 행동에 대응되는 제k 조정 컨텍스트를 의미하고, 는 상기 제k 행동에 대응되는 i번째 행동 후보군에 대한 상기 제k 행동 확률을 의미하며, 는 상기 제k 행동에 대응되는 상기 i번째 행동 후보군에 대한 상기 제k 조정 컨텍스트를 의미하는 것을 특징으로 하는 방법
|
7 |
7
제 6항에 있어서,상기 k가 1인 경우의 제1 회귀 파라미터 행렬은 제1 컨텍스트와 같은 차원을 가진 단위 행렬인 것을 특징으로 하는 방법,
|
8 |
8
제 5항에 있어서,상기 강화 학습 에이전트는, 상기 종속 변수를 다음 수식에 의해 조정하고,은 상기 제k+1 종속 변수를 의미하고, 는 조정되기 전의 상기 제k 종속 변수를 의미하며, 는 상기 제k 행동에 대응되는 제k 조정 컨텍스트를 의미하고, 는 상기 k번째 행동에 대응되는 제k 보상 값을 의미하는 것을 특징으로 하는 방법
|
9 |
9
제 8항에 있어서,상기 k가 1인 경우의 제1 종속 변수는 제1 컨텍스트와 같은 차원을 가진 0벡터인 것을 특징으로 하는 방법
|
10 |
10
제 5항에 있어서,상기 (d) 단계에서,상기 강화 학습 에이전트는, 다음 수식에 따라 제k+1 행동 추정용 확률 분포를 생성하고,는 조정된 제k+1 회귀 파라미터, 는 조정된 제k+1 종속 변수를 의미하고, 는 탐색의 정도와 연관되는 기설정된 분산 조절 값을 의미하는 것을 특징으로 하는 방법
|
11 |
11
신규한 가중치를 이용한 센터링 연산을 적용한 강화 학습 컴퓨팅 장치에 있어서,통신부; 및(I) 강화 학습 에이전트로 하여금, k가 1인 경우 소정의 제k 행동 추정용 확률 분포를 참조로 하고 k가 2 이상인 경우 제k-1행동이 선택됨으로써 생성된 제k 행동 추정용 확률 분포를 참조로 하여, 상기 강화 학습 에이전트가 제k 행동을 선택하기 위한 제k 추정 파라미터를 결정하도록 하는 프로세스; (II) 상기 강화 학습 에이전트로 하여금, (i) 상기 제k 추정 파라미터 및 (ii) 상기 강화 학습 에이전트가 상기 k 번째 행동으로서 선택 가능한 N개 - N은 2이상의 정수임- 의 행동 후보군과 관련된 공변량을 나타내는 제k 컨텍스트를 참조로 하여 상기 N개의 행동 후보군들 중 하나의 행동 후보군을 제k 행동으로서 선택하도록 하는 프로세스; (III) 상기 N개의 행동 후보군들 각각이 제k 행동으로 선택될 확률에 대응하는 제k 행동 확률이 획득되면, 상기 강화 학습 에이전트로 하여금 상기 제k 행동 확률을 가중치로 사용하여 상기 제k 컨텍스트의 제k 가중 평균을 생성하고, 상기 제k 가중 평균을 이용하여 각각의 상기 제k 컨텍스트에 결과 값들의 평균이 조정되도록 하는 상기 센터링 연산을 적용함으로써 제k 조정 컨텍스트를 생성하도록 하는 프로세스; 및 (IV) 상기 제k 행동에 의한 제k 보상 값이 획득되면, 상기 강화 학습 에이전트로 하여금, 상기 제k 조정 컨텍스트, 상기 제k 행동 확률 및 상기 제k 보상 값을 이용하여 제k+1 행동 추정용 확률 분포를 생성하도록 하는 프로세스; 를 수행하는 프로세서;를 포함하는 것을 특징으로 하는 컴퓨팅 장치
|
12 |
12
제 11항에 있어서,상기 (II) 프로세스에서,상기 강화 학습 에이전트는, 상기 제k 행동이 될 수 있는 상기 N개의 행동 후보군 중 하나의 행동 후보군 번호 를 다음 수식에 의해 결정하고,는 상기 제k 행동 선택을 위한 상기 제k 추정 파라미터를 의미하고, - i는 1 이상 N 이하인 정수임 - 은 상기 N개의 행동 후보군과 관련된 공변량을 나타내는 상기 제k 컨텍스트를 의미하는 것을 특징으로 하는 컴퓨팅 장치
|
13 |
13
제 11항에 있어서,상기 (III) 프로세스에서,상기 강화 학습 에이전트가 다음 수식에 따라 상기 제k 컨텍스트들에 센터링 연산을 적용하고, 는 상기 제k 조정 컨텍스트, 는 상기 제k 컨텍스트, 는 상기 제k 가중 평균, 는 1 이상 N 이하의 정수인 것을 의미하는 것을 특징으로 하는 컴퓨팅 장치
|
14 |
14
제 11항에 있어서,상기 (III) 프로세스에서,상기 강화 학습 에이전트가 다음 수식에 따라 상기 제k 가중 평균을 계산하고,는 i번째 행동 후보의 제k 행동 확률이고, 는 제k 컨텍스트인 것을 특징으로 하는 컴퓨팅 장치
|
15 |
15
제 11항에 있어서,상기 (IV) 프로세스에서,상기 강화 학습 에이전트는, 상기 제k 조정 컨텍스트 및 상기 제k 행동 확률을 이용하여 제k 회귀 파라미터 행렬을 조정함으로써 제k+1 회귀 파라미터 행렬을 생성하고, 상기 제k 조정 컨텍스트 및 상기 제k 보상 값을 이용하여 제k 종속 변수를 조정함으로써 제k+1 종속 변수를 생성하며, 상기 제k+1 회귀 파라미터 행렬 및 제k+1 종속 변수를 참조로 하여 상기 제k+1 행동 추정용 확률 분포를 생성하는 것을 특징으로 하되,상기 제k 회귀 파라미터 행렬은, 선형 회귀 추정을 위해 사용되는 회귀 파라미터들로 이루어진 행렬이고, 상기 제k 종속 변수는 선형 회귀 추정의 대상이 되는 변수인 것을 특징으로 하는 컴퓨팅 장치
|
16 |
16
제 15항에 있어서,상기 강화 학습 에이전트는, 상기 제k 회귀 파라미터 행렬을 다음 수식에 의해 조정하고,상기 수식에서 은 상기 제k+1 회귀 파라미터 행렬을 의미하고, 는 조정되기 전의 상기 제k 회귀 파라미터 행렬을 의미하며, 는 선택된 상기 제k 행동에 대응되는 제k 조정 컨텍스트를 의미하고, 는 상기 제k 행동에 대응되는 i번째 행동 후보군에 대한 상기 제k 행동 확률이며, 는 상기 제k 행동에 대응되는 상기 i번째 행동 후보군에 대한 상기 제k 조정 컨텍스트를 의미하는 것을 특징으로 하는 컴퓨팅 장치
|
17 |
17
제 16항에 있어서,상기 k가 1인 경우의 제1 회귀 파라미터 행렬은 제1 컨텍스트와 같은 차원을 가진 단위 행렬인 것을 특징으로 하는 컴퓨팅 장치
|
18 |
18
제 15항에 있어서,상기 강화 학습 에이전트는, 상기 종속 변수를 다음 수식에 의해 조정하고,은 상기 제k+1 종속 변수를 의미하고, 는 조정되기 전의 상기 제k 종속 변수를 의미하며, 는 상기 제k 행동에 대응되는 제k 조정 컨텍스트를 의미하고, 는 상기 k번째 행동에 대응되는 제k 보상 값을 의미하는 것을 특징으로 하는 컴퓨팅 장치
|
19 |
19
제 18항에 있어서,상기 k가 1인 경우의 제1 종속 변수는 제1 컨텍스트와 같은 차원을 가진 0벡터인 것을 특징으로 하는 컴퓨팅 장치
|
20 |
20
제 15항에 있어서,상기 (IV) 프로세스에서,상기 강화 학습 에이전트는, 다음 수식에 따라 제k+1 행동 추정용 확률 분포를 생성하고, 는 조정된 제k+1 회귀 파라미터, 는 조정된 제k+1 종속 변수를 의미하고, 는 탐색의 정도와 연관되는 기설정된 분산 조절 값을 의미하는 것을 특징으로 하는 컴퓨팅 장치
|