1 |
1
적어도 하나의 프로세서에 의해 수행되는, 딥 러닝을 이용하여 행동을 선택하는 방법에 있어서,현재 상태를 입력으로서 수신하는 단계;상기 현재 상태에 대해 수행할 수 있는 복수의 행동들 각각에 대한 가치 분포를 산출하는 단계;및상기 가치 분포를 이용하여 상기 복수의 행동들 중 최적의 행동을 선택하는 단계;를 포함하고,상기 가치 분포는 가우시안 분포를 따르는 적어도 하나의 가우시안 그래프를 포함하는 것을 특징으로 하는 방법
|
2 |
2
제1항에 있어서,상기 가치 분포를 산출하는 단계는,가치 분포 네트워크를 이용함으로써 상기 적어도 하나의 가우시안 그래프를 산출하는 단계;를 포함하고,상기 가치 분포 네트워크는 현재 상태(Current State)-행동(Action) 페어(pair) 별 가능한 가치 리턴에 대한 확률 분포를 정의하는 복수의 네트워크 파라미터들을 출력하도록 구성된 분포 신경망이고,상기 가치 리턴은 상기 현재 상태에 대해서 상기 행동을 수행한 결과 나타나는 가치의 추정치인 것을 특징으로 하는 방법
|
3 |
3
제2항에 있어서,상기 복수의 네트워크 파라미터들은 상기 적어도 하나의 가우시안 그래프 각각에 대한 확률 웨이트(Probability Weight), 가치 평균 값(Value Mean) 및 가치 표준 편차(Value Variance)를 포함하는 것을 특징으로 하는 방법
|
4 |
4
제1항에 있어서, 상기 가치 분포를 산출하는 단계는,상기 가치 분포를 생성하기 위한 가우시안 그래프의 개수를 수신하는 단계;수신한 상기 가우시안 그래프의 개수에 기초하여 가치 분포 네트워크를 이용하여 복수의 가우시안 그래프들을 산출하는 단계;및산출된 상기 복수의 가우시안 그래프들을 중첩시킴으로써 상기 가치 분포를 생성하는 단계;를 포함하는 것을 특징으로 하는 방법
|
5 |
5
제1항에 있어서, 상기 복수의 행동들 중 최적의 행동을 선택하는 단계는, 상기 복수의 행동들 각각에 대한 가치 분포 별 평균을 계산하는 단계;상기 평균이 가장 큰 가치 분포에 대응하는 행동을 최적의 행동으로 결정하는 단계;를 포함하는 것을 특징으로 하는 방법
|
6 |
6
제1항에 있어서,상기 가치 분포를 산출하는 단계는,웨이트 커널을 이용하여 상기 현재 상태에 대응하는 입력 피처맵에 대한 컨볼루션 연산을 수행하는 단계;및상기 컨볼루션 연산 생성되는 출력 피처맵의 구성들과 상기 복수의 행동들 각각에 대한 완전 연결을 통해 복수의 가우시안 그래프들을 생성하는 단계;를 포함하는 것을 특징으로 하는 방법
|
7 |
7
제6항에 있어서,상기 현재 상태에 대응하는 제1 가치 분포와 상기 현재 상태에 대한 계산 값에 대응하는 제2 가치 분포의 거리 차이를 최소화하기 위한 상기 웨이트 커널을 설정하는 단계;를 더 포함하는 것을 특징으로 하는 방법
|
8 |
8
제7항에 있어서,상기 제1 가치 분포는 상기 현재 상태의 가치 리턴들에 대응하는 복수의 제1 가우시안 그래프들로 구성되고,상기 제2 가치 분포는 상기 현재 상태의 다음 상태의 가치 리턴들과 상기 복수의 행동들의 가치 리턴들의 합에 대응하는 복수의 제2 가우시안 그래프들로 구성되는 것을 특징으로 하는 방법
|
9 |
9
제8항에 있어서,상기 웨이트 커널을 설정하는 단계는,미리 결정된 거리 계산 공식에 기초하여 상기 복수의 제1 가우시안 그래프들과 상기 복수의 제2 가우시안 그래프들 사이의 거리를 계산하는 단계;및상기 거리를 최소화하기 위한 상기 웨이트 커널을 결정하는 단계;를 포함하는 것을 특징으로 하는 방법
|
10 |
10
현재 상태를 수신하고, 딥 러닝 모델을 이용하여 상기 현재 상태에 대해 수행할 수 있는 복수의 행동들 각각에 대한 가치 분포를 산출하는 딥 러닝 모듈;및상기 가치 분포를 이용하여 상기 복수의 행동들 중 최적의 행동을 선택하는 포스트 프로세싱 모듈;를 포함하고,상기 가치 분포는 가우시안 분포를 따르는 적어도 하나의 가우시안 그래프를 포함하는 것을 특징으로 하는 뉴럴 네트워크 장치
|