1 |
1
센서 입력들을 수신하는 단계;상기 센서 입력들에 따라 임의의 환경에 대응하는 복수의 상태들 중 제1 상태를 결정하는 단계;상기 제1 상태를 신경망(neural networks)에 입력하여, 상기 제1 상태에서 실행 가능한 액션들의 가치들(values)을 결정하는 단계;상기 가치들 중 상기 제1 상태에서의 보상(reward)을 최대화하는 가치에 대응하는 액션을 최적의 액션(optimal action)으로 결정하는 단계; 및 상기 최적의 액션에 기초하여 장치를 위한 제어 파라미터를 생성하는 단계를 포함하고, 상기 제1 상태는 상기 제1 상태에서 실행 가능한 후보 액션들에 의한 복수의 단순 상태들(simple states)을 포함하는 슈퍼 상태(super state)인,제어 파라미터를 생성하는 방법
|
2 |
2
제1항에 있어서, 상기 제1 상태를 결정하는 단계는상기 복수의 상태들, 상기 액션들 및 상기 액션들에 대응하는 보상들을 누적적으로 저장하는 장기 메모리, 및 상기 제1 상태 및 상기 제1 상태의 이전 상태들을 저장하는 단기 메모리 중 적어도 하나를 이용하여 상기 제1 상태를 결정하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
|
3 |
3
제1항에 있어서, 상기 제1 상태를 결정하는 단계는상기 센서 입력들에 대응하는 액션(action)을 선택하는 단계; 및 상기 선택된 액션의 실행에 기초하여 상기 제1 상태를 결정하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
|
4 |
4
제3항에 있어서, 상기 액션을 선택하는 단계는상기 환경에 대응하는 상태들 및 정책(policy)에 기초하여 상기 액션을 선택하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
|
5 |
5
제4항에 있어서, 상기 정책은상기 센서 입력들에 대응하는 액션들을 상태들에 맵핑하는 엡실론 그리디(Epsilon-Greedy) 정책을 포함하는, 제어 파라미터를 생성하는 방법
|
6 |
6
삭제
|
7 |
7
제1항에 있어서,상기 액션들의 가치들을 결정하는 단계는상기 액션 및 상기 액션에 대응하는 최대 가치에 기초하는 최적의 액션-가치 함수를 추정하는 함수 근사자(function approximator)를 이용하여 상기 액션들의 가치들을 결정하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
|
8 |
8
제7항에 있어서, 상기 최적의 액션-가치 함수는상기 제1 상태에서 미리 설정된 횟수만큼 상기 액션을 수행한 후에 임의의 정책을 따르는 경우에 달성 가능한 최대 기대 수익(maximum expected return)을 나타내는, 제어 파라미터를 생성하는 방법
|
9 |
9
제1항에 있어서, 상기 최적의 액션으로 결정하는 단계는상기 보상에 기초하여, 상기 보상을 최대화하는 가치에 대응하는 액션을 반복적으로 갱신함으로써 상기 제1 상태에서의 보상을 최대화하는 상기 최적의 액션을 결정하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
|
10 |
10
제1항에 있어서, 상기 최적의 액션으로 결정하는 단계는상기 제1 상태에서 최대 가치를 갖는 액션을 선택하는 단계;상기 제1 상태에서의 최대 가치와 상기 환경에서 상기 액션에 대응하는 보상을 사용하여 상기 액션의 가치를 갱신하는 단계; 및 상기 선택하는 단계 및 상기 갱신하는 단계를 반복적으로 수행함으로써 상기 제1 상태에서의 보상에 대응하는 최대로 할인된 보상을 획득하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
|
11 |
11
제1항에 있어서, 상기 센서 입력들은깊이 센서(depth sensor) 및 적어도 하나의 레인지 센서(range sensor)를 포함하는, 제어 파라미터를 생성하는 방법
|
12 |
12
제1항에 있어서, 상기 액션은강화 학습 에이전트(agent)에 의해 수행되고, 미리 설정된 정책(policy)에 기초하여 결정되는, 제어 파라미터를 생성하는 방법
|
13 |
13
제1항에 있어서, 상기 신경망은 컨볼루션 네트워크를 포함하는 심층 신경망을 포함하는, 제어 파라미터를 생성하는 방법
|
14 |
14
제1항에 있어서, 상기 신경망은 상기 액션의 선택을 위하여 미리 설정된 정책에 기초하여 동작할 수 있는 시간차 기반의 강화 학습 방법인 Q-learning 방법에 의해 학습되는, 제어 파라미터를 생성하는 방법
|
15 |
15
제1항에 있어서, 상기 보상은 최근접 장애물과의 거리에 기초하여 결정되는, 제어 파라미터를 생성하는 방법
|
16 |
16
제1항 내지 제5항, 및 제7항 내지 제15항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
|
17 |
17
센서 입력들을 수신하는 통신 인터페이스; 및 상기 센서 입력들에 따라 임의의 환경에 대응하는 복수의 상태들 중 제1 상태를 결정하고, 상기 제1 상태를 신경망에 입력하여, 상기 제1 상태에서 실행 가능한 액션들의 가치들을 결정하고, 상기 가치들 중 상기 제1 상태에서의 보상을 최대화하는 가치에 대응하는 액션을 최적의 액션으로 결정하며, 상기 최적의 액션에 기초하여 장치를 위한 제어 파라미터를 생성하는 프로세서를 포함하고, 상기 제1 상태는 상기 제1 상태에서 실행 가능한 후보 액션들에 의한 복수의 단순 상태들(simple states)을 포함하는 슈퍼 상태(super state)인,제어 파라미터를 생성하는 장치
|
18 |
18
제17항에 있어서, 상기 복수의 상태들, 상기 액션들 및 상기 액션들에 대응하는 보상들을 누적적으로 저장하는 장기 메모리; 및 상기 제1 상태 및 상기 제1 상태의 이전 상태들을 저장하는 단기 메모리를 포함하는 메모리중 적어도 하나를 더 포함하고, 상기 프로세서는 상기 메모리를 이용하여 상기 제1 상태를 결정하는, 제어 파라미터를 생성하는 장치
|
19 |
19
제17항에 있어서,상기 프로세서는상기 액션 및 상기 액션에 대응하는 최대 가치에 기초하는 최적의 액션-가치 함수를 추정하는 함수 근사자를 이용하여 상기 액션들의 가치들을 결정하는, 제어 파라미터를 생성하는 장치
|
20 |
20
제17항에 있어서, 상기 프로세서는상기 보상에 기초하여, 상기 보상을 최대화하는 가치에 대응하는 액션을 반복적으로 갱신함으로써 상기 제1 상태에서의 보상을 최대화하는 상기 최적의 액션을 결정하는, 제어 파라미터를 생성하는 장치
|