1 |
1
자율주행차량과 비 자율주행차량들이 운행하는 원형 도로의 환경에서 자율주행차량 학습을 위한 복수의 심층강화학습 중 하나의 알고리즘 및 보상함수를 선택하는 단계;선택된 심층강화학습 알고리즘에 따라 심층신경망 구조를 결정하는 단계;선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보와 보상 정보를 기초로 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계; 및자율주행차량의 행동을 결정하는 학습된 정책을 기반으로 자율주행차량을 운행하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법
|
2 |
2
제1항에 있어서, 상기 복수의 심층강화학습 알고리즘 중 하나의 알고리즘을 선택하는 단계는,자율주행차량 학습을 위해 PPO, DDPG, TD3 및 심층강화학습 알고리즘 중 하나의 심층강화학습 알고리즘 및 심층신경망 구조를 선택하는 단계;선택된 심층강화학습 알고리즘에 따른 시뮬레이터(simulator)와 알고리즘에 대해 각각의 파라미터를 설정하는 단계; 및해당 심층강화학습 알고리즘의 심층신경망을 구성하는 파라미터를 초기화하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법
|
3 |
3
제1항에 있어서, 상기 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계는,선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보를 획득하는 단계; 상태 정보에 따른 자율주행차량의 행동을 결정하는 단계; 자율주행차량의 행동에 따른 보상 정보를 획득하는 단계;자율주행차량의 행동에 따라 변화된 도로의 상태 정보를 획득하는 단계; 및보상 정보를 바탕으로 심층신경망을 업데이트 하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법
|
4 |
4
제3항에 있어서, 상기 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계는,심층신경망의 변화가 기준치 이상인지 판단하는 단계; 및심층신경망의 변화가 기준치 이상인 경우 정책의 학습을 종료하고, 심층신경망의 변화가 기준치 미만인 경우 정책의 학습을 지속하기 위하여 자율주행차량의 행동을 결정하는 단계;를 더 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법
|
5 |
5
제1항에 있어서, 상기 자율주행차량의 행동은 가속도이며, 유한한 행동 공간은 음의 실수인 최소 가속도부터 양의 실수인 최대 가속도까지의 실수 집합인, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법
|
6 |
6
제1항에 있어서, 상기 보상함수는, 목표 속도에 가까울수록 큰 값을 갖는 보상 항(reward term) 및 미리 설정된 임계값(threshold)과 자율주행차량의 가속도의 절대값 사이의 차이를 이용하는 처벌 항(penalty term)을 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법
|
7 |
7
제1항에 있어서, 상기 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 단계는,각 시간마다 자율주행차량의 상태 정보를 획득하는 단계;획득한 상태 정보에서 행동을 선택하여 수행하는 단계;수행한 행동에 따른 보상 정보 및 다음 시간의 상태 정보를 획득하는 단계; 및획득한 상태 정보, 행동 정보, 보상 정보 및 다음 시간의 상태 정보를 각 알고리즘에 따른 목적함수(objective function)에 기초하여 네트워크 및 목표 네트워크를 포함하는 심층신경망을 업데이트하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법
|
8 |
8
제1항에 있어서, 상기 자율주행차량을 운행하는 단계는,자율주행차량의 상태 정보를 획득하는 단계;획득된 상태 정보에 따라 자율주행차량의 행동을 결정하는 단계; 및운행 종료 조건이 있는 경우, 운행을 종료하는 단계;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법
|
9 |
9
제1항에 따른 상기 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체
|
10 |
10
자율주행차량과 비 자율주행차량들이 운행하는 원형 도로의 환경에서 자율주행차량 학습을 위한 복수의 심층강화학습 알고리즘 중 하나의 알고리즘을 선택하는 알고리즘 선택부;자율주행차량 학습을 위한 특정 상태에서 수행한 행동에 따른 보상 정보를 획득하기 위한 보상함수를 결정하는 보상함수 결정부;선택된 심층강화학습 알고리즘에 따라 심층신경망 구조를 결정하는 심층신경망 구조 결정부;선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보와 보상 정보를 기초로 자율주행차량의 속도가 등속주행에 가장 가깝게 하는 정책을 학습하는 정책 학습부; 및자율주행차량의 행동을 결정하는 학습한 정책을 기반으로 자율주행차량을 운행하는 정책 활용부;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치
|
11 |
11
제10항에 있어서, 상기 알고리즘 선택부는,자율주행차량 학습을 위해 PPO, DDPG, TD3 및 심층강화학습 알고리즘 중 하나의 심층강화학습 알고리즘 및 심층신경망 구조를 선택하고, 선택된 심층강화학습 알고리즘에 따른 시뮬레이터(simulator)와 알고리즘에 대해 각각의 파라미터를 설정한 후, 해당 심층강화학습 알고리즘의 심층신경망을 구성하는 파라미터를 초기화하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치
|
12 |
12
제10항에 있어서, 상기 정책 학습부는,선택된 심층강화학습 알고리즘을 이용하여, 정해진 각 시간마다 자율주행차량의 속도 및 자율주행차량과 자율주행차량이 관측 가능한 차량 사이의 상대속도와 상대위치를 포함하는 상태 정보를 획득하여, 상태 정보에 따른 자율주행차량의 행동을 결정하는 제1 행동 결정부; 자율주행차량의 행동에 따른 보상 정보를 획득하는 보상 정보 획득부;자율주행차량의 행동에 따라 변화된 상태 정보를 획득하는 제1 상태 정보 획득부; 및보상 정보를 바탕으로 심층신경망을 업데이트 하는 심층신경망 업데이트부;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치
|
13 |
13
제12항에 있어서, 상기 정책 학습부는,심층신경망의 변화가 기준치 이상인지 판단하여, 심층신경망의 변화가 기준치 이상인 경우 정책의 학습을 종료하고, 심층신경망의 변화가 기준치 미만인 경우 정책의 학습을 지속하기 위하여 자율주행차량의 행동을 결정하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치
|
14 |
14
제10항에 있어서, 상기 자율주행차량의 행동은 가속도이며, 유한한 행동 공간은 음의 실수인 최소 가속도부터 양의 실수인 최대 가속도까지의 실수 집합인, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치
|
15 |
15
제10항에 있어서, 상기 보상함수는, 목표 속도에 가까울수록 큰 값을 갖는 보상 항(reward term) 및 미리 설정된 임계값(threshold)과 자율주행차량의 가속도의 절대값 사이의 차이를 이용하는 처벌 항(penalty term)을 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치
|
16 |
16
제10항에 있어서, 상기 정책 학습부는,미래의 누적 보상을 최대로 만드는 특정 상태에서 가능한 행동의 분포를 나타내는 확률적 또는 결정론적 정책을 결정하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치
|
17 |
17
제10항에 있어서, 상기 정책 활용부는,자율주행차량의 상태 정보를 획득하는 제2 상태 정보 획득부; 및획득된 상태 정보에 따라 자율주행차량의 행동을 결정하고, 운행 종료 조건이 있는 경우, 운행을 종료하는 제2 행동 결정부;를 포함하는, 심층강화학습기반 자율주행차량을 이용한 정체 현상 해결 장치
|