1 |
1
SUMO(Simulation of Urban MObility)를 활용하여 시뮬레이션 환경을 구축하고, 자율 주행 차량의 속도,위치,센서에서 얻어진 데이터를 FLOW 적용부로 전달하는 SUMO 시뮬레이션 실행부;SUMO와 연동할 수 있는 강화학습 플랫폼 FLOW 환경에서 시뮬레이션 환경을 구축하고, 강화학습을 적용하지 않은 운전 행태 도출, 차량 제어 및 시뮬레이션 상태 업데이트를 하여 상태 및 보상 정보를 강화학습 라이브러리 환경 구축부로 전달하는 FLOW 적용부;SUMO와 연동할 수 있는 강화학습 플랫폼 FLOW를 활용하여 멀티 에이전트 심층강화학습(Multi agent Deep Reinforcement Learning)으로 통행 제어를 최적화하는 강화학습 라이브러리 환경 구축부;를 포함하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
2 |
2
제 1 항에 있어서, SUMO 시뮬레이션 실행부는,SUMO(Simulation of Urban MObility)를 활용하여 시뮬레이션 환경을 구축하여 SUMO 시뮬레이션을 수행하는 SUMO 시뮬레이션부와,배기가스, 속도 및 위치값 파일을 생성하여 자율 주행 차량의 속도,위치,센서에서 얻어진 데이터를 FLOW 적용부로 전달하는 결과 파일생성부를 포함하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
3 |
3
제 1 항에 있어서, SUMO 시뮬레이션 실행부는 군집 차량이 비신호 교차로에 접근하여 네 가지 다른 방향을 따라 직진 주행하는 상황에서,1% ~ 100%의 AV 보급률에 대한 결과를 10% 단위로 제시하고, 비신호 교차로에서 모든 차량에 대해 차선 변경과 좌회전을 무시하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
4 |
4
제 1 항에 있어서, FLOW 적용부는,인간운전자 정의, 심층 강화학습 입력값 설정 및 차량의 속도, 가속도, 출발점을 포함하는 시뮬레이션 환경 설정을 하는 시뮬레이션 초기화부와,FLOW 환경 구축을 하여 상태(state)를 강화학습 라이브러리로 전달하는 FLOW 환경 구축부와,강화학습을 적용하지 않은 운전 행태 도출을 하는 운행행태 도출부와,차량 제어를 하고 제어 정보를 SUMO 시뮬레이션 실행부로 전달하는 차량 제어 모듈과,SUMO 시뮬레이션 실행부로부터 시뮬레이션 상태를 받아 시뮬레이션 상태 업데이트를 하여 상태 및 보상 정보를 강화학습 라이브러리 환경 구축부로 전달하는 업데이트부를 포함하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
5 |
5
제 1 항에 있어서, 강화학습 라이브러리 환경 구축부는,FLOW 적용부로부터 상태(state)를 전달받는 강화학습 라이브러리와,학습할 데이터를 샘플링하는 데이터 샘플링부와,운전 행태(정책) 훈련을 하는 정책 훈련부와,훈련 결과를 평가하고 학습된 행태를 FLOW 적용부로 전달하는 훈련 결과 평가부와,자율주행차량이 관찰할 수 있는 범위 내의 정보를 통하여 학습하는 방법으로 강화학습과 마르코프 의사결정 모델 사용(Partial Observability MDP, POMDP)을 적용하여 행동에 대한 강화학습의 보상을 최대화할 수 있도록 하는 정책 최적화부를 포함하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
6 |
6
제 5 항에 있어서, 강화학습 라이브러리 환경 구축부는,FLOW 적용부로부터 자율 주행 차량의 상태를 받아 정책 업데이트 및 저장을 하는 정책 업데이트 저장부와,업데이트된 정책이 학습 루프 조건을 만족하는지 판단하는 학습 루프조건 판단부를 더 포함하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
7 |
7
제 5 항에 있어서, 강화학습 라이브러리 환경 구축부는,정책 최적화(Policy Optimization)를 위하여 동작 값이나 상태 값 함수가 아닌 경사 강하 알고리즘을 사용하여 매개 변수화된 정책 함수의 추정기를 계산하는 정책 경사 방법(Policy gradient methods)을 적용하여,비선형 근사 및 부분 관측으로 인해 추정 함수에 발생하는 수렴 문제를 피하도록 하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
8 |
8
제 7 항에 있어서, 강화학습 라이브러리 환경 구축부는,비신호화된 교차로의 시뮬레이션에서 제어 정책을 직접 최적화하기 위해 MLP(multilayer perceptron)정책을 적용하고,정책 행동()의 확률에 대한 기대치와 시간 스텝 t에서의 어드밴티지 함수(advantage function)의 추정치에 기초하는 정책 경사법은,으로 정의하고,여기서, 는 유한한 표본 배치에 대한 기대 연산자, 는 확률적 정책, 는 디스카운트된 보상 합계와 기준 추정치로 정의되며, 와 는 시간 스텝 t의 행동과 상태인 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
9 |
9
제 5 항에 있어서, 강화학습 라이브러리 환경 구축부는,훈련 과정 중 성능 저하를 방지하기 위하여 대리 손실 함수를 채택하여 정책 업데이트를 생성하는 PPO(Proximal policy optimization)를 적용하고,대리 객체()는 으로 정의되고,는 업데이트 전 정책 매개 변수, 는 업데이트 후 정책 매개 변수, 는 확률비인 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
10 |
10
제 9 항에 있어서, 연속 행동의 경우 PPO의 정책 출력은 각 행동에 대한 가우스 분포의 매개 변수이고, 적응형 KL 패널티를 가진 PPO는 미니 배치(minibatch) 확률적 경사 하강(SGD)을 사용하여 KL 페널티 목표를 최적화하는 데 사용되고,,여기서, 는 매 정책 업데이트 후 업데이트되는 가중 조절 계수(weight control coefficient)인 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
11 |
11
제 10 항에 있어서, 현재 KL 차이가 목표 KL 편차보다 클 경우 증가되고, 현재 KL 발산이 목표 KL 발산보다 작으면 감소되고,PPO 알고리즘에서 먼저 현재 정책이 환경과 상호 작용하여 에피소드 시퀀스를 생성하고, 어드밴티지 함수(advantage function)는 상태 값에 대한 기준 추정치를 사용하여 추정되어 모든 경험을 수집하고 정책 네트워크를 통해 경사 하강 알고리즘을 실행하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치
|
12 |
12
SUMO(Simulation of Urban MObility)를 활용하여 시뮬레이션 환경을 구축하고, 자율 주행 차량의 속도,위치,센서에서 얻어진 데이터를 FLOW 적용부로 전달하는 SUMO 시뮬레이션 실행 단계;SUMO와 연동할 수 있는 강화학습 플랫폼 FLOW 환경에서 시뮬레이션 환경을 구축하고, 강화학습을 적용하지 않은 운전 행태 도출, 차량 제어 및 시뮬레이션 상태 업데이트를 하여 상태 및 보상 정보를 강화학습 라이브러리 환경 구축부로 전달하는 FLOW 적용 단계;SUMO와 연동할 수 있는 강화학습 플랫폼 FLOW를 활용하여 멀티 에이전트 심층강화학습(Multi agent Deep Reinforcement Learning)으로 통행 제어를 최적화하는 강화학습 라이브러리 환경 구축 단계;를 포함하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 방법
|
13 |
13
제 12 항에 있어서, SUMO 시뮬레이션 실행 단계는,SUMO(Simulation of Urban MObility)를 활용하여 시뮬레이션 환경을 구축하여 SUMO 시뮬레이션을 수행하는 SUMO 시뮬레이션 단계와,배기가스, 속도 및 위치값 파일을 생성하여 자율 주행 차량의 속도,위치,센서에서 얻어진 데이터를 FLOW 적용부로 전달하는 결과 파일생성 단계를 포함하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 방법
|
14 |
14
제 12 항에 있어서, FLOW 적용 단계는,인간운전자 정의, 심층 강화학습 입력값 설정 및 차량의 속도, 가속도, 출발점 등 시뮬레이션 환경 설정을 하는 시뮬레이션 초기화 단계와,FLOW 환경 구축을 하여 상태(state)를 강화학습 라이브러리로 전달하는 FLOW 환경 구축 단계와,강화학습을 적용하지 않은 운전 행태 도출을 하는 운행행태 도출 단계와,차량 제어를 하고 제어 정보를 SUMO 시뮬레이션 실행부로 전달하는 차량 제어 단계와,SUMO 시뮬레이션 실행부로부터 시뮬레이션 상태를 받아 시뮬레이션 상태 업데이트를 하여 상태 및 보상 정보를 강화학습 라이브러리 환경 구축부로 전달하는 업데이트 단계를 포함하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 방법
|
15 |
15
제 12 항에 있어서, 강화학습 라이브러리 환경 구축 단계는,강화학습 라이브러리가 FLOW 적용부로부터 상태(state)를 전달받는 단계와, 학습할 데이터를 샘플링하는 데이터 샘플링 단계와,운전 행태(정책) 훈련을 하는 정책 훈련 단계와,훈련 결과를 평가하고 학습된 행태를 FLOW 적용부로 전달하는 훈련 결과 평가 단계와,자율주행차량이 관찰할 수 있는 범위 내의 정보를 통하여 학습하는 방법으로 강화학습과 마르코프 의사결정 모델 사용(Partial Observability MDP, POMDP)을 적용하여 행동에 대한 강화학습의 보상을 최대화할 수 있도록 하는 정책 최적화 단계와,FLOW 적용부로부터 자율 주행 차량의 상태를 받아 정책 업데이트 및 저장을 하는 정책 업데이트 저장 단계와,업데이트된 정책이 학습 루프 조건을 만족하는지 판단하는 학습 루프조건 판단 단계를 포함하는 것을 특징으로 하는 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 방법
|