1 |
1
정책 반복 알고리즘(Policy Iteration Algorithm)을 진행하는 단계를 포함하며,상기 정책 반복 알고리즘은 제어 리아푸노프 함수들 중에서 최적 가치 함수와 같은 레벨셋 형태를 가지는 제어 리아푸노프 함수(control Lyapunov function, CLF)를 찾으면서 최적 제어기를 학습하고, 손타크 식(Sontag's formula)을 활용하여 상기 학습 과정 및 상기 학습 후의 안정성을 보장하는 것을 특징으로 하는 안정화된 비선형 최적 제어 방법
|
2 |
2
제 1 항에 있어서,상기 정책 반복 알고리즘은 하기 정밀 정책 반복 알고리즘인 것을 특징으로 하는 안정화된 비선형 최적 제어 방법
|
3 |
3
제 2 항에 있어서,상기 정밀 정책 반복 알고리즘은,정책을 평가하는 부분에서 리아푸노프 방정식을 풀어 현재의 안정화 제어 입력 하에서 발생하는 비용을 평가하는 제어 리아푸노프 함수 를 계산하고,상기 정책을 업데이트하는 부분에서 손타크 식을 사용하여 학습 과정 및 학습 후의 안정성을 보장하는 것을 특징으로 하는 안정화된 비선형 최적 제어 방법
|
4 |
4
제 1 항에 있어서,상기 정책 반복 알고리즘은 하기 제1 근사 정책 반복 알고리즘인 것을 특징으로 하는 안정화된 비선형 최적 제어 방법
|
5 |
5
제 4 항에 있어서,상기 제1 근사 정책 반복 알고리즘은,정책을 평가하는 부분에서 안정화 제어 입력 에 의해 결정되는 상태들을 모아 벨만 에러를 감소하는 방향으로 선형 인공 신경망으로 근사된 가치 함수()의 웨이트(weight) 업데이트를 진행하고,상기 정책을 업데이트하는 부분에서 손타크 식을 사용하여 학습 과정 및 학습 후의 안정성을 보장하는 것을 특징으로 하는 안정화된 비선형 최적 제어 방법
|
6 |
6
제 1 항에 있어서,상기 정책 반복 알고리즘은 하기 제2 근사 정책 반복 알고리즘인 것을 특징으로 하는 안정화된 비선형 최적 제어 방법
|
7 |
7
제 6 항에 있어서,상기 제2 근사 정책 반복 알고리즘은,정책을 평가하는 부분에서 안정화 제어 입력 에 의해 결정되는 상태들을 모아 벨만 에러를 감소하는 방향으로 심층 신경망으로 근사된 가치 함수()의 웨이트(weight) 업데이트를 진행하고,상기 정책을 업데이트하는 부분에서 손타크 식를 사용하여 학습 과정 및 학습 후의 안정성을 보장하는 것을 특징으로 하는 안정화된 비선형 최적 제어 방법
|