1 |
1
발전기를 구비한 관측 대상시스템;측정 잡음을 포함한 전력각()과 피드백 되는 전력각의 추정값()을 입력받아 학습하는 심층 Q-신경망(DQN)을 이용하여 외란과 측정 잡음이 존재하는 상황에 적응적으로 관측 이득을 결정하는 강화학습 모듈; 및상기 강화학습 모듈에 전력각의 추정값()을 피드백시키고, 상기 강화학습 모듈에서 결정된 관측 이득에 기초하여 발전기의 출력을 변화시키는 외란()의 크기를 추정하는 외란 관측기를 포함하는 것을 특징으로 하는 측정 잡음에 강인한 외란 추정 장치
|
2 |
2
제1항에 있어서,상기 심층 Q-신경망은 현재의 상태와 행동을 입력으로 주면 다음 행동에 대한 기댓값을 출력하는 Q 함수를 학습시켜 최대의 보상을 받을 수 있는 최적의 행동을 결정하는 알고리즘으로 Q-네트워크, 타겟 Q-네트워크, DQN Loss, 및 리플레이 메모리를 포함하고,상기 심층 Q-신경망의 학습은 하기의 수학식으로 정의되는 비용함수를 최소화하는 방향으로 진행되는 것을 특징으로 하는 측정 잡음에 강인한 외란 추정 장치
|
3 |
3
제2항에 있어서,상기 심층 Q-신경망에 사용하는 학습 데이터는 시간의 흐름에 따라 순차적으로 수집하되 선형 회귀 시 높은 연관성을 가지는 근접한 데이터들로 인하여 학습이 다른 방향으로 진행되는 문제를 완화시키기 위하여 하기의 수학식과 같은 학습 데이터 세트()가 리플레이 메모리에 튜플 형태로 저장되며,상기 심층 Q-신경망은 리플레이 메모리에 저장된 임의의 학습 데이터 세트를 선택하여 학습하는 것을 특징으로 하는 측정 잡음에 강인한 외란 추정 장치
|
4 |
4
제2항에 있어서,상기 심층 Q-신경망(DQN)을 통해 구한 기댓값 Q를 이용하여 최적의 행동을 선택하는 정책()은 하기 수학식으로 정의되는 것을 특징으로 하는 측정 잡음에 강인한 외란 추정 장치
|
5 |
5
제4항에 있어서,상기 심층 Q-신경망의 입력은 현재 상태의 관측 오차()가 되고, 상기 심층 Q-신경망의 출력은 현재 상태에서 취할 수 있는 다음 행동에 대한 기댓값으로서 관측 이득이 되며,상기 학습에 사용될 행동()은 하기의 수학식과 같이 외란 관측기의 추정 속도에 따라 미리 설정된 관측 이득으로 정의되는 것을 특징으로 하는 측정 잡음에 강인한 외란 추정 장치
|
6 |
6
제5항에 있어서,상기 심층 Q-신경망에서 학습을 진행 시 상태에 따른 행동을 평가하는 보상값은 하기의 수학식과 같이 정의하고, 상태와 노이즈 레벨 상수의 비교 결과에 따라 보상값을 다르게 적용하는 것을 특징으로 하는 측정 잡음에 강인한 외란 추정 장치
|
7 |
7
제1항에 있어서,상기 외란 관측기는 하기의 수학식에 의해 외란의 크기를 계산하는 것을 특징으로 하는 측정 잡음에 강인한 외란 추정 장치
|
8 |
8
제1항에 있어서,상기 추정된 외란의 크기와 기 저장된 임계고장제거 시각표를 비교하여 현재 외란의 임계고장제거 시각을 추정하고 동기 탈조 여부를 판단하는 선로고장 판단부를 포함하는 것을 특징으로 하는 외란 추정 장치를 이용한 선로 고장 판별 장치
|