1 |
1
현실세계의 열 유체 시스템에 대한 최적 제어를 위해 현실세계와 디지털 트윈 환경을 이루는 가상세계에서 가속화된 강화학습을 수행하는 시스템으로,현실세계의 열 유체 시스템에 대한 강화학습을 수행하는 현실세계 강화학습 수행부;상기 현실세계 강화학습 수행부를 통해 얻어진 초기 강화학습 수행결과로부터 현재상태를 나타내는 물리량 데이터를 각각 관측하고, 관측된 물리량 데이터를 기초로 가상세계의 강화학습진행에서 필요한 강화학습 데이터를 설정하고, 상기 강화학습 데이터에 포함된 구성요소들을 인덱스화하여 도메인을 생성하고, 생성된 도메인 상에서 현재상태와 다음상태의 구성요소 간을 매칭하여 리스트화된 강화학습 상태 데이터를 생성하여 공유하는 데이터 관리부; 현실세계 및 가상세계에서의 강화학습을 위하여 동일 구조의 인공신경망과 보상체계를 구성하고, 현실세계 및 가상세계 상호 간의 인공신경망 학습결과를 공유하여 디지털 트윈환경을 구성하는 인공신경망 설정부; 및현실세계에서의 강화학습을 통해 상기 도메인 상에서 생성된 상기 리스트화된 강화학습 상태 데이터 및 상기 인공신경망 학습결과와, 상기 동일 구조의 인공신경망과 보상체계를 이용하여 현실세계에서 강화학습을 수행한 후, 디지털 트윈환경의 가상세계에서 강화학습을 최종 계산치에 수렴할 때까지 수행하되, 현실세계에서 열 유체 시스템의 열 응답 시간(Thermal Response Time)을 생략하여 가속화된 강화학습을 수행하는 가상세계 강화학습 수행부를 포함하고,상기 물리량 데이터는, SARSA 알고리즘을 통해 관측되는 현재상태변수(S), 액션(A), 보상(R), 다음상태변수(S'), 다음액션(A')과, 시간변화율(ds/dt, ds'/dt)을 포함하고,상기 현재상태변수(S)는, 열 유체 매질 또는 에너지원의 현재상태를 나타내는 물리량을 나타내고,상기 다음상태변수(S')는, 열 유체 매질 또는 에너지원의 다음상태를 나타내는 물리량을 나타내고,상기 액션(A)과 상기 다음액션(A')은, 열 유체 시스템의 독립적 기계요소에 대한 운전출력의 증감수치(±dcom1, ±dcom2, ±dcom3,
|
2 |
2
삭제
|
3 |
3
제1 항에 있어서,상기 인공신경망 설정부는, 현실세계 및 가상세계의 강화학습진행을 위한 인공신경망의 입력노드 및 출력노드에 대하여 상기 현재상태변수(S) 및 액션(A)을 각각 설정하고,상기 입력노드에 대한 상기 강화학습 데이터는, 상기 현재상태변수(S)에 대한 물리량(s1, s2,
|
4 |
4
제3 항에 있어서,상기 인공신경망 설정부는,상기 SARSA 알고리즘 진행 시 다음상태변수(S')로의 전이를 위한 액션(A)의 선택 시 액션(A)과 관련된 기계요소의 운전출력에 대한 증감수치 중 증가분(+dcom) 또는 감소분(-dcom)을 선택하고, 상기 입력노드에서 시간변화율(ds1/dt,
|
5 |
5
제1 항에 있어서,상기 운전출력의 증감수치와 상기 운전출력의 특정 값은, 열 유체 시스템의 기계요소에 대한 변위(q_i) 및 변위의 증감(±dq_i) 또는 속도(w_i) 및 속도의 증감(±dw_i)을 포함하는 것을 특징으로 하는 디지털 트윈 기법을 적용한 열 유체 시스템의 가속화 강화학습 수행 시스템
|
6 |
6
삭제
|
7 |
7
제1 항에 있어서,상기 데이터 관리부는,상기 N회 반복 측정을 통해 도메인 상의 모든 포인트에서 적어도 한 번 이상의 강화학습 상태 데이터가 생성되면, 상기 강화학습 상태 데이터에 대하여 상기 N회 반복측정의 데이터 평균을 산출하여 모든 운전점 조합([num1][num2],
|
8 |
8
제7 항에 있어서,상기 가상세계 강화학습 수행부는,상기 액션(A)에 따른 상기 현재상태변수(S)에서 상기 다음상태변수(S')로 타임스텝을 진행하되, 가상세계의 강화학습 알고리즘이 수행할 수 있는 가장 빠른 타임스텝으로 가속하여 강화학습을 수행하는 것을 특징으로 하는 디지털 트윈 기법을 적용한 열 유체 시스템의 가속화 강화학습 수행 시스템
|
9 |
9
제7 항에 있어서,상기 데이터 관리부는,상기 N이 100이상인 경우 상기 평균화된 강화학습 상태 데이터 리스트의 매칭 대신, 각 상태변수들에 대한 확률적 분포로서 각 상태변수 값에 대한 리스트를 매칭하여 상기 가상세계 강화학습 수행부로 제공하는 것을 특징으로 하는 디지털 트윈 기법을 적용한 열 유체 시스템의 가속화 강화학습 수행 시스템
|
10 |
10
제1 항에 있어서,상기 데이터 관리부는,현실세계의 강화학습을 통해 도메인 상의 모든 포인트 조합에 대하여 상기 N회의 강화학습 상태 데이터에 대한 리스트 획득 대신, 루프문을 통해 도메인 상의 모든 인덱스 조합에서의 강화학습 상태 데이터에 대한 리스트를 일괄적으로 자동 생성하는 것을 특징으로 하는 디지털 트윈 기법을 적용한 열 유체 시스템의 가속화 강화학습 수행 시스템
|
11 |
11
제10 항에 있어서,상기 데이터 관리부는,상기 액션(A)에 따른 상기 현재상태변수(S)에서 상기 다음상태변수(S')로 타임스텝을 진행하는 경우, 상기 다음상태변수(S')에 대한 시간변화율(ds'/dt)과 관계없는 물리량이 측정오차 이외에 시간종속적인 변화가 없을 때까지의 안정화 시간(Tsteady)을 기준으로 50% 내지 100% 사이 중 어느 특정 퍼센트의 시간 값으로 타임스텝의 간격을 설정(50%~100% of Tsteady)하고, 설정된 타임스텝의 간격에 대한 데이터를 기록하는 것을 특징으로 하는 디지털 트윈 기법을 적용한 열 유체 시스템의 가속화 강화학습 수행 시스템
|
12 |
12
제1 항에 있어서,상기 가상세계 강화학습 수행부는,가상세계에서 강화학습이 완료되면, 인공신경망에 가중치 및 편향값을 포함하는 학습 결과를 저장한 후, 상기 현실세계 강화학습 수행부로 제공하고, 상기 현실세계 강화학습 수행부는,업데이트된 현실세계의 물리량 데이터를 기초로 추가적인 강화학습을 수행하고, 상기 현실세계 강화학습 수행부와 상기 가상세계 강화학습 수행부는,현실세계와 가상세계의 강화학습을 교번적으로 반복 수행하는 것을 특징으로 하는 디지털 트윈 기법을 적용한 열 유체 시스템의 가속화 강화학습 수행 시스템
|