1 |
1
사용자 입력에 따른 목표 온도 및 목표 습도 중 적어도 하나를 전송하는 리모컨;시험 환경을 구현하고, 상기 리모컨으로부터 전송되는 목표 온도 및 목표 습도 중 적어도 하나를 수신하고, 상기 시험 환경에서 상기 수신된 목표 온도 및 목표 습도를 근거로 구동하는 공기조화기;사전에 상기 공기조화기의 심층 강화 학습을 수행하기 위해 시뮬레이션된 실외 및 실내 환경조건이 설정된 정밀 시험 챔버;상기 공기조화기와 관련한 데이터를 수집하는 데이터 수집부; 및상기 수집된 상기 공기조화기와 관련한 데이터를 근거로 심층 강화 학습 신경 모델에 적용할 입력값을 생성하고, 상기 생성된 입력값을 근거로 상기 심층 강화 학습 신경 모델을 이용해서 상기 정밀 시험 챔버의 시험 환경에서 학습 기능을 수행하고, 미리 설정된 시뮬레이션 기간 동안 수행된 학습 단계가 정상적으로 종료된 후, 학습 수행에 따른 정보를 포함하는 신경망에 구성된 복수의 개별 노드에서의 가중치 및 편향값을 저장하고, 시험 환경별로 각 노드에서의 가중치 및 편향값을 포함하는 학습 결과를 상기 공기조화기에 제공하는 단말을 포함하고,상기 공기조화기는,사용자의 용도에 따라 특정 장소에 설치되고, 상기 공기조화기가 설치된 특정 장소에 따른 특정 환경에서 사용자 입력에 따른 다른 목표 온도, 다른 목표 습도 및 다른 목표 공기청정도에 따라 동작하고, 상기 특정 환경에서의 동작함에 따라 수집되는 데이터, 저장된 시험 환경 별로 각 노드에서의 가중치 및 편향값을 포함하는 학습 결과를 근거로 심층 강화 학습 알고리즘에 따라 학습 기능을 실제 설치된 현장 조건에 맞게 추가적으로 수행하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 시스템
|
2 |
2
제 1 항에 있어서,상기 공기조화기는,일정한 냉난방 온도 및 습도 조건 또는 냉방기간 동안의 가변적인 온도 및 습도 조건을 학습하며,상기 일정한 냉난방 온도 및 습도 조건은,시뮬레이션 조건 이외의 교란이 없는 시험 환경을 구현하기 위해 설정되고, 상기 가변적인 온도 및 습도 조건은,실외의 경우 가변 온도 및 가변 습도의 조건을 포함하고, 실내의 경우 가변 현열 부하 및 가변 잠열 부하의 조건을 포함하고, 상기 공기조화기의 설치 이전 현장에서의 가변적인 환경을 사전에 시뮬레이션 학습하기 위해 설정되는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 시스템
|
3 |
3
제 1 항에 있어서,상기 공기조화기와 관련한 데이터는,소비 전력, 상기 공기조화기의 토출구 주변에서의 토출 온도, 상기 공기조화기의 토출구 부근에서의 토출 습도, 상기 공기조화기의 토출구에서의 공기청정도, 상기 공기조화기가 위치한 실내의 온도와 습도, 실외 온도와 실외 습도, 실내 공기청정도, 실내 현열 부하 및 실내 잠열 부하, 재실자와 재실 사물의 반응 데이터, 기상예보, 및 기상 데이터베이스 중 적어도 하나를 포함하는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 시스템
|
4 |
4
제 1 항에 있어서,상기 입력값은,상기 수집된 데이터 중에서 실내 온도와 상기 수신된 목표 온도 간의 차이값, 상기 수집된 데이터 중에서 실내 온도의 미리 설정된 시간 동안의 순간 변화 기울기, 상기 수집된 데이터 중에서 상기 공기조화기의 토출구 부근에서의 토출 온도, 상기 수집된 데이터 중에서 실내 습도와 상기 수신된 목표 습도 간의 차이값, 상기 수집된 데이터 중에서 실내 습도의 미리 설정된 시간 동안의 순간 변화 기울기 및 상기 수집된 데이터 중에서 상기 공기조화기의 토출구 부근에서의 토출 습도, 실내 공기청정도와 목표 공기청정도 간의 차이값, 실내 공기청정도의 미리 설정된 시간 동안의 순간 변화 기울기, 상기 공기조화기의 토출구 부근에서의 공기청정도, 재실자 및 재실 사물의 과거 일정기간 동안의 위치정보 및 온도를 포함하는 상태정보, 및 재실자 및 재실 사물의 현재 위치정보 및 온도를 포함하는 상태정보 중 적어도 하나를 포함하는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 시스템
|
5 |
5
제 1 항에 있어서,상기 단말은,상기 심층 강화 학습 신경 모델에 사용할 신경망을 구성하고, 상기 심층 강화 학습 알고리즘을 통해 상기 시험 환경에 대한 학습 기능을 수행하는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 시스템
|
6 |
6
정밀 시험 챔버에 의해, 시험 환경을 구현하는 단계;상기 정밀 시험 챔버에 의해, 리모컨을 통한 사용자 입력에 따른 목표 온도, 목표 습도 및 목표 공기청정도 중 적어도 하나를 수신하는 단계;공기조화기에 의해, 상기 정밀 시험 챔버의 시험 환경에서 상기 수신된 목표 온도, 목표 습도 및 목표 공기청정도를 근거로 구동하는 단계;데이터 수집부에 의해, 상기 공기조화기와 관련한 데이터 및 상기 정밀 시험 챔버의 시험 환경 데이터를 수집하는 단계;단말에 의해, 수집된 상기 시험 환경 데이터 및 상기 공기조화기와 관련한 데이터를 근거로 심층 강화 학습 신경 모델에 적용할 입력값을 생성하는 단계;상기 단말에 의해, 상기 생성된 입력값을 근거로 상기 심층 강화 학습 신경 모델을 이용해서 상기 시험 환경에서 학습 기능을 수행하는 단계;상기 단말에 의해, 미리 설정된 시간 동안 수행된 학습 단계가 정상적으로 종료된 후, 학습 수행에 따른 정보를 포함하는 신경망에 구성된 복수의 개별 노드에서의 가중치 및 편향값을 저장하는 단계; 상기 공기조화기에 의해, 상기 단말로부터 제공되는 시험 환경별로 각 노드에서의 가중치 및 편향값을 포함하는 학습 결과를 저장하는 단계;상기 공기조화기가, 사용자의 용도에 따라 특정 장소에 설치되는 단계;상기 공기조화기가 설치된 특정 장소에 따른 특정 환경에서 사용자 입력에 따른 다른 목표 온도, 다른 목표 습도 및 다른 목표 공기청정도에 따라 동작하는 단계; 및상기 공기조화기가, 상기 특정 환경에서의 동작함에 따라 수집되는 데이터, 저장된 시험 환경 별로 각 노드에서의 가중치 및 편향값을 포함하는 학습 결과를 근거로 심층 강화 학습 알고리즘에 따라 학습 기능을 실제 설치된 현장 조건에 맞게 추가적으로 수행하는 단계를 포함하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 방법
|
7 |
7
삭제
|
8 |
8
제 6 항에 있어서,상기 시험 환경에서 학습 기능을 수행하는 단계는,상기 단말에 의해, 상기 심층 강화 학습 알고리즘에 사용할 온도 초기화 범위, 습도 초기화 범위, 공기청정도 초기화 범위, 온도 보상 범위, 습도 보상 범위, 공기청정도 보상 범위 및 시뮬레이션 기간을 설정하는 단계;상기 단말에 의해, 상기 심층 강화 학습 알고리즘의 에피소드 시작 점수 및 에피소드 이전 점수를 초기화하는 단계;상기 시뮬레이션 기간 동안에 온도 초기화 범위, 습도 초기화 범위, 공기청정도 초기화 범위와는 별개로 상점 또는 벌점의 보상(Rt)을 판정하기 위한 온도 보상 범위, 습도 보상 범위 및 공기청정도 보상 범위를 설정하는 단계;상기 단말에 의해, 상기 심층 강화 학습 알고리즘에 구성된 신경망에 포함된 출력 레이어에 포함되는 복수의 출력값 중에서 현재 상태(St) 및 가치함수값(Q)을 근거로 어느 하나의 출력값(At)을 선택하고, 상기 선택된 출력값을 근거로 상기 리모컨을 통해 상기 공기조화기의 동작을 제어하는 단계;상기 단말에 의해, 상기 리모컨 제어 시로부터 미리 설정된 시간이 지난 후, 상기 데이터 수집부로부터 다음 현재 상태를 수신하는 단계;상기 단말에 의해, 상기 현재 상태(St), 상기 출력값(At) 및 상기 다음 현재 상태(St+1)를 근거로 보상값(Rt)을 산출하는 단계;상기 단말에 의해, 상기 현재 상태(St), 상기 출력값(At), 상기 보상값(Rt) 및 상기 다음 현재 상태(St+1)를 포함하는 튜플(D)을 저장하는 단계;상기 단말에 의해, 상기 저장되는 복수의 튜플(D) 중 일부를 랜덤 샘플링 하여 학습용 미니-배치(mini-batch)를 생성하는 단계;상기 단말에 의해, 미리 설정된 시뮬레이션 타임 이내에 진행 중인 하나의 에피소드에 대하여 미니-배치 데이터에 근거하여 타겟 출력값(Yj)을 산출하는 단계;상기 타겟 출력값(Yj) 및 상기 미니-배치에 근거하는 가치함수값(Q) 간의 차이의 제곱인 손실함수값(Lj)을 산출하는 단계;상기 손실함수값(Lj)이 최소화되도록 상기 신경망의 각 노드의 편향 및 가중치를 업데이트 하는 단계;상기 에피소드 하나에서 상기 단말에 의해, 미리 설정된 상기 온도 보상 범위, 습도 보상 범위 및 공기청정도 보상 범위를 만족하여 보상이 (+)값인지 또는 불만족하여 (-)값인지를 판단하는 단계;상기 단말에 의해, 기존 점수에 상기 보상값(Rt)을 누적하여 점수를 업데이트하는 단계;상기 보상값(Rt)이 상점(+)인 경우 해당 보상값을 현재 에피소드의 점수에 누적하고, 상기 신경망에 포함된 출력 레이어에 포함되는 복수의 출력값(At) 중 현재 상태(St) 및 가치함수값(Q)에 기초하여, 어느 하나의 출력값(At)을 선택하고, 선택된 출력값(At)에 기초하여 상기 리모컨을 통해 상기 공기조화기의 동작을 제어하는 단계;상기 보상값(Rt)이 벌점(-)인 경우 해당 보상값을 현재 에피소드의 점수에 누적하고, 상기 온도 초기화 범위 및 습도 초기화 범위 및 공기청정도 초기화 범위에 내에 진입할 때까지 상기 리모컨을 특정 방향에 대한 상기 선택된 출력값(At)으로 출력하는 단계;상기 단말에 의해, 시뮬레이션 시간 종료 조건을 만족하지 않는 경우 상기 에피소드 시작 점수 및 에피소드 이전 점수를 기록과, 새로운 에피소드 점수를 초기화하는 단계;상기 단말에 의해, 시뮬레이션의 타임 종료 조건을 만족하는 경우 상기 심층 강화학습 알고리즘을 종료하는 단계를 포함하는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 방법
|