1 |
1
사용자 입력에 따른 목표 에너지소비량, 목표 온도 및 목표 습도 중 적어도 하나를 전송하는 리모컨;시험 환경을 구현하고, 상기 리모컨으로부터 전송되는 목표 에너지소비량, 목표 온도 및 목표 습도와 GPS 위치정보 제공부에 의한 사용자 위치정보 중 적어도 하나를 수신하고, 상기 시험 환경에서 상기 수신된 목표 온도 및 목표 습도를 근거로 구동하는 공기조화기;상기 공기조화기와 관련한 데이터를 수집하는 데이터 수집부; 사용자의 위치정보를 전송하는 GPS 위치정보 제공부; 및상기 데이터 수집부에 의하여 수집된 공기조화기와 관련한 데이터를 근거로 심층 강화 학습 신경 모델에 적용할 입력값을 생성하고, 상기 생성된 입력값을 근거로 상기 심층 강화 학습 신경 모델을 이용해서 상기 시험 환경에서 학습 기능을 수행하고, 미리 설정된 시간 동안 수행된 학습 과정이 정상적으로 종료된 후, 학습 수행에 따른 정보를 포함하는 신경망에 구성된 복수의 개별 노드에서의 가중치 및 편향값을 저장하고, 시험 환경별로 각 노드에서의 가중치 및 편향값을 포함하는 학습 결과를 상기 공기조화기에 제공하는 단말을 포함하고,상기 단말은 상기 심층 강화 학습 알고리즘에 사용할 목표 에너지소비량, 온도 초기화 범위, 습도 초기화 범위, 온도 보상 범위, 습도 보상 범위 및 시뮬레이션 기간을 설정하고, 상기 심층 강화 학습 알고리즘의 에피소드 시작 점수 및 에피소드 이전 점수를 초기화하고, 상기 심층 강화 학습 알고리즘에 구성된 신경망에 포함된 출력 레이어에 포함되는 복수의 출력값 중에서 현재 상태(St) 및 가치함수값(Q)을 근거로 어느 하나의 출력값(At)을 선택하고, 선택된 출력값(At)을 근거로 상기 리모컨을 통해 상기 공기조화기의 동작을 제어하고, 상기 리모컨의 제어 시로부터 미리 설정된 시간(tgps, 사용자 위치정보 업데이트 시간)이 지난 후, 상기 데이터 수집부로부터 다음 출력값(At+1)을 포함하는 다음 현재 상태(St+1)를 수신하고, 보상체계에 따라 보상 근거를 마련한 후, 상기 현재 상태(St), 상기 출력값(At) 및 상기 다음 현재 상태(St+1)를 근거로 보상값(Rt)을 산출하고, 상기 현재 상태(St), 상기 출력값(At), 상기 보상값(Rt) 및 상기 다음 현재 상태(St+1)를 포함하는 튜플(D)을 저장하고, 상기 저장되는 복수의 튜플(D) 중 일부를 랜덤 샘플링 하여 학습용 미니-배치(mini-batch)를 생성하고, 미리 설정된 시뮬레이션 타임 이내에 진행 중인 하나의 상기 사용자 위치정보 업데이트 (tgps)에 대하여 미니-배치 데이터에 근거하여 타겟 출력값(Yj)을 산출한 후, 상기 타겟 출력값(Yj) 및 상기 미니-배치에 근거하는 가치함수값(Q) 간의 차이의 제곱인 손실함수값(Lj)을 산출하고, 상기 손실함수값(Lj)이 최소화되도록 상기 신경망의 각 노드의 편향 및 가중치를 업데이트하고, 상기 미리 설정된 시간(tgps)이 하나의 에피소드 종료시점(목적지 도달시점)을 아직 만족하지 않을 때, 상기 보상체계에 따른 점수(Score)에 합산하고 다음 설정된 시간(tgps)으로 업데이트 하기 위하여, 상기 심층 강화 학습 알고리즘에 구성된 신경망에 포함된 출력 레이어에 포함되는 복수의 출력값 중에서 현재 상태(St) 및 가치함수값(Q)을 근거로 어느 하나의 출력값(At)을 선택하고, 상기 선택된 출력값을 근거로 상기 리모컨을 통해 상기 공기조화기의 동작을 제어하는 과정을 반복하고, 상기 미리 설정된 시간(tgps)이 하나의 에피소드 종료시점(상기 목적지 도달시점)을 만족했을 때, 상기 보상체계에 따라 보상근거를 마련하는 단계에 의하여 하나의 에피소드가 종료되는 시점(tepisode)에서 보상값을 점수(Score)에 합산하고 시뮬레이션 타임 종료를 판단하기 전, 상기 초기화 범위에 들어올 때까지 해당 방향으로 시험환경 및 리모컨을 제어하고, 상기 시뮬레이션 타임 종료를 판단시에, 상기 설정된 목표 에너지 소비량으로 판단하거나 별도로 설정된 목표 에너지 소비량이 없다면, 일정 에피소드 횟수에서 심층 강화학습 알고리즘으로 최적화된 최소의 에너지 소비량에 도달했는 지로 판단하고, 상기 시뮬레이션 타임이 종료 되지 않았다면, 상기 심층 강화 학습 알고리즘의 에피소드 시작 점수 및 에피소드 이전 점수를 초기화되도록 반복하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 시스템
|
2 |
2
제 1 항에 있어서,상기 공기조화기와 관련한 데이터는,상기 공기조화기의 시간에 따른 소비전력 및 소비전력량, 상기 사용자의 위치정보, 출발지와 목적지의 위치정보, 상기 공기조화기의 토출구 주변에서의 토출 온도, 상기 공기조화기의 토출구 부근에서의 토출 습도, 상기 공기조화기가 위치한 실내의 실내 온도, 실내 습도, 실외 온도 및 실외 습도 중 적어도 하나를 포함하는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 시스템
|
3 |
3
제 1 항에 있어서,상기 입력값은,상기 수집된 데이터 중에서 상기 공기조화기의 시간에 따른 소비전력 및 소비전력량, 상기 GPS 위치정보 제공부를 통하여 얻어지거나 계산 되어지는 시간에 따른 목적지까지의 남은 거리, 시간에 따른 남은 거리의 변화율, 실내 온도와 상기 수신된 목표 온도 간의 차이값, 상기 수집된 데이터 중에서 실내 온도의 미리 설정된 시간 동안의 순간 변화 기울기, 상기 수집된 데이터 중에서 실내 습도와 상기 수신된 목표 습도 간의 차이값, 상기 수집된 데이터 중에서 실내 습도의 미리 설정된 시간 동안의 순간 변화 기울기 중 적어도 하나를 포함하는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 시스템
|
4 |
4
삭제
|
5 |
5
공기조화기에 의해, 시험 환경을 구현하는 단계;상기 공기조화기에 의해, 리모컨을 통한 사용자 입력에 따른 목표 에너지소비량, 목표 온도 및 목표 습도 중 적어도 하나를 수신하는 단계;상기 공기조화기에 의해, 상기 시험 환경에서 상기 수신된 목표 에너지소비량, 목표 온도 및 목표 습도를 근거로 구동하는 단계;GPS 위치정보 제공부에 의해, 사용자의 위치정보를 송수신하는 단계;상기 GPS 위치정보 제공부에 의해, 사용자의 위치정보, 출발지와 목적지의 위치정보를 획득하고, 상기 획득된 정보를 통하여 시간에 따른 목적지까지의 남은 거리, 시간에 따른 남은 거리의 변화율을 계산하는 단계;데이터 수집부에 의해, 상기 공기조화기 및 사용자 위치정보와 관련한 데이터를 수집하는 단계;단말에 의해, 상기 수집된 상기 공기조화기와 관련한 데이터를 근거로 심층 강화 학습 신경 모델에 적용할 입력값을 생성하는 단계;상기 단말에 의해, 상기 생성된 입력값을 근거로 상기 심층 강화 학습 신경 모델을 이용해서 상기 시험 환경 및 상기 사용자 위치정보 중 어느 하나 이상을 근거로 학습 기능을 수행하는 단계;상기 단말에 의해, 미리 설정된 시간 동안 수행된 학습 과정이 정상적으로 종료된 후, 학습 수행에 따른 정보를 포함하는 신경망에 구성된 복수의 개별 노드에서의 가중치 및 편향값을 저장하는 단계; 및상기 공기조화기에 의해, 상기 단말로부터 제공되는 시험 환경별 및 사용자 위치정보별로 각 노드에서의 가중치 및 편향값을 포함하는 학습 결과를 저장하는 단계를 포함하고,상기 사용자의 위치정보를 이용하여 학습 기능을 수행하는 단계는,상기 단말에 의해, 상기 심층 강화 학습 알고리즘에 사용할 목표 에너지소비량, 온도 초기화 범위, 습도 초기화 범위, 온도 보상 범위, 습도 보상 범위 및 시뮬레이션 기간을 설정하는 단계;상기 단말에 의해, 상기 심층 강화 학습 알고리즘의 에피소드 시작 점수 및 에피소드 이전 점수를 초기화하는 단계;상기 단말에 의해, 상기 심층 강화 학습 알고리즘에 구성된 신경망에 포함된 출력 레이어에 포함되는 복수의 출력값 중에서 현재 상태(St) 및 가치함수값(Q)을 근거로 어느 하나의 출력값(At)을 선택하고, 상기 선택된 출력값을 근거로 상기 리모컨을 통해 상기 공기조화기의 동작을 제어하는 단계;상기 단말에 의해, 상기 리모컨 제어 시로부터 미리 설정된 시간(tgps, 사용자 위치정보 업데이트 시간)이 지난 후, 상기 데이터 수집부로부터 다음 출력값(At+1)을 포함하는 다음 현재 상태(St+1)를 수신하는 단계;상기 단말에 의해, 보상체계에 따라 보상 근거를 마련하는 단계; 상기 단말에 의해, 상기 현재 상태(St), 상기 출력값(At) 및 상기 다음 현재 상태(St+1)를 근거로 보상값(Rt)을 산출하는 단계;상기 단말에 의해, 상기 현재 상태(St), 상기 출력값(At), 상기 보상값(Rt) 및 상기 다음 현재 상태(St+1)를 포함하는 튜플(D)을 저장하는 단계;상기 단말에 의해, 상기 저장되는 복수의 튜플(D) 중 일부를 랜덤 샘플링 하여 학습용 미니-배치(mini-batch)를 생성하는 단계;상기 단말에 의해, 미리 설정된 시뮬레이션 타임 이내에 진행 중인 하나의 상기 사용자 위치정보 업데이트 (tgps) 단계에 대하여 미니-배치 데이터에 근거하여 타겟 출력값(Yj)을 산출하는 단계;상기 타겟 출력값(Yj) 및 상기 미니-배치에 근거하는 가치함수값(Q) 간의 차이의 제곱인 손실함수값(Lj)을 산출하는 단계;상기 손실함수값(Lj)이 최소화되도록 상기 신경망의 각 노드의 편향 및 가중치를 업데이트 하는 단계;상기 미리 설정된 시간(tgps)이 하나의 에피소드 종료시점(상기 목적지 도달시점)을 아직 만족하지 않을 때, 상기 보상체계에 따른 점수(Score)에 합산하고 다음 설정된 시간(tgps)으로 업데이트 하기 위하여, 상기 심층 강화 학습 알고리즘에 구성된 신경망에 포함된 출력 레이어에 포함되는 복수의 출력값 중에서 현재 상태(St) 및 가치함수값(Q)을 근거로 어느 하나의 출력값(At)을 선택하고, 상기 선택된 출력값을 근거로 상기 리모컨을 통해 상기 공기조화기의 동작을 제어하는 단계로 반복하는 단계;상기 미리 설정된 시간(tgps)이 하나의 에피소드 종료시점(상기 목적지 도달시점)을 만족했을 때, 상기 보상체계에 따라 보상근거를 마련하는 단계에 의하여 하나의 에피소드가 종료되는 시점(tepisode)에서 보상값을 점수(Score)에 합산하고 시뮬레이션 타임 종료를 판단하기 전, 상기 초기화 범위에 들어올 때까지 해당 방향으로 시험환경 및 리모컨을 제어하는 단계;상기 시뮬레이션 타임 종료를 판단하는 단계는 상기 설정된 목표 에너지 소비량으로 판단하거나 별도로 설정된 목표 에너지 소비량이 없다면, 일정 에피소드 횟수에서 심층 강화학습 알고리즘으로 최적화된 최소의 에너지 소비량에 도달했는 지로 판단하는 단계; 및상기 시뮬레이션 타임이 종료 되지 않았다면, 상기 심층 강화 학습 알고리즘의 에피소드 시작 점수 및 에피소드 이전 점수를 초기화하는 단계로 반복하는 단계;를 포함하는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 방법
|
6 |
6
제 5 항에 있어서,상기 사용자 위치정보와 관련한 데이터를 수집하는 단계는, 실시간 학습용 입력데이터를 획득하는 단계 또는 사전 학습용 위치정보 데이터 세트를 마련하는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 방법
|
7 |
7
제 5 항에 있어서,상기 공기조화기에 의해, 작업자의 제어에 따라 특정 장소에 설치되는 단계;상기 공기조화기에 의해, 상기 설치된 특정 장소에 따른 특정 거주환경 및 특정 위치 정보환경에서 사용자 입력에 따른 다른 목표 에너지소비량, 다른 목표 온도 및 다른 목표 습도에 따라 동작하는 단계; 및상기 공기조화기에 의해, 상기 특정 거주환경 및 특정 사용자 위치 정보환경에서의 동작에 따라 수집되는 데이터, 상기 저장된 시험 환경별 및 사용자 위치정보별로 각 노드에서의 가중치 및 편향값을 포함하는 학습 결과를 근거로 심층 강화 학습 알고리즘에 따라 학습 기능을 수행하는 단계를 더 포함하는 것을 특징으로 하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 방법
|
8 |
8
삭제
|
9 |
9
제 5 항에 있어서,상기 보상체계에 따라 보상 근거를 마련하는 단계는,상기 사용자 위치정보 업데이트 시간(tgps)에서 상기 다음 출력값(At+1)이 상기 출력값(At)에서 바뀌게 되면 상대적으로 작은 값을 벌점으로 부여(-ma)하며, 상기 사용자 위치정보 업데이트 시간(tgps)에서 다음 현재값(St+1)의 소비전력량(Pwh)이 그 동안 수행된 모든 에피소드 종료시점에서의 소비전력량(Pwh)의 최소값보다 작으면 상대적으로 작은 값을 상점으로 부여(+mb) 하고, 상기 하나의 에피소드 종료시점(tepisode)에서 목표 온습도 범위를 벗어나면, 상대적으로 큰 값을 벌점으로 부여(-Ma)하며, 상기 하나의 에피소드 종료시점(tepisode)에서 전에 수행된 모든 에피소드 종료시점의 에너지 소비전력량(PWh)보다 에너지가 절약되었다면, 상대적으로 큰 값을 상점으로 부여(+Mb)하는 심층 강화 학습 알고리즘을 적용한 공기조화기 정밀 학습 방법
|