맞춤기술찾기

이전대상기술

강화학습에 기반하여 시스템의 제어 동작의 품질을 보장하기 위한 장치 및 방법

  • 기술번호 : KST2020006107
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 방법 및 장치에 대한 것으로, 초기 학습 단계에서는 알고리즘을 이용하여 계산된 제 1 액션이 선택되고, 초기 학습 단계가 종료된 경우 Q 함수를 이용하여 계산된 제 2 액션이 선택되는 방법이 개시된다.
Int. CL G05B 13/02 (2006.01.01) G05B 13/04 (2006.01.01) G05B 19/404 (2006.01.01)
CPC G05B 13/0265(2013.01) G05B 13/0265(2013.01) G05B 13/0265(2013.01)
출원번호/일자 1020180148823 (2018.11.27)
출원인 한국전자통신연구원
등록번호/일자
공개번호/일자 10-2020-0062887 (2020.06.04) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.09.22)
심사청구항수 17

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 윤승현 대전광역시 유성구
2 신승재 세종특별자치시 다정북로 **
3 전홍석 대전광역시 서구
4 조충래 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 성병기 대한민국 서울특별시 서초구 사임당로 **, **층 (서초동, 재우빌딩)(마루특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2018.11.27 수리 (Accepted) 1-1-2018-1184859-10
2 [심사청구]심사청구서·우선심사신청서
2020.09.22 수리 (Accepted) 1-1-2020-1008305-14
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 방법에 있어서상기 환경 시스템으로부터 상태 정보(state)를 수신하는 단계;상기 상태 정보에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하고, Q 함수를 이용하여 제 2 액션(action)을 계산하는 단계;Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하는 단계;상기 환경 시스템에 상기 선택된 액션을 전달하는 단계;상기 선택된 액션에 기초하여 수행된 제어 동작 결과에 대한 보상(reward) 값을 수신하는 단계; 및상기 보상값에 기초하여 Q 네트워크를 업데이트하는 단계;를 포함하되, 초기 학습 단계에서는 상기 제 1 액션이 선택되고,상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부가 결정되고,상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
2 2
제 1항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,에러값이 임계 에러값보다 작고, 상기 에러값이 상기 임계 에러값보다 작다고 판단된 횟수가 임계 횟수과 동일한 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
3 3
제 2항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
4 4
제 1항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고,상기 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
5 5
제 4항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
6 6
제 1항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,상기 제 1 액션 값과 상기 제 2 액션 값이 동일하고,동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
7 7
제 1항에 있어서상기 알고리즘은 상기 환경 시스템에 대한 제어를 수행하고, 상기 초기 학습 단계 동안 상기 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당되는 것을 특징으로 초기 제어 동작의 품질을 확보하는 방법
8 8
제 7항에 있어서상기 알고리즘은 휴리스틱 알고리즘에 해당되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
9 9
강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 장치에 있어서상태 정보(state)에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하는 알고리즘 기반 액션 계산부;상기 상태 정보에 기초하여 Q 함수를 이용하여 제 2 액션(action)을 계산하는 Q 함수 기반 액션 계산부; 및Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하는 평가 및 업데이트부;를 포함하되, 상기 상태 정보는 상기 환경 시스템으로부터 수신되고,상기 환경 시스템에 상기 선택된 액션이 전달되는 경우,상기 평가 및 업데이트부는초기 학습 단계에서는 상기 제 1 액션을 선택하고,상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부를 결정하고,상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
10 10
제 9항에 있어서상기 평가 및 업데이트부는 상기 선택된 액션에 기초하여 수행된 제어 결과에 대한 보상(reward) 값을 수신하고, 상기 보상값에 기초하여 Q 네트워크를 업데이트하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
11 11
제 9항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,에러값이 임계 에러값보다 작고, 상기 에러값이 상기 임계 에러값보다 작다고 판단된 횟수가 임계값과 동일한 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
12 12
제 11항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
13 13
제 9항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고,상기 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
14 14
제 13항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
15 15
제 9항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,상기 제 1 액션 값과 상기 제 2 액션 값이 동일하고,동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
16 16
제 9항에 있어서상기 알고리즘은 상기 환경 시스템에 대한 제어를 수행하고, 상기 초기 학습 단계 동안 상기 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
17 17
강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 시스템에 있어서상기 강화학습 에이전트 장치로부터 선택된 액션에 기초하여 제어 동작을 수행하고, 상기 제어 동작 결과에 대한 보상(reward) 값을 생성하는 상기 환경 시스템; 및상기 강화학습 에이전트 장치;를 포함하되,상기 강화학습 에이전트 장치는 상기 환경 시스템으로부터 상태 정보(state)를 수신하고상기 상태 정보에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하고, Q 함수에 기초하여 제 2 액션(action)을 계산하고, Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하고,상기 환경 시스템에 상기 선택된 액션을 전달하고,상기 보상값을 수신하고, 상기 보상값에 기초하여 Q 네트워크를 업데이트하되초기 학습 단계에서는 상기 제 1 액션이 선택되고,상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부가 결정되고,상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 시스템
지정국 정보가 없습니다
순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - 패밀리정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
패밀리 정보가 없습니다

DOCDB 패밀리 정보

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - DOCDB 패밀리 정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US2020167611 US 미국 DOCDBFAMILY
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 미래창조과학부 ETRI ETRI연구개발지원사업 초연결 지능 인프라 원천기술 연구개발