기술이전플랫폼 Tech-Bridge-이전대상기술

맞춤기술찾기

홈으로 가기

맞춤기술찾기

이전대상기술

프린트하기

이전대상기술

강화학습에 기반하여 시스템의 제어 동작의 품질을 보장하기 위한 장치 및 방법

기술번호 : KST2020006107
담당센터 : 대전기술혁신센터
전화번호 : 042-610-2279

상담신청 PDF 받기

상세정보
공개전문
공고전문
등록사항
통합행정정보
기술정보
과제정보
관련기술
심판사항

서지정보
인명정보
행정처리
청구항
지정국
패밀리정보
국가R&D 연구정보

이전 슬라이드 보기 다음 슬라이드 보기

요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약	본 발명은 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 방법 및 장치에 대한 것으로, 초기 학습 단계에서는 알고리즘을 이용하여 계산된 제 1 액션이 선택되고, 초기 학습 단계가 종료된 경우 Q 함수를 이용하여 계산된 제 2 액션이 선택되는 방법이 개시된다.
Int. CL	G05B 13/02 (2006.01.01) G05B 13/04 (2006.01.01) G05B 19/404 (2006.01.01)
CPC	G05B 13/0265(2013.01) G05B 13/0265(2013.01) G05B 13/0265(2013.01)
출원번호/일자	1020180148823 (2018.11.27)
출원인	한국전자통신연구원
등록번호/일자
공개번호/일자	10-2020-0062887 (2020.06.04) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태	공개
심사진행상태	수리
심판사항
구분	신규
원출원번호/일자
관련 출원번호
심사청구여부/일자	Y (2020.09.22)
심사청구항수	17

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호	이름	국적	주소
1	한국전자통신연구원	대한민국	대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호	이름	국적	주소
1	윤승현		대전광역시 유성구
2	신승재		세종특별자치시 다정북로 **
3	전홍석		대전광역시 서구
4	조충래		대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호	이름	국적	주소
1	성병기	대한민국	서울특별시 서초구 사임당로 , 층 (서초동, 재우빌딩)(마루특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호	이름	국적	주소
최종권리자 정보가 없습니다

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서 [Patent Application] Patent Application	2018.11.27	수리 (Accepted)	1-1-2018-1184859-10
2	[심사청구]심사청구서·우선심사신청서	2020.09.22	수리 (Accepted)	1-1-2020-1008305-14

번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호	청구항
1	1 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 방법에 있어서상기 환경 시스템으로부터 상태 정보(state)를 수신하는 단계;상기 상태 정보에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하고, Q 함수를 이용하여 제 2 액션(action)을 계산하는 단계;Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하는 단계;상기 환경 시스템에 상기 선택된 액션을 전달하는 단계;상기 선택된 액션에 기초하여 수행된 제어 동작 결과에 대한 보상(reward) 값을 수신하는 단계; 및상기 보상값에 기초하여 Q 네트워크를 업데이트하는 단계;를 포함하되, 초기 학습 단계에서는 상기 제 1 액션이 선택되고,상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부가 결정되고,상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
2	2 제 1항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,에러값이 임계 에러값보다 작고, 상기 에러값이 상기 임계 에러값보다 작다고 판단된 횟수가 임계 횟수과 동일한 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
3	3 제 2항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
4	4 제 1항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고,상기 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
5	5 제 4항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
6	6 제 1항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,상기 제 1 액션 값과 상기 제 2 액션 값이 동일하고,동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
7	7 제 1항에 있어서상기 알고리즘은 상기 환경 시스템에 대한 제어를 수행하고, 상기 초기 학습 단계 동안 상기 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당되는 것을 특징으로 초기 제어 동작의 품질을 확보하는 방법
8	8 제 7항에 있어서상기 알고리즘은 휴리스틱 알고리즘에 해당되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 방법
9	9 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 장치에 있어서상태 정보(state)에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하는 알고리즘 기반 액션 계산부;상기 상태 정보에 기초하여 Q 함수를 이용하여 제 2 액션(action)을 계산하는 Q 함수 기반 액션 계산부; 및Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하는 평가 및 업데이트부;를 포함하되, 상기 상태 정보는 상기 환경 시스템으로부터 수신되고,상기 환경 시스템에 상기 선택된 액션이 전달되는 경우,상기 평가 및 업데이트부는초기 학습 단계에서는 상기 제 1 액션을 선택하고,상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부를 결정하고,상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
10	10 제 9항에 있어서상기 평가 및 업데이트부는 상기 선택된 액션에 기초하여 수행된 제어 결과에 대한 보상(reward) 값을 수신하고, 상기 보상값에 기초하여 Q 네트워크를 업데이트하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
11	11 제 9항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,에러값이 임계 에러값보다 작고, 상기 에러값이 상기 임계 에러값보다 작다고 판단된 횟수가 임계값과 동일한 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
12	12 제 11항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
13	13 제 9항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,기 설정된 구간에 대한 에러값의 이동 평균 값을 구하고,상기 에러값이 임계 에러값보다 작은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
14	14 제 13항에 있어서상기 에러값은 제 1 액션의 가치함수와 제 2 액션의 가치함수를 평가하고,상기 제 1 액션의 가치함수와 상기 제 2 액션의 가치함수의 차이 값인 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
15	15 제 9항에 있어서상기 Q 네트워크의 학습 상태를 판단하는 경우,상기 제 1 액션 값과 상기 제 2 액션 값이 동일하고,동일하게 판단된 횟수가 임계값과 같은 경우 상기 초기 학습 단계를 종료하는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
16	16 제 9항에 있어서상기 알고리즘은 상기 환경 시스템에 대한 제어를 수행하고, 상기 초기 학습 단계 동안 상기 환경 시스템의 초기 제어 동작에 대해 기준 품질 이상의 품질을 제공할 수 있는 알고리즘에 해당되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 장치
17	17 강화학습에 기반하여 강화학습 에이전트가 환경 시스템의 초기 제어 동작의 품질을 확보하는 시스템에 있어서상기 강화학습 에이전트 장치로부터 선택된 액션에 기초하여 제어 동작을 수행하고, 상기 제어 동작 결과에 대한 보상(reward) 값을 생성하는 상기 환경 시스템; 및상기 강화학습 에이전트 장치;를 포함하되,상기 강화학습 에이전트 장치는 상기 환경 시스템으로부터 상태 정보(state)를 수신하고상기 상태 정보에 기초하여 알고리즘을 이용하여 제 1 액션(action)을 계산하고, Q 함수에 기초하여 제 2 액션(action)을 계산하고, Q 네트워크의 학습 상태를 판단하고, 상기 제 1 액션 또는 상기 제 2 액션을 선택하고,상기 환경 시스템에 상기 선택된 액션을 전달하고,상기 보상값을 수신하고, 상기 보상값에 기초하여 Q 네트워크를 업데이트하되초기 학습 단계에서는 상기 제 1 액션이 선택되고,상기 판단된 Q 네트워크의 학습 상태 결과에 기초하여 상기 초기 학습 단계의 지속 여부가 결정되고,상기 초기 학습 단계가 종료된 경우 상기 제 2 액션이 선택되는 것을 특징으로 하는 초기 제어 동작의 품질을 확보하는 시스템

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - 패밀리정보 표입니다.
순번	패밀리번호	국가코드	국가명	종류
패밀리 정보가 없습니다

DOCDB 패밀리 정보

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - DOCDB 패밀리 정보 표입니다.
순번	패밀리번호	국가코드	국가명	종류
1	US2020167611	US	미국	DOCDBFAMILY

순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번	연구부처	주관기관	연구사업	연구과제
1	미래창조과학부	ETRI	ETRI연구개발지원사업	초연결 지능 인프라 원천기술 연구개발

본 '원본보기 서비스'는 참고용이므로, 일부 오류 및 누락이 발생할 수 있습니다.
정확한 서류를 확인하시려면 해당 웹사이트에서 조회하시기 바랍니다. (특허로 바로가기: http://www.patent.go.kr)
해당 서비스는 점검으로 인해 매주 일요일 00:00 ~ 02:00까지 이용이 중단됩니다.

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송번호의 정보를 제공하는 이전대상기술 뷰 페이지 통합행정정보 > 등록료란 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서	2018.11.27	수리 (Accepted)	1-1-2018-1184859-10
2	[심사청구]심사청구서·우선심사신청서	2020.09.22	수리 (Accepted)	1-1-2020-1008305-14

중요키워드

이전대상기술 뷰 페이지 관련기술 표
[KST2019009390][한국전자통신연구원]	협력적 개인 선호 예측 모형을 이용한 지능형 로컬 서비스 제어 방법	새창보기
[KST2022002548][한국전자통신연구원]	인공지능 기반의 시스템 제어 장치 및 방법	새창보기
[KST2019016941][한국전자통신연구원]	스마트팜 최적 에너지 관리를 위한 제어 방법 및 장치	새창보기
[KST2022008956][한국전자통신연구원]	디지털 트윈 에이전트를 이용한 실시간 시뮬레이션 방법 및 시스템	새창보기
[KST2020000868][한국전자통신연구원]	환경 센서 오차의 자동 보정 시스템 및 그 방법	새창보기
[KST2020011501][한국전자통신연구원]	메타인지 기반 사물 지능 구현 방법 및 장치	새창보기
[KST2023007150][한국전자통신연구원]	컨텍스트 기반 이동체 제어 방법 및 장치	새창보기
[KST2015076285][한국전자통신연구원]	능동 카메라 환경에서 이동물체의 개별 움직임 추적 방법	새창보기
[KST2023001557][한국전자통신연구원]	육상 양식장의 수질을 예측하기 위한 장치 및 방법	새창보기
[KST2016018033][한국전자통신연구원]	실내 환경 제어 시스템 및 그 방법(SYSTEM FOR CONTROLLING INDOOR ENVIRONMENT AND METHOD THEREOF)	새창보기
[KST2018001594][한국전자통신연구원]	CNC 공구 마모 보정 장치 및 방법(APPARATUS AND METHOD FOR TOOL WEAR COMPENSATION OF CNC)	새창보기

의뢰할 수요기술을 선택합니다

담당자명, 주소, 이메일, 연락처, 내용, 파일선택의 정보를 제공하는 도입희망기술 뷰 페이지 의뢰하기 입력표입니다.
담당자명		활동구분※필수입력항목
이메일		연락처	- -
내용
파일선택	파일선택