맞춤기술찾기

이전대상기술

강화 학습을 위한 행위-기반 구조

  • 기술번호 : KST2015211486
  • 담당센터 : 경기기술혁신센터
  • 전화번호 : 031-8006-1570
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 실시간으로 변화하는 환경에 놓인 에이전트의 환경 적응성을 높이기 위해 강화학습을 효과적으로 지원할 수 있는 새로운 행위-기반 에이전트 구조인 L-CAA이다. 강화학습 초기의 낮은 성능 문제를 극복하기 위해 L-CAA 에이전트 구조는 행위 선택과 실행 메커니즘을 강화학습에만 전적으로 의존하지 않고 사용자가 정의해준 행위 선택 전략에 보조적으로 이용한다. 이러한 행위 선택 전략은 별도의 내부 모델과 내부 행위에 의해 표현된다. L-CAA에서 행위 선택 메커니즘은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 사용자가 미리 정의한 각 행위의 적용 가능 조건과 효용성을 검사함으로써 행위 라이브러리로부터 실행할 행위들을 추출한다. 하지만 첫 번째 단계에서 다수의 행위가 추출되면, 두 번째 단계에서는 강화학습의 도움을 받아 이들 중에서 실행할 하나의 행위를 선택한다. 즉, 강화학습을 통해 갱신된 각 행위들의 Q 함수값을 서로 비교함으로써, 가장 큰 기대 보상값을 가진 행위를 선택하여 실행한다. 또한 L-CAA에서는 실행 중인 행위의 유지 가능 조건을 지속적으로 검사하여 환경의 동적 변화로 인해 일부 조건이 만족되지 않는 경우가 발생하면 현재 행위의 실행을 즉시 종료할 수 있다. 그 뿐 아니라, L-CAA는 행위 실행 중에도 효용성이 더 높은 다른 행위가 발생하면 현재의 행위를 일시 정지하였다가 복귀하는 기능도 제공한다. 지능형 에이전트, 강화학습, 행위-기반 구조, 내부 및 외부 행위
Int. CL G06F 19/00 (2006.01)
CPC G06F 8/10(2013.01) G06F 8/10(2013.01) G06F 8/10(2013.01) G06F 8/10(2013.01) G06F 8/10(2013.01)
출원번호/일자 1020090031182 (2009.04.10)
출원인 경기대학교 산학협력단
등록번호/일자
공개번호/일자 10-2010-0112742 (2010.10.20) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 취하
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 N
심사청구항수 4

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 경기대학교 산학협력단 대한민국 경기도 수원시 영통구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 김인철 대한민국 경기도 성남시 분당구
2 황종근 대한민국 서울특별시 광진구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 서만규 대한민국 서울특별시 강남구 역삼로 *** *층 (역삼동, 현죽빌딩)(특허법인성암)
2 서경민 대한민국 서울특별시 강남구 역삼로 *** *층 (역삼동, 현죽빌딩)(특허법인성암)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2009.04.10 수리 (Accepted) 1-1-2009-0216972-11
2 [출원인변경]권리관계변경신고서
[Change of Applicant] Report on Change of Proprietary Status
2009.05.20 수리 (Accepted) 1-1-2009-5019689-12
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2013.07.29 수리 (Accepted) 4-1-2013-5105476-10
4 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.03.04 수리 (Accepted) 4-1-2014-5027623-63
5 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.03.04 수리 (Accepted) 4-1-2014-5027621-72
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
실시간 동적 환경에 대한 에이전트의 적응성을 향상시키기 위해 에이전트 스스로 강화학습을 통해 행동 정책을 습득할 수 있는 새로운 행위-기반 에이전트 구조
2 2
제 1항에 있어서, 효과적으로 강화 학습을 지원하기 위해 미리 정의된 불린 상태 변수들의 값을 새로이 계산함으로써 환경의 현재 상태를 결정하는 역할을 수행하는 상태 관리기
3 3
제 1항에 있어서, 강화 학습을 위해 각 행위의 실행 결과를 평가하여 보상값을 결정하는 보상 계산기
4 4
제 1항에 있어서, 먼저 설계자의 의도가 반영된 각 행위의 효용성(utility) 값을 비교하여 가장 높은 효용성을 가진 행위를 선택하고, 선택된 행위가 둘 이상인 경우 강화 학습으로 얻어진 각 행위의 Q 값에 따라 최종 행위를 선택하는 행위-기반 에이전트 구조의 인터프리터
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.