맞춤기술찾기

이전대상기술

행동 결정 장치 및 방법, 컴퓨터 판독 가능한 저장 매체

  • 기술번호 : KST2018010943
  • 담당센터 : 경기기술혁신센터
  • 전화번호 : 031-8006-1570
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 프로세서에 의해 수행되는, NFQ (Neural Fitted Q-Iteration) 기반의 강화 학습에 따른 행동 결정 방법이 제공된다. 방법은, 복수의 상태 전이 샘플 데이터를 기반으로, 현재 상태 (state) 및 행동 (action) 을 입력으로 가지고 행동에 따른 Q 값을 출력으로 가지는 Q 값 함수를 인공 신경망에 훈련시키는 단계와, Q 값 함수를 기반으로 소정 상태에서의 복수의 행동들에 따른 Q 값을 각각 산출하는 단계, 그리고 복수의 행동들 중 Q 값이 가장 큰 행동을 다음 행동으로 결정하는 단계를 포함할 수 있고, 훈련시키는 단계는 학습 대상인 샘플 데이터의 시퀀스의 길이를 기반으로 다음 상태로의 전이 비용 (transition cost) 을 결정할 수 있다. 따라서, 인공 신경망이 보다 빠르게 수렴될 수 있고, 더 정확한 결과 값을 산출할 수 있다.
Int. CL G06N 3/08 (2006.01.01)
CPC G06N 3/08(2013.01) G06N 3/08(2013.01)
출원번호/일자 1020170014504 (2017.02.01)
출원인 성균관대학교산학협력단
등록번호/일자
공개번호/일자 10-2018-0089769 (2018.08.09) 문서열기
공고번호/일자 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2017.02.01)
심사청구항수 15

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 성균관대학교산학협력단 대한민국 경기도 수원시 장안구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 세르게이 대한민국 경기도 수원시 장안구
2 이세희 대한민국 경기도 수원시 장안구
3 이지형 대한민국 서울특별시 용산구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 인비전 특허법인 대한민국 서울특별시 강남구 테헤란로 **길**, *층(대치동, 동산빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 성균관대학교산학협력단 대한민국 경기도 수원시 장안구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2017.02.01 수리 (Accepted) 1-1-2017-0107951-16
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2017.02.23 수리 (Accepted) 4-1-2017-5028829-43
3 선행기술조사의뢰서
Request for Prior Art Search
2018.07.12 수리 (Accepted) 9-1-9999-9999999-89
4 심사처리보류(연기)보고서
Report of Deferment (Postponement) of Processing of Examination
2018.08.17 발송처리완료 (Completion of Transmission) 9-6-2018-0103172-11
5 선행기술조사보고서
Report of Prior Art Search
2018.08.27 수리 (Accepted) 9-1-2018-0043089-72
6 의견제출통지서
Notification of reason for refusal
2018.09.17 발송처리완료 (Completion of Transmission) 9-5-2018-0636844-73
7 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2018.11.19 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2018-1151466-18
8 [공지예외적용대상(신규성, 출원시의 특례)증명서류]서류제출서
[Document Verifying Exclusion from Being Publically Known (Novelty, Special Provisions for Application)] Submission of Document
2018.11.19 수리 (Accepted) 1-1-2018-1151386-53
9 [출원서 등 보정(보완)]보정서
2018.11.19 수리 (Accepted) 1-1-2018-1151322-42
10 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2018.11.19 수리 (Accepted) 1-1-2018-1151465-62
11 등록결정서
Decision to grant
2018.12.14 발송처리완료 (Completion of Transmission) 9-5-2018-0862571-04
12 [명세서등 보정]보정서(심사관 직권보정)
2019.03.16 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2019-5007528-01
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
프로세서에 의해 수행되는, NFQ (Neural Fitted Q-Iteration) 기반의 강화 학습에 따른 행동 결정 방법으로서, 복수의 상태 전이 샘플 데이터를 기반으로, 현재 상태 (state) 및 행동 (action) 을 입력으로 가지고 상기 행동에 따른 Q 값을 출력으로 가지는 Q 값 함수를 인공 신경망에 훈련시키는 단계; 상기 Q 값 함수를 기반으로 소정 상태에서의 복수의 행동들에 따른 Q 값을 각각 산출하는 단계; 및상기 복수의 행동들 중 Q 값이 가장 큰 행동을 다음 행동으로 결정하는 단계를 포함하고, 상기 훈련시키는 단계는 학습 대상인 샘플 데이터의 시퀀스의 길이를 기반으로 다음 상태로의 전이 비용 (transition cost) 을 결정하는 것을 포함하고, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 길이 및 상기 시퀀스의 최종 상태 보상을 기반으로 결정되며, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 최종 상태 보상을 상기 시퀀스의 길이로 나눈 값에서 1 을 뺀 값으로 결정되는, 강화 학습에 따른 행동 결정 방법
2 2
제 1 항에 있어서, 상기 훈련시키는 단계는, 다음 상태가 최종 상태일 경우, 다음 상태의 보상 (Reward) 을 상기 Q 값으로 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 방법
3 3
제 1 항에 있어서, 상기 훈련시키는 단계는, 다음 상태가 최종 상태가 아닐 경우, 다음 상태로의 전이 비용 및 다음 상태의 최대 Q 값을 기반으로 상기 Q 값을 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 방법
4 4
제 1 항에 있어서, 상기 훈련시키는 단계는, 다음 상태가 최종 상태가 아닐 경우, 다음 상태로의 전이 비용과 디스카운트된 다음 상태의 최대 Q 값의 합을 상기 Q 값으로 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 방법
5 5
삭제
6 6
삭제
7 7
제 1 항에 있어서, 상기 최종 상태 보상은 정규화 (Normalize) 된 값인, 강화 학습에 따른 행동 결정 방법
8 8
제 1 항에 있어서, 상기 현재 상태는 현재까지 수행된 활동들을 나타내는, 강화 학습에 따른 행동 결정 방법
9 9
제 1 항에 있어서, 상기 행동은 현재 수행하고자 하는 활동을 나타내는, 강화 학습에 따른 행동 결정 방법
10 10
NFQ (Neural Fitted Q-Iteration) 기반의 강화 학습에 따른 행동 결정 장치로서, 상기 장치는 프로세서를 포함하고, 상기 프로세서는, 복수의 상태 전이 샘플 데이터를 기반으로, 현재 상태 (state) 및 행동 (action) 을 입력으로 가지고 상기 행동에 따른 Q 값을 출력으로 가지는 Q 값 함수를 인공 신경망에 훈련시키는 것; 상기 Q 값 함수를 기반으로 소정 상태에서의 복수의 행동들에 따른 Q 값을 각각 산출하는 것; 및상기 복수의 행동들 중 Q 값이 가장 큰 행동을 다음 행동으로 결정하는 것을 수행하도록 구성되고, 상기 훈련시키는 것은 학습 대상인 샘플 데이터의 시퀀스의 길이를 기반으로 다음 상태로의 전이 비용 (transition cost) 을 결정하는 것을 포함하고, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 길이 및 상기 시퀀스의 최종 상태 보상을 기반으로 결정되며, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 최종 상태 보상을 상기 시퀀스의 길이로 나눈 값에서 1 을 뺀 값으로 결정되는, 강화 학습에 따른 행동 결정 장치
11 11
제 10 항에 있어서, 상기 훈련시키는 것은, 다음 상태가 최종 상태일 경우, 다음 상태의 보상 (Reward) 을 상기 Q 값으로 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 장치
12 12
제 10 항에 있어서, 상기 훈련시키는 것은, 다음 상태가 최종 상태가 아닐 경우, 다음 상태로의 전이 비용 및 다음 상태의 최대 Q 값을 기반으로 상기 Q 값을 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 장치
13 13
제 10 항에 있어서, 상기 훈련시키는 것은, 다음 상태가 최종 상태가 아닐 경우, 다음 상태로의 전이 비용과 디스카운트된 다음 상태의 최대 Q 값의 합을 상기 Q 값으로 설정하는 것을 포함하는, 강화 학습에 따른 행동 결정 장치
14 14
삭제
15 15
삭제
16 16
제 10 항에 있어서, 상기 최종 상태 보상은 정규화 (Normalize) 된 값인, 강화 학습에 따른 행동 결정 장치
17 17
제 10 항에 있어서, 상기 현재 상태는 현재까지 수행된 활동들을 나타내는, 강화 학습에 따른 행동 결정 장치
18 18
제 10 항에 있어서, 상기 행동은 현재 수행하고자 하는 활동을 나타내는, 강화 학습에 따른 행동 결정 장치
19 19
컴퓨터 판독 가능한 저장 매체로서, NFQ (Neural Fitted Q-Iteration) 기반의 강화 학습에 따른 행동 결정을 수행하게 하기 위해, 상기 컴퓨터에 포함된 프로세서로 하여금, 복수의 상태 전이 샘플 데이터를 기반으로, 현재 상태 (state) 및 행동 (action) 을 입력으로 가지고 상기 행동에 따른 Q 값을 출력으로 가지는 Q 값 함수를 인공 신경망에 훈련시키도록 하기 위한 명령어; 상기 Q 값 함수를 기반으로 소정 상태에서의 복수의 행동들에 따른 Q 값을 각각 산출하도록 하기 위한 명령어; 및상기 복수의 행동들 중 Q 값이 가장 큰 행동을 다음 행동으로 결정하도록 하기 위한 명령어를 저장하고, 상기 훈련시키도록 하기 위한 명령어에는 학습 대상인 샘플 데이터의 시퀀스의 길이를 기반으로 다음 상태로의 전이 비용 (transition cost) 을 결정하는 명령어를 포함하고, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 길이 및 상기 시퀀스의 최종 상태 보상을 기반으로 결정되며, 상기 전이 비용은 학습 대상인 샘플 데이터의 시퀀스의 최종 상태 보상을 상기 시퀀스의 길이로 나눈 값에서 1 을 뺀 값으로 결정되는, 컴퓨터 판독 가능한 저장 매체
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 문화체육관광부 한국전자통신연구원 2016년 문화기술 연구개발 지원사업 지능형 라이브 서비스를 위한 게임 운영 시나리오 최적화 플랫폼 기술 개발
2 미래창조과학부 성균관대학교(자연과학캠퍼스) 차세대정보·컴퓨팅기술개발사업 의미 분석을 통한 연구내용 기반 상시 모니터링 시스템 개발