맞춤기술찾기

이전대상기술

일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치

  • 기술번호 : KST2022003550
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치가 제시된다. 일 실시예에 따른 컴퓨터를 통해 수행되는 일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 방법은, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화 단계를 포함하고, 상기 정책 신뢰도 정량화 단계는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 및 근사화된 두 개의 상기 매핑 함수를 비교하는 단계를 포함하여 이루어질 수 있다.
Int. CL G06N 20/00 (2019.01.01)
CPC G06N 20/00(2013.01)
출원번호/일자 1020200126999 (2020.09.29)
출원인 한국과학기술원
등록번호/일자
공개번호/일자 10-2022-0043509 (2022.04.05) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.09.29)
심사청구항수 15

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국과학기술원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이상완 대전광역시 유성구
2 김동재 대전광역시 유성구
3 신재훈 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 양성보 대한민국 서울특별시 강남구 선릉로***길 ** (논현동) 삼성빌딩 *층(피앤티특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.09.29 수리 (Accepted) 1-1-2020-1039765-18
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
컴퓨터를 통해 수행되는 일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 방법에 있어서, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화 단계를 포함하고, 상기 정책 신뢰도 정량화 단계는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 및 근사화된 두 개의 상기 매핑 함수를 비교하는 단계를 포함하는, 정량화 방법
2 2
제1항에 있어서, 상기 일반화 능력의 정밀한 검증을 위해, 상기 작업의 실제 문제의 복잡도와 문맥 변화를 매개변수화 한 작업공간에서 샘플링된 작업에 대한 일반화 가능성을 검증하는 일반화 능력 검증 단계를 더 포함하는, 정량화 방법
3 3
제2항에 있어서, 환경으로부터 행동으로 연결되는 정보의 전환 또는 이동 과정이 핵심적인 인간 지능의 행동 원리를 제대로 반영하고 있는지를 정량화하는 문제해결 정보처리 효율 정량화 단계를 더 포함하는, 정량화 방법
4 4
제3항에 있어서, 상기 문제해결 정보처리 효율 정량화 단계는, 상기 문맥 변화에 따라 문제해결 정책을 변화시키는 인간 모사형 강화학습 모델의 정책 신뢰도 정량화를 통한 적응 능력과 문제해결을 위해 검증된 일반화 능력과의 연결성 확인을 위해 마르코프 체인(Markov chain)을 이용하여 정량화 하는 것을 특징으로 하는, 정량화 방법
5 5
제3항에 있어서, 상기 문제해결 정보처리 효율 정량화 단계는, 문제해결 과정에서 발생되는 과거 에피소드가 강화학습 정책에 반영되는 정보 압축 효율과 강화학습 정책으로부터 도출되는 행동의 최적성 비율을 에피소드-정책-행동으로 이어지는 마르코프 체인상의 상호 정보량(mutual information)을 이용하여 계산하는 것을 특징으로 하는, 정량화 방법
6 6
제5항에 있어서, 상기 행동의 최적성 비율은 최적의 문제해결을 위해 에피소드 정보를 강화학습 정책결정에 반영하는 정보전달 체계를 나타내는 지표가 되는 것을 특징으로 하는, 정량화 방법
7 7
제1항에 있어서, 상기 강화학습 모델은, 인간이 학습한 정책 정보를 신뢰성 있게 인코딩하는 모델 기반 제어와 모델 없는(model-free) 제어를 결합한 계산 모델인 것을 특징으로 하는, 정량화 방법
8 8
제1항에 있어서, 상기 강화학습 모델은, 목표 매칭(goal matching, GM), 행동 복제(behavior cloning, BC) 및 정책 매칭(policy matching, PM)의 학습 방법을 통해 구축되는 것을 특징으로 하는, 정량화 방법
9 9
일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 장치에 있어서, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화부를 포함하고, 상기 정책 신뢰도 정량화부는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하고, 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화한 후, 근사화된 두 개의 상기 매핑 함수를 비교하는 것을 특징으로 하는, 정량화 장치
10 10
제9항에 있어서, 상기 일반화 능력의 정밀한 검증을 위해, 상기 작업의 실제 문제의 복잡도와 문맥 변화를 매개변수화 한 작업공간에서 샘플링된 작업에 대한 일반화 가능성을 검증하는 일반화 능력 검증부를 더 포함하는, 정량화 장치
11 11
제10항에 있어서, 환경으로부터 행동으로 연결되는 정보의 전환 또는 이동 과정이 핵심적인 인간 지능의 행동 원리를 제대로 반영하고 있는지를 정량화하는 문제해결 정보처리 효율 정량화부를 더 포함하는, 정량화 장치
12 12
제11항에 있어서, 상기 문제해결 정보처리 효율 정량화부는, 상기 문맥 변화에 따라 문제해결 정책을 변화시키는 인간 모사형 강화학습 모델의 상기 정책 신뢰도 정량화부를 통한 적응 능력과 상기 일반화 능력 검증부를 통한 문제해결을 위해 검증된 일반화 능력과의 연결성 확인을 위해 마르코프 체인(Markov chain)을 이용하여 정량화 하는 것을 특징으로 하는, 정량화 장치
13 13
제11항에 있어서, 상기 문제해결 정보처리 효율 정량화부는, 문제해결 과정에서 발생되는 과거 에피소드가 강화학습 정책에 반영되는 정보 압축 효율과 강화학습 정책으로부터 도출되는 행동의 최적성 비율을 에피소드-정책-행동으로 이어지는 마르코프 체인상의 상호 정보량(mutual information)을 이용하여 계산하는 것을 특징으로 하는, 정량화 장치
14 14
제13항에 있어서, 상기 행동의 최적성 비율은 최적의 문제해결을 위해 에피소드 정보를 강화학습 정책결정에 반영하는 정보전달 체계를 나타내는 지표가 되는 것을 특징으로 하는, 정량화 장치
15 15
제9항에 있어서, 상기 강화학습 모델은, 인간이 학습한 정책 정보를 신뢰성 있게 인코딩하는 모델 기반 제어와 모델 없는(model-free) 제어를 결합한 계산 모델인 것을 특징으로 하는, 정량화 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 한국과학기술원 정보통신.방송 연구개발사업 (통합EZ)뇌·인지 발달과정의 기초-영아단계 모사형 실세계 상호작용 경험 기반 객체 관련 개념의 기계학습 기술 개발(2020)
2 과학기술정보통신부 한국과학기술원 원천기술개발사업 (통합EZ)초고속 학습이 가능한 메타인지-모사 인공지능 설계(2020)
3 산업체 한국과학기술원 산업체연구개발사업 전문가 학습 및 추론 능력 극대화를 위한 스마트 머신 개발(6회차,끝)(2019)