1 |
1
컴퓨터를 통해 수행되는 일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 방법에 있어서, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화 단계를 포함하고, 상기 정책 신뢰도 정량화 단계는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 및 근사화된 두 개의 상기 매핑 함수를 비교하는 단계를 포함하는, 정량화 방법
|
2 |
2
제1항에 있어서, 상기 일반화 능력의 정밀한 검증을 위해, 상기 작업의 실제 문제의 복잡도와 문맥 변화를 매개변수화 한 작업공간에서 샘플링된 작업에 대한 일반화 가능성을 검증하는 일반화 능력 검증 단계를 더 포함하는, 정량화 방법
|
3 |
3
제2항에 있어서, 환경으로부터 행동으로 연결되는 정보의 전환 또는 이동 과정이 핵심적인 인간 지능의 행동 원리를 제대로 반영하고 있는지를 정량화하는 문제해결 정보처리 효율 정량화 단계를 더 포함하는, 정량화 방법
|
4 |
4
제3항에 있어서, 상기 문제해결 정보처리 효율 정량화 단계는, 상기 문맥 변화에 따라 문제해결 정책을 변화시키는 인간 모사형 강화학습 모델의 정책 신뢰도 정량화를 통한 적응 능력과 문제해결을 위해 검증된 일반화 능력과의 연결성 확인을 위해 마르코프 체인(Markov chain)을 이용하여 정량화 하는 것을 특징으로 하는, 정량화 방법
|
5 |
5
제3항에 있어서, 상기 문제해결 정보처리 효율 정량화 단계는, 문제해결 과정에서 발생되는 과거 에피소드가 강화학습 정책에 반영되는 정보 압축 효율과 강화학습 정책으로부터 도출되는 행동의 최적성 비율을 에피소드-정책-행동으로 이어지는 마르코프 체인상의 상호 정보량(mutual information)을 이용하여 계산하는 것을 특징으로 하는, 정량화 방법
|
6 |
6
제5항에 있어서, 상기 행동의 최적성 비율은 최적의 문제해결을 위해 에피소드 정보를 강화학습 정책결정에 반영하는 정보전달 체계를 나타내는 지표가 되는 것을 특징으로 하는, 정량화 방법
|
7 |
7
제1항에 있어서, 상기 강화학습 모델은, 인간이 학습한 정책 정보를 신뢰성 있게 인코딩하는 모델 기반 제어와 모델 없는(model-free) 제어를 결합한 계산 모델인 것을 특징으로 하는, 정량화 방법
|
8 |
8
제1항에 있어서, 상기 강화학습 모델은, 목표 매칭(goal matching, GM), 행동 복제(behavior cloning, BC) 및 정책 매칭(policy matching, PM)의 학습 방법을 통해 구축되는 것을 특징으로 하는, 정량화 방법
|
9 |
9
일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 장치에 있어서, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화부를 포함하고, 상기 정책 신뢰도 정량화부는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하고, 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화한 후, 근사화된 두 개의 상기 매핑 함수를 비교하는 것을 특징으로 하는, 정량화 장치
|
10 |
10
제9항에 있어서, 상기 일반화 능력의 정밀한 검증을 위해, 상기 작업의 실제 문제의 복잡도와 문맥 변화를 매개변수화 한 작업공간에서 샘플링된 작업에 대한 일반화 가능성을 검증하는 일반화 능력 검증부를 더 포함하는, 정량화 장치
|
11 |
11
제10항에 있어서, 환경으로부터 행동으로 연결되는 정보의 전환 또는 이동 과정이 핵심적인 인간 지능의 행동 원리를 제대로 반영하고 있는지를 정량화하는 문제해결 정보처리 효율 정량화부를 더 포함하는, 정량화 장치
|
12 |
12
제11항에 있어서, 상기 문제해결 정보처리 효율 정량화부는, 상기 문맥 변화에 따라 문제해결 정책을 변화시키는 인간 모사형 강화학습 모델의 상기 정책 신뢰도 정량화부를 통한 적응 능력과 상기 일반화 능력 검증부를 통한 문제해결을 위해 검증된 일반화 능력과의 연결성 확인을 위해 마르코프 체인(Markov chain)을 이용하여 정량화 하는 것을 특징으로 하는, 정량화 장치
|
13 |
13
제11항에 있어서, 상기 문제해결 정보처리 효율 정량화부는, 문제해결 과정에서 발생되는 과거 에피소드가 강화학습 정책에 반영되는 정보 압축 효율과 강화학습 정책으로부터 도출되는 행동의 최적성 비율을 에피소드-정책-행동으로 이어지는 마르코프 체인상의 상호 정보량(mutual information)을 이용하여 계산하는 것을 특징으로 하는, 정량화 장치
|
14 |
14
제13항에 있어서, 상기 행동의 최적성 비율은 최적의 문제해결을 위해 에피소드 정보를 강화학습 정책결정에 반영하는 정보전달 체계를 나타내는 지표가 되는 것을 특징으로 하는, 정량화 장치
|
15 |
15
제9항에 있어서, 상기 강화학습 모델은, 인간이 학습한 정책 정보를 신뢰성 있게 인코딩하는 모델 기반 제어와 모델 없는(model-free) 제어를 결합한 계산 모델인 것을 특징으로 하는, 정량화 장치
|