1 |
1
1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치에서 수행하는 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법으로서,N(N은 2 이상의 자연수) 개의 메인에이전트 각각에 의하여, 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 메인에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 기설정된 행동정책을 기반으로 선택하는 메인에이전트행동단계;N 개의 가이드에이전트 각각에 의하여, 상기 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 가이드에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 선택하는 가이드에이전트행동단계;상기 메인에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 메인에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 메인에이전트보상값을 도출하는 메인에이전트보상값도출단계;상기 가이드에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 가이드에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 가이드에이전트보상값을 도출하는 가이드에이전트보상값도출단계; 및상기 메인에이전트보상값 및 상기 가이드에이전트보상값의 차이값에 기초하여 학습보상값을 도출하고, 상기 학습보상값을 N 개의 메인에이전트 가운데 1 이상의 메인에이전트에 제공하여 해당 메인에이전트의 행동정책을 업데이트하도록 하는 메인에이전트학습단계;를 포함하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
|
2 |
2
청구항 1에 있어서,상기 메인에이전트에 기설정된 행동정책은,상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동을 무작위로 선택하도록 하는 제1정책; 및 상기 제1행동에 대한 행동가치함수(Q-value) 및 상기 제2행동에 대한 행동가치함수의 값을 비교하여 높은 값에 해당하는 행동을 선택하도록 하는 제2정책;을 포함하고,상기 가이드에이전트는,상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동을 무작위로 선택하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
|
3 |
3
청구항 1에 있어서,상기 메인에이전트보상값도출단계는,분류모듈에 의하여, 상기 메인에이전트행동단계를 통해 수행된 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 메인에이전트의 행동의 선택에 따른 결과를 입력받아, 상기 복수의 데이터 각각을 레이블링하는 분류단계; 및상기 분류단계에서 상기 복수의 데이터 각각에 레이블링된 레이블링 값 및 상기 복수의 데이터 각각에 기설정된 레이블링 값을 비교하여 분류정확도를 산출하는 분류정확도산출단계;를 포함하고,상기 분류정확도산출단계에서 산출된 분류정확도는 상기 메인에이전트보상값에 해당하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
|
4 |
4
청구항 1에 있어서,상기 메인에이전트학습단계는,상기 메인에이전트행동단계를 통해 상기 N 개의 메인에이전트 각각이 할당받은 1 개의 특징에 대하여 선택한 상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동과, 상기 가이드에이전트행동단계를 통해 상기 N 개의 가이드에이전트 각각이 할당받은 1 개의 특징에 대하여 선택한 상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동을 비교하는 행동비교단계; 및동일한 특징을 할당받은 메인에이전트 및 가이드에이전트에 대하여, 해당 메인에이전트에서 선택한 어느 하나의 행동과 해당 가이드에이전트에서 선택한 어느 하나의 행동이 상이한 경우에 해당 메인에이전트에 상기 학습보상값을 제공하고, 해당 메인에이전트에서 선택한 어느 하나의 행동과 해당 가이드에이전트에서 선택한 어느 하나의 행동이 동일한 경우에 해당 메인에이전트에는 상기 학습보상값을 제공하지 않는 학습보상값제공단계;를 포함하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
|
5 |
5
청구항 4에 있어서,상기 메인에이전트에 기설정된 행동정책은,상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동을 무작위로 선택하도록 하는 제1정책; 및 상기 제1행동에 대한 행동가치함수 및 상기 제2행동에 대한 행동가치함수의 값을 비교하여, 높은 값에 해당하는 행동을 선택하도록 하는 제2정책;을 포함하고,상기 학습보상값제공단계를 통해 상기 학습보상값을 제공받은 메인에이전트는,상기 제1행동에 대한 행동가치함수 및 상기 제2행동에 대한 행동가치함수 가운데 해당 메인에이전트가 선택한 상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동에 상응하는 행동가치함수를 상기 제공받은 학습보상값을 사용하여 업데이트하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
|
6 |
6
복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법을 수행하는 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치로서,N(N은 2 이상의 자연수) 개의 메인에이전트 각각에 의하여, 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 메인에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 기설정된 행동정책을 기반으로 선택하는 메인에이전트행동단계;N 개의 가이드에이전트 각각에 의하여, 상기 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 가이드에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 선택하는 가이드에이전트행동단계;상기 메인에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 메인에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 메인에이전트보상값을 도출하는 메인에이전트보상값도출단계;상기 가이드에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 가이드에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 가이드에이전트보상값을 도출하는 가이드에이전트보상값도출단계; 및상기 메인에이전트보상값 및 상기 가이드에이전트보상값의 차이값에 기초하여 학습보상값을 도출하고, 상기 학습보상값을 N 개의 메인에이전트 가운데 1 이상의 메인에이전트에 제공하여 해당 메인에이전트의 행동정책을 업데이트하도록 하는 메인에이전트학습단계;를 수행하는, 컴퓨팅장치
|
7 |
7
1 이상의 프로세서에 의해 실행되는 복수의 명령들을 포함하는, 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램으로서,상기 컴퓨터 프로그램은,N(N은 2 이상의 자연수) 개의 메인에이전트 각각에 의하여, 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 메인에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 기설정된 행동정책을 기반으로 선택하는 메인에이전트행동단계;N 개의 가이드에이전트 각각에 의하여, 상기 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 가이드에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 선택하는 가이드에이전트행동단계;상기 메인에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 메인에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 메인에이전트보상값을 도출하는 메인에이전트보상값도출단계;상기 가이드에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 가이드에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 가이드에이전트보상값을 도출하는 가이드에이전트보상값도출단계; 및상기 메인에이전트보상값 및 상기 가이드에이전트보상값의 차이값에 기초하여 학습보상값을 도출하고, 상기 학습보상값을 N 개의 메인에이전트 가운데 1 이상의 메인에이전트에 제공하여 해당 메인에이전트의 행동정책을 업데이트하도록 하는 메인에이전트학습단계;를 포함하는, 컴퓨터 프로그램
|