1 |
1
컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법에 있어서,전장 상황 시뮬레이터로부터 방책에 대한 상태(state) 정보 내의 관찰(observation) 정보를 획득하는 단계;상기 관찰 정보를 기초로 행동(action)을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계;상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상(reward)을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및상기 획득되는 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함하되,상기 보상은 공통 보상과 그룹 보상을 포함하고,상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는전장 상황에서의 방책 추천을 위한 강화학습 방법
|
2 |
2
제 1 항에 있어서,상기 학습 모델은,방책 수행을 위한 적어도 하나의 정책이 설정되도록 학습되는전장 상황에서의 방책 추천을 위한 강화학습 방법
|
3 |
3
삭제
|
4 |
4
삭제
|
5 |
5
제 1 항에 있어서,멀티 에이전트 환경에서 동일한 그룹의 에이전트가 상기 학습 모델을 공유하는전장 상황에서의 방책 추천을 위한 강화학습 방법
|
6 |
6
목표로 하는 방책에 대한 시뮬레이션 환경을 제공하는 전장 상황 시뮬레이터; 및상기 전장 상황 시뮬레이터로부터 상기 방책에 대한 상태 정보 내의 관찰 정보를 획득하고, 상기 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하며, 상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하고, 상기 획득되는 보상을 누적하되 누적되는 보상이 최대가 되는 정책을 설정하도록 기 설정된 학습 모델을 학습시키는 컴퓨팅 장치;를 포함하되,상기 보상은 공통 보상과 그룹 보상을 포함하고,상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는전장 상황에서의 방책 추천을 위한 강화학습 시스템
|
7 |
7
제 6 항에 있어서,상기 전장 상황 시뮬레이터는,상기 방책을 기초로 보상 형성을 수행하는 방책 설정부를 더 포함하는전장 상황에서의 방책 추천을 위한 강화학습 시스템
|
8 |
8
삭제
|
9 |
9
적어도 하나의 명령어를 저장하는 저장부와,처리부를 포함하며,상기 처리부에 의해 상기 적어도 하나의 명령어가 실행됨으로써,전장 상황 시뮬레이터로부터 방책에 대한 상태 정보 내의 관찰 정보를 획득하고,관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하며,상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하고,상기 획득되는 보상을 누적하되 누적되는 보상이 최대가 되는 정책을 설정하도록 기 설정된 학습 모델을 학습시키며,상기 보상은 공통 보상과 그룹 보상을 포함하고,상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는컴퓨팅 장치
|
10 |
10
삭제
|
11 |
11
삭제
|
12 |
12
제 9 항에 있어서,멀티 에이전트 환경에서 동일한 그룹의 에이전트가 상기 학습 모델을 공유하는컴퓨팅 장치
|
13 |
13
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,상기 컴퓨터 프로그램은,컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하고,상기 방법은,전장 상황 시뮬레이터로부터 방책에 대한 상태정보 내의 관찰 정보를 획득하는 단계;상기 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계;상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및상기 획득되는 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함하되,상기 보상은 공통 보상과 그룹 보상을 포함하고,상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는컴퓨터 판독 가능한 기록매체
|
14 |
14
컴퓨터 판독 가능 기록매체에 저장된 컴퓨터 프로그램으로서,상기 컴퓨터 프로그램은,컴퓨팅 장치가 수행하는 전장 상황에서의 방책 추천을 위한 강화학습 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하고,상기 방법은,전장 상황 시뮬레이터로부터 방책에 대한 상태정보 내의 관찰 정보를 획득하는 단계;상기 관찰 정보를 기초로 행동을 선택하여 상기 전장 상황 시뮬레이터로 전달하는 단계;상기 전장 상황 시뮬레이터로부터 상기 행동을 기반으로 한 보상을 획득하면서 상기 행동을 표현하는 정책을 설정하는 단계; 및상기 획득되는 보상을 누적하되, 누적되는 보상이 최대가 되는 정책을 설정하도록 상기 컴퓨팅 장치 내의 학습 모델을 학습시키는 단계;를 포함하되,상기 보상은 공통 보상과 그룹 보상을 포함하고,상기 그룹 보상은 포텐셜 기반 보상 형성 함수의 정의를 만족하도록 설정되는기록매체에 저장된 컴퓨터 프로그램
|