1 |
1
각각이 복수의 시뮬레이터들과 복수의 학습모듈들을 적재하고 실행할 수 있으며, 상기 복수의 시뮬레이터들 중 적어도 하나와 상기 복수의 학습모듈들 중 적어도 하나를 실행하여, 상기 적어도 하나의 시뮬레이터가 조성하는 환경에서 상기 적어도 하나의 학습모듈이 경험을 쌓으면서 지능을 향상시키도록 하는 복수의 컴퓨팅 노드들; 및상기 복수의 컴퓨팅 노드들 각각의 상태 정보를 수집하고 수집된 상태 정보를 토대로 상기 복수의 컴퓨팅 노드들 각각에서 실행될 상기 적어도 하나의 시뮬레이터와 상기 적어도 하나의 학습모듈을 배치하는 학습 관리 서버;를 구비하고,상기 관리 서버가 프로세서; 및 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 메모리;를 포함하고, 상기 프로그램 명령어들은 상기 프로세서에 의해 실행되었을 때: 상기 복수의 컴퓨팅 노드들 각각에 대하여 시뮬레이션 실행 부하를 토대로 상기 복수의 시뮬레이터들 중 실행되는 시뮬레이터의 숫자를 조절하는 동작;을 수행하는 명령을 포함하는 강화 학습 시스템
|
2 |
2
청구항 1에 있어서, 상기 실행되는 시뮬레이터의 숫자를 조절하는 동작을 수행하는 명령은 상기 복수의 컴퓨팅 노드 각각에서 에피소드가 종료될 때마다 소정의 속도 지표가 일정한 기준치보다 낮은지 판단하는 동작; 및 상기 속도 지표가 상기 기준치보다 낮은 경우 종료된 에피소드에 연관된 시뮬레이터를 종료하고 새로운 시뮬레이터의 동작을 시작하지 않으며, 상기 속도 지표가 상기 기준치보다 낮지 않은 경우에만 새로운 시뮬레이터의 동작이 시작되게 하는 동작;을 수행하는 명령을 포함하는 강화 학습 시스템
|
3 |
3
청구항 2에 있어서, 상기 속도 지표가 상기 기준치보다 낮은지 판단하는 동작을 수행하는 명령은 상기 프로세서에 의해 실행되었을 때 상기 기준치로서 상기 시뮬레이션 부하에 대한 임계치를 결정하는 동작; 일정한 시간간격마다 상기 복수의 컴퓨팅 노드 각각에서 실행중인 시뮬레이터들의 실시간계수 합산치를 기록하는 동작; 상기 복수의 컴퓨팅 노드 각각에서 에피소드 종료시마다 실행중이거나 실행이 종료되는 시뮬레이터들의 상기 실시간계수 합산치의 평균치를 계산하는 동작; 및 상기 평균치가 상기 임계치보다 큰 지 판단하는 동작;을 수행하는 명령을 포함하는 강화 학습 시스템
|
4 |
4
청구항 2에 있어서, 상기 속도 지표가 상기 기준치보다 낮은지 판단하는 동작을 수행하는 명령은 상기 프로세서에 의해 실행되었을 때 일정한 시간간격마다 상기 복수의 컴퓨팅 노드 각각에서 실행중인 시뮬레이터들의 실시간계수 합산치를 기록하고, 상기 합산치의 이동평균을 계산하는 동작; 상기 복수의 컴퓨팅 노드 각각에서 에피소드 종료시마다 실행중이거나 실행이 종료되는 시뮬레이터들의 상기 실시간계수 합산치의 평균치를 계산하는 동작; 및 상기 평균치가 상기 이동평균보다 큰 지 판단하는 동작;을 수행하는 명령을 포함하는 강화 학습 시스템
|
5 |
5
청구항 4에 있어서, 상기 평균치가 상기 이동평균보다 큰 지 판단하는 동작을 수행하는 명령은 상기 프로세서에 의해 실행되었을 때 해당 컴퓨팅 노드의 프로세서 부하가 일정 기준보다 큰 지를 추가적으로 판단하는 동작;을 수행하는 명령을 포함하는 강화 학습 시스템
|
6 |
6
청구항 1에 있어서, 상기 프로그램 명령어들은 상기 프로세서에 의해 실행되었을 때: 상기 복수의 컴퓨팅 노드들 각각에서의 각 시뮬레이터의 상태와 상기 시뮬레이터가 형성하는 시뮬레이션 환경에서 학습을 행한 학습 모듈의 경험을 받아들이고, 상기 시뮬레이터 상태와 상기 학습 모듈 경험을 맵핑시킨 형태의 학습 상태를 저장 장치에 저장하는 동작; 다수의 학습 상태에 대하여 우선순위를 결정하는 동작; 및 상기 복수의 컴퓨팅 노드 각각에서 에피소드가 종료되어 새로운 시뮬레이터의 동작이 시작되어야 할 때 상기 우선순위가 높은 학습 상태가 실행되게 하는 동작;을 수행하는 명령을 포함하는 강화 학습 시스템
|
7 |
7
청구항 6에 있어서, 상기 우선순위를 결정하는 동작을 수행하는 명령은 상기 프로세서에 의해 실행되었을 때 상기 복수의 학습모듈들이 잘 못하거나 낯선 학습 상태에 대하여 높은 우선순위를 부여하는 동작;을 수행하는 명령을 포함하는 강화 학습 시스템
|
8 |
8
각각이 복수의 시뮬레이터들과 복수의 학습모듈들을 적재하고 실행할 수 있는 복수의 컴퓨팅 노드들을 구비하는 강화 학습 시스템에서의, 병렬 강화 학습 방법으로서,상기 복수의 컴퓨팅 노드들 각각에서 상기 복수의 시뮬레이터들 중 적어도 하나와 상기 복수의 학습모듈들 중 적어도 하나가 실행되게 하여, 상기 적어도 하나의 시뮬레이터가 조성하는 환경에서 상기 적어도 하나의 학습모듈이 경험을 쌓으면서 지능을 향상시키도록 하는 단계; 및상기 복수의 컴퓨팅 노드 각각에서 에피소드가 종료될 때마다 상기 복수의 컴퓨팅 노드들 각각에 대하여 시뮬레이션 실행 부하를 토대로 상기 복수의 시뮬레이터들 중 실행되는 시뮬레이터의 숫자를 조절하는 단계;를 포함하는 병렬 강화 학습 방법
|
9 |
9
청구항 8에 있어서, 상기 시뮬레이터 숫자를 조절하는 단계가상기 복수의 컴퓨팅 노드 각각에서 에피소드가 종료될 때마다 소정의 속도 지표가 일정한 기준치보다 낮은지 판단하는 단계; 및상기 속도 지표가 상기 기준치보다 낮은 경우 종료된 에피소드에 연관된 시뮬레이터를 종료하고 새로운 시뮬레이터의 동작을 시작하지 않으며, 상기 속도 지표가 상기 기준치보다 낮지 않은 경우에만 새로운 시뮬레이터의 동작이 시작되게 하는 단계;를 포함하는 병렬 강화 학습 방법
|
10 |
10
청구항 9에 있어서, 상기 속도 지표가 상기 기준치보다 낮은지 판단하는 단계가상기 기준치로서 상기 시뮬레이션 부하에 대한 임계치를 결정하는 단계;일정한 시간간격마다 상기 복수의 컴퓨팅 노드 각각에서 실행중인 시뮬레이터들의 실시간계수 합산치를 기록하는 단계;상기 복수의 컴퓨팅 노드 각각에서 에피소드 종료시마다 실행중이거나 실행이 종료되는 시뮬레이터들의 상기 실시간계수 합산치의 평균치를 계산하는 단계; 및상기 평균치가 상기 임계치보다 큰 지 판단하는 단계;를 포함하는 병렬 강화 학습 방법
|
11 |
11
청구항 9에 있어서, 상기 속도 지표가 상기 기준치보다 낮은지 판단하는 단계가일정한 시간간격마다 상기 복수의 컴퓨팅 노드 각각에서 실행중인 시뮬레이터들의 실시간계수 합산치를 기록하고, 상기 합산치의 이동평균을 계산하는 단계;상기 복수의 컴퓨팅 노드 각각에서 에피소드 종료시마다 실행중이거나 실행이 종료되는 시뮬레이터들의 상기 실시간계수 합산치의 평균치를 계산하는 단계; 및상기 평균치가 상기 이동평균보다 큰 지 판단하는 단계;를 포함하는 병렬 강화 학습 방법
|
12 |
12
청구항 11에 있어서, 상기 평균치가 상기 이동평균보다 큰 지 판단하는 단계가해당 컴퓨팅 노드에서 프로세서의 부하가 일정 기준보다 큰 지를 판단하는 단계;를 더 포함하는 병렬 강화 학습 방법
|
13 |
13
청구항 8에 있어서,상기 복수의 컴퓨팅 노드들 각각에서의 각 시뮬레이터의 상태와 상기 시뮬레이터가 형성하는 시뮬레이션 환경에서 학습을 행한 학습 모듈의 경험을 받아들이고, 상기 시뮬레이터 상태와 상기 학습 모듈 경험을 맵핑시킨 형태의 학습 상태를 저장 장치에 저장하는 단계;다수의 학습 상태에 대하여 우선순위를 결정하는 단계; 및상기 복수의 컴퓨팅 노드 각각에서 에피소드가 종료되어 새로운 시뮬레이터의 동작이 시작되어야 할 때 상기 우선순위가 높은 학습 상태가 실행되게 하는 단계;를 더 포함하는 병렬 강화 학습 방법
|
14 |
14
청구항 13에 있어서, 상기 우선순위를 결정함에 있어서, 상기 복수의 학습모듈들이 잘 못하거나 낯선 학습 상태에 대하여 높은 우선순위를 부여하는 병렬 강화 학습 방법
|