1 |
1
상태 데이터와 보상 데이터가 인가되면, 기설정된 액터 데이터에 따라 액션 데이터를 출력하는 에이전트 모듈; 상기 에이전트 모듈로부터 액션 데이터가 인가되면, 기설정된 환경 데이터에 따라 인가된 액션 데이터에 대응하여 상태 데이터와 보상 데이터를 업데이트 하는 환경 모듈; 및 상기 에이전트 모듈 및 상기 환경 모듈에 미리 설정되거나 업데이트 되는 데이터 중 적어도 하나를 인가받아 기지정된 화면으로 구성하여 출력하고, 사용자에 의해 상기 에이전트 모듈 및 상기 환경 모듈에 미리 설정되거나 업데이트되는 데이터 중 적어도 하나의 데이터를 변경하기 위한 변경 데이터가 설정되어 인가되면, 인가된 변경 데이터에 대응하는 데이터를 변경 데이터로 대체하는 환경 변경 모듈을 포함하는 인공지능 학습 장치
|
2 |
2
제1항에 있어서, 상기 환경 변경 모듈은 상기 변경 데이터의 종류에 따라 기지정된 차원을 확인하고, 상기 변경 데이터의 차원이 기지정된 차원과 상이하면, 상기 변경 데이터의 차원이 기지정된 차원이 되도록 변환하여, 상기 에이전트 모듈 또는 상기 환경 모듈로 인가하는 인공지능 학습 장치
|
3 |
3
제2항에 있어서, 상기 환경 변경 모듈은 상기 변경 데이터의 차원이 기지정된 차원이 되도록 제로 패딩 기법에 따라 변환하는 인공지능 학습 장치
|
4 |
4
제1항에 있어서, 상기 환경 변경 모듈은 상기 에이전트 모듈 및 상기 환경 모듈로부터 미리 설정되거나 업데이트 되는 데이터가 저장된 메모리 어드레스를 인가받아, 메모리에서 미리 설정되거나 업데이트 되는 데이터를 획득하는 인공지능 학습 장치
|
5 |
5
제4항에 있어서, 상기 환경 변경 모듈은 상기 변경 데이터가 인가되면, 상기 메모리에 변경 데이터를 저장하고, 저장된 변경 데이터의 메모리 어드레스를 상기 에이전트 모듈 또는 상기 환경 모듈로 인가하는 인공지능 학습 장치
|
6 |
6
인공 지능 에이전트 모듈을 학습시키기 위한 컴퓨팅 장치에서 수행되는 방법으로서, 상기 에이전트 모듈과 상기 에이전트 모듈이 액션 데이터를 출력할 수 있도록 상태 데이터와 보상 데이터를 제공하는 환경 모듈을 구동시키기 위한 데이터를 설정하는 단계; 설정된 데이터에 따라 상기 에이전트 모듈과 상기 환경 모듈을 구동하여 강화 학습을 수행하는 단계; 및 강화 학습 중 사용자에 의해 상기 에이전트 모듈 및 상기 환경 모듈에 미리 설정되거나 업데이트되는 데이터 중 적어도 하나의 데이터를 변경하기 위한 변경 데이터가 설정되어 인가되면, 인가된 변경 데이터에 대응하는 데이터를 변경 데이터로 대체하는 단계를 포함하는 인공지능 학습 방법
|
7 |
7
제6항에 있어서, 상기 변경 데이터로 대체하는 단계는 변경 데이터가 설정되어 인가되면, 인가된 상기 변경 데이터의 종류에 따라 기지정된 차원을 확인하는 단계; 상기 변경 데이터의 차원이 기지정된 차원과 상이하면, 상기 변경 데이터의 차원이 기지정된 차원이 되도록 변환하는 단계; 및 변환된 변경 데이터를 상기 에이전트 모듈 또는 상기 환경 모듈로 인가하는 단계를 포함하는 인공지능 학습 방법
|
8 |
8
제7항에 있어서, 상기 변환하는 단계는 상기 변경 데이터의 차원이 기지정된 차원이 되도록 제로 패딩 기법에 따라 변환하는 인공지능 학습 방법
|
9 |
9
제6항에 있어서, 상기 데이터를 설정하는 단계는 상기 에이전트 모듈 및 상기 환경 모듈로부터 미리 설정되거나 업데이트 되는 데이터가 저장된 메모리 어드레스를 인가는 단계; 및 메모리에서 미리 설정되거나 업데이트 되는 데이터를 획득하는 인공지능 학습 방법
|
10 |
10
제9항에 있어서, 상기 변경 데이터로 대체하는 단계는 상기 변경 데이터가 인가되면, 상기 메모리에 변경 데이터를 저장하는 단계; 및 저장된 변경 데이터의 메모리 어드레스를 상기 에이전트 모듈 또는 상기 환경 모듈로 인가하는 단계를 포함하는 인공지능 학습 방법
|