요약 |
본 발명은 실시간으로 변화하는 환경에 놓인 에이전트의 환경 적응성을 높이기 위해 강화학습을 효과적으로 지원할 수 있는 새로운 행위-기반 에이전트 구조인 L-CAA이다. 강화학습 초기의 낮은 성능 문제를 극복하기 위해 L-CAA 에이전트 구조는 행위 선택과 실행 메커니즘을 강화학습에만 전적으로 의존하지 않고 사용자가 정의해준 행위 선택 전략에 보조적으로 이용한다. 이러한 행위 선택 전략은 별도의 내부 모델과 내부 행위에 의해 표현된다. L-CAA에서 행위 선택 메커니즘은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 사용자가 미리 정의한 각 행위의 적용 가능 조건과 효용성을 검사함으로써 행위 라이브러리로부터 실행할 행위들을 추출한다. 하지만 첫 번째 단계에서 다수의 행위가 추출되면, 두 번째 단계에서는 강화학습의 도움을 받아 이들 중에서 실행할 하나의 행위를 선택한다. 즉, 강화학습을 통해 갱신된 각 행위들의 Q 함수값을 서로 비교함으로써, 가장 큰 기대 보상값을 가진 행위를 선택하여 실행한다. 또한 L-CAA에서는 실행 중인 행위의 유지 가능 조건을 지속적으로 검사하여 환경의 동적 변화로 인해 일부 조건이 만족되지 않는 경우가 발생하면 현재 행위의 실행을 즉시 종료할 수 있다. 그 뿐 아니라, L-CAA는 행위 실행 중에도 효용성이 더 높은 다른 행위가 발생하면 현재의 행위를 일시 정지하였다가 복귀하는 기능도 제공한다. 지능형 에이전트, 강화학습, 행위-기반 구조, 내부 및 외부 행위
|