1 |
1
인공지능 에이전트(artificial intelligent agent)를 훈련시키는 컴퓨팅 장치 상에서 수행되는 방법으로서,(a) 사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조를 획득하는 단계;(b) 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로를 생성하는 단계;(c) (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 단계; 및(d) 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 단계로서, 상기 훈련은 상기 인공지능 에이전트로 하여금 입력된 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습인, 단계;를 포함하되, 상기 (c) 단계는,(c1) (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하는 단계; 및(c2) 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는 단계를 포함하는, 인공지능 에이전트 훈련 방법
|
2 |
2
제1항에 있어서,상기 (b) 단계 내지 (d) 단계는, 소정의 훈련 종료 조건이 충족될 때까지 반복되는 것을 특징으로 하는 인공지능 에이전트 훈련 방법
|
3 |
3
삭제
|
4 |
4
제1항에 있어서,상기 (c1) 단계는,상기 사용자의 평가를 입력받도록 구성된 사용자 인터페이스 요소를 제공하는 단계; 및(i) 상기 사용자 인터페이스 요소에 의하여 상기 평가가 입력되면 상기 최종 보상이 상기 평가에 의하여 산출되고, (ii) 상기 사용자 인터페이스 요소에 의한 상기 평가의 입력이 없으면, 상기 사용자가 상기 개별 상태들에 도달하기 위하여 동일한 경로를 선택했던 과거의 기록이 있는지 여부를 조회하여 상기 과거의 기록이 있으면 상기 과거의 기록에 따른 이전 훈련에 이용되었던 최종 보상 중 최대값과 같거나 그보다 낮은 값이 상기 최종 보상으로서 산출되며, (iii) 상기 과거의 기록이 없으면, 미리 정해진 최대 점수가 상기 최종 보상으로서 산출되는, 단계를 포함하는 인공지능 에이전트 훈련 방법
|
5 |
5
사용자가 취할 액션을 컴퓨팅 장치가 인공지능 에이전트를 통하여 추천하는 방법으로서,(a) 사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조가 획득된 후 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로가 생성되고, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출되어, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트가 훈련된 상태에서, 상기 사용자에게 주어진 현재 상태를 획득하는 단계;(b) 획득된 상기 현재 상태를 상기 인공지능 에이전트에 입력하여 상기 인공지능 에이전트를 통하여 상기 현재 상태에 대하여 상기 사용자에게 추천되는 액션인 추천 액션을 적어도 하나 포함하는 추천 시나리오를 산출하는 단계; 및(c) 상기 추천 시나리오를 상기 사용자에게 제공하는 단계를 포함하되, 상기 훈련은 상기 인공지능 에이전트로 하여금 주어진 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습이고, 상기 (a) 단계는,(a1) (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 상기 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하는 단계; 및(a2) 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는 단계를 포함하는, 인공지능 에이전트 기반 사용자 액션 추천 방법
|
6 |
6
제5항에 있어서,(d) 상기 사용자에 의한 상기 추천 시나리오의 사용 여부를 감지하고, (i) 상기 추천 시나리오가 사용된 경우의 상기 추천 시나리오에 의하여 도달한 경로에 대응되는 액션들에 의한 상기 상태의 변화 또는 상기 추천 시나리오가 사용되지 않은 경우의 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여,상기 모든 경로 중 상기 사용자 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 단계; 및(e) 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 단계를 더 포함하는 인공지능 에이전트 기반 사용자 액션 추천 방법
|
7 |
7
컴퓨팅 장치로 하여금, 제1항, 제2항, 제4항 내지 제6항 중 어느 한 항의 방법을 수행하도록 구현된 명령어(instructions)를 포함하는, 기계 판독 가능한 비일시적 기록 매체에 저장된, 컴퓨터 프로그램
|
8 |
8
인공지능 에이전트(artificial intelligent agent)를 훈련시키는 컴퓨팅 장치로서,사용자에게 주어진 환경 및 상기 사용자에게 현재 주어진 상태를 획득하는 통신부; 및상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조를 획득하는 제1 프로세스, 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로를 생성하는 제2 프로세스; (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 제3 프로세스; 및 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 프로세스로서, 상기 훈련은 상기 인공지능 에이전트로 하여금 입력된 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습인, 제4 프로세스를 수행하는 프로세서를 포함하고, 상기 프로세서는, 상기 제3 프로세스에서, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하고, 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는, 인공지능 에이전트 훈련 장치
|
9 |
9
제8항에 있어서,상기 프로세서는, 상기 제1 프로세스 내지 제3 프로세스를 소정의 훈련 종료 조건이 충족될 때까지 반복되는 것을 특징으로 하는 인공지능 에이전트 훈련 장치
|
10 |
10
사용자가 취할 액션을 인공지능 에이전트를 통하여 추천하는 컴퓨팅 장치로서,사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조가 획득된 후 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로가 생성되고, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출되어, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트가 훈련된 상태에서, 상기 사용자에게 주어진 현재 상태를 획득하는 통신부; 및획득된 상기 현재 상태를 상기 인공지능 에이전트에 입력하여 상기 인공지능 에이전트를 통하여 상기 현재 상태에 대하여 상기 사용자에게 추천되는 액션인 추천 액션을 적어도 하나 포함하는 추천 시나리오를 산출하는 제1 프로세스; 및 상기 추천 시나리오를 상기 사용자에게 제공하는 제2 프로세스를 수행하는 프로세서를 포함하되, 상기 훈련은 상기 인공지능 에이전트로 하여금 주어진 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습이고, 상기 지연 보상은, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 상기 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하고, 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행함으로써 산출되는, 인공지능 에이전트 기반 사용자 액션 추천 장치
|