1 |
1
사용자의 행동을 학습하는 전자 장치의 동작 방법에 있어서,상기 사용자의 행동과 관련된 입력 데이터를 수신하는 단계;상기 입력 데이터를 처리하여 제1 행동 궤적 정보를 획득하는 단계;상기 제1 행동 궤적 정보를 기반으로 초기 행동 정책을 생성하는 단계;상기 초기 행동 정책을 기반으로 제2 행동 궤적 정보를 획득하는 단계;상기 제1 행동 궤적 정보 및 상기 제2 행동 궤적 정보를 샘플링하는 단계;상기 제1 행동 궤적 정보 및 상기 제2 행동 궤적 정보를 구분하는 평가 모델을 학습하는 단계; 및상기 평가 모델을 기반으로 상기 초기 행동 정책을 업데이트하는 단계를 포함하는 전자 장치의 동작 방법
|
2 |
2
제1 항에 있어서,상기 입력 데이터는 상기 전자 장치의 현재 상태에 대한 상태 데이터 및 상기 사용자가 상기 전자 장치를 제어하기 위해 입력하는 제어 데이터를 포함하는 전자 장치의 동작 방법
|
3 |
3
제2 항에 있어서,상기 제1 행동 궤적 정보를 획득하는 단계는 상기 상태 데이터를 기반으로 상기 제어 데이터를 매칭시켜, 상기 상태 데이터 및 상기 제어 데이터의 쌍으로 구성된 상기 제1 행동 궤적 정보를 생성하는 단계를 더 포함하는 전자 장치의 동작 방법
|
4 |
4
제1 항에 있어서,상기 초기 행동 정책을 생성하는 단계는 상기 제1 행동 궤적 정보에 대한 지도 학습(Supervised Learning)을 통해 상기 초기 행동 정책을 도출하는 단계를 더 포함하는 전자 장치의 동작 방법
|
5 |
5
제1 항에 있어서,상기 제2 행동 궤적 정보를 획득하는 단계는:상기 입력 데이터로부터 상기 전자 장치의 현재 상태에 대한 상태 데이터를 획득하는 단계;상기 초기 행동 정책을 기반으로 상기 상태 데이터를 처리하여 상기 전자 장치를 제어하기 위한 자율 제어 데이터를 도출하는 단계; 및상기 상태 데이터를 기반으로 상기 자율 제어 데이터를 매칭시켜, 상기 상태 데이터 및 상기 자율 제어 데이터의 쌍으로 구성된 상기 제2 행동 궤적 정보를 생성하는 단계를 더 포함하는 전자 장치의 동작 방법
|
6 |
6
제1 항에 있어서,상기 샘플링하는 단계는:상기 제1 행동 궤적 정보를 추적하여 제1 데이터 집합을 생성하는 단계;상기 제1 데이터 집합을 지정된 배치 사이즈로 샘플링하여 제1 샘플 데이터를 생성하는 단계;상기 제2 행동 궤적 정보를 추적하여 제2 데이터 집합을 생성하는 단계; 및상기 제2 데이터 집합을 지정된 배치 사이즈로 샘플링하여 제2 샘플 데이터를 생성하는 단계를 더 포함하는 전자 장치의 동작 방법
|
7 |
7
제6 항에 있어서,상기 평가 모델을 학습하는 단계는:상기 제1 샘플 데이터 및 상기 제2 샘플 데이터에 대해 행동 정책의 출처 및 작업의 성공 여부를 구분하는 레이블을 추가하는 단계; 및지도 학습을 이용하여 상기 레이블을 기반으로 상기 제1 샘플 데이터 및 상기 제2 샘플 데이터를 구분하도록 상기 평가 모델을 학습하는 단계를 더 포함하는 전자 장치의 동작 방법
|
8 |
8
제7 항에 있어서,상기 초기 행동 정책을 업데이트하는 단계는 상기 평가 모델을 보상 함수로 이용하여 강화 학습(Reinforcement Learning)을 통해 상기 초기 행동 정책에 대한 학습을 수행하는 단계를 더 포함하는 전자 장치의 동작 방법
|
9 |
9
제8 항에 있어서,상기 초기 행동 정책을 업데이트하는 단계는: 상기 학습된 행동 정책을 기반으로 제3 행동 궤적 정보를 획득하는 단계; 및상기 제3 행동 궤적 정보를 샘플링하여 제3 샘플 데이터를 생성하는 단계를 더 포함하는 전자 장치의 동작 방법
|
10 |
10
제9 항에 있어서,상기 제1 샘플 데이터 및 상기 제3 샘플 데이터를 기반으로 상기 평가 모델을 학습하고 상기 학습된 행동 정책을 업데이트하는 단계를 더 포함하는 전자 장치의 동작 방법
|
11 |
11
전자 장치의 현재 상태에 대한 상태 데이터를 획득하도록 구성된 센서;사용자로부터 입력된 제어 데이터를 기반으로 구동되도록 구성된 구동 장치; 및상기 사용자의 행동을 학습하도록 구성된 프로세서를 포함하고,상기 프로세서는:상기 상태 데이터 및 상기 제어 데이터를 수신하고, 상기 상태 데이터 및 상기 제어 데이터를 매칭시켜 제1 행동 궤적 정보를 획득하도록 구성된 데이터 처리 회로; 및상기 제1 행동 궤적 정보를 기반으로 초기 행동 정책을 생성하고,상기 초기 행동 정책을 기반으로 제2 행동 궤적 정보를 획득하고,상기 제1 행동 궤적 정보 및 상기 제2 행동 궤적 정보를 구분하는 평가 모델을 학습하고, 및상기 평가 모델을 기반으로 상기 초기 행동 정책을 업데이트하도록 구성된 행동정책 학습 회로를 포함하는 전자 장치
|
12 |
12
제11 항에 있어서,상기 제1 행동 궤적 정보는 상기 상태 데이터 및 상기 제어 데이터의 쌍으로 구성된 행동 특징 벡터에 대한 정보를 포함하는 전자 장치
|
13 |
13
제11 항에 있어서,상기 행동정책 학습 회로는 상기 제1 행동 궤적 정보에 대한 지도 학습을 통해 상기 초기 행동 정책을 도출하는 전자 장치
|
14 |
14
제11 항에 있어서,상기 행동정책 학습 회로는:상기 초기 행동 정책을 기반으로 상기 상태 데이터를 처리하여 상기 전자 장치를 제어하기 위한 자율 제어 데이터를 도출하고, 및상기 상태 데이터를 기반으로 상기 자율 제어 데이터를 매칭시켜 상기 상태 데이터 및 상기 자율 제어 데이터의 쌍으로 구성된 상기 제2 행동 궤적 정보를 생성하는 전자 장치
|
15 |
15
제11 항에 있어서,상기 행동정책 학습 회로는:상기 제1 행동 궤적 정보를 샘플링하여 제1 샘플 데이터를 생성하고,상기 제2 행동 궤적 정보를 샘플링하여 제2 샘플 데이터를 생성하고, 및상기 제1 샘플 데이터 및 상기 제2 샘플 데이터에 대해 행동 정책의 출처 및 작업의 성공 여부를 구분하는 레이블을 추가하는 전자 장치
|
16 |
16
제15 항에 있어서,상기 행동정책 학습 회로는 지도 학습을 이용하여 상기 레이블을 기반으로 상기 제1 샘플 데이터 및 상기 제2 샘플 데이터를 구분하도록 상기 평가 모델을 학습하는 전자 장치
|
17 |
17
제16 항에 있어서,상기 행동정책 학습 회로는 상기 평가 모델을 보상 함수로 이용하여 강화 학습을 통해 상기 초기 행동 정책에 대한 학습을 수행하는 전자 장치
|
18 |
18
제17 항에 있어서,상기 행동정책 학습 회로는 학습된 행동 정책을 평가하여 상기 학습된 행동 정책의 성능이 기준을 충족하면 최종 행동 정책을 저장하는 전자 장치
|