1 |
1
사용자 선호도 강화 학습 방법에 있어서,사용자 단말과 관련한 외부 데이터 및 상기 외부 데이터에 대한 사용자의 선호도 질의에 대한 사용자의 대응 정보에 해당하는 사용자 데이터를 수집하는 단계;상기 외부 데이터 및 상기 사용자 데이터를 저장하는 단계;상기 사용자 데이터 및 상기 외부 데이터를 기반으로 상기 외부 데이터에 대한 상기 사용자 선호도에 대한 강화 학습을 수행하는 단계;사전 정의된 스테이트 별 상기 외부 데이터 및 상기 사용자 데이터의 수집과 저장 및 이를 기반으로 한 강화 학습을 수행하면서 상기 사전 정의된 스테이트가 종료되는지 확인하는 단계;상기 사전 정의된 전체 스테이트가 종료되면 상기 사용자 선호도에 대한 강화 학습을 종료하는 단계;를 포함하는 것을 특징으로 하는 강화 학습 기반의 사용자 선호도 학습 방법
|
2 |
2
제1항에 있어서,상기 사용자 선호에 대한 강화 학습 종료를 통해 획득한 사용자 선호도를 기반으로 상기 사용자 단말의 사용자가 필요로 할 유용 정보 또는 아이템 정보를 수집하는 단계;상기 수집된 유용 정보 또는 아이템 정보를 상기 사용자 단말에 제공하는 단계;를 포함하는 것을 특징으로 하는 강화 학습 기반의 사용자 선호도 학습 방법
|
3 |
3
제2항에 있어서,상기 제공하는 단계는상기 사용자 단말의 지정된 어플리케이션이 실행되는 동안 상기 유용 정보 또는 아이템 정보 중 적어도 일부를 상기 사용자 단말을 통해 출력되도록 제공하는 단계;를 포함하는 것을 특징으로 하는 강화 학습 기반의 사용자 선호도 학습 방법
|
4 |
4
제1항에 있어서,상기 사용자 데이터를 수집하는 단계는상기 사용자 단말의 위치 또는 상기 사용자 단말의 사용자 정보를 토대로 관심사 정보를 수집하는 단계;상기 관심사 정보의 적어도 일부에 대한 상기 사용자 선호도 질의를 생성하여 상기 사용자 단말에 제공하는 단계;상기 사용자 질의에 대한 상기 사용자 대응 정보를 사용자 데이터로서 수집하는 단계;를 포함하는 강화 학습 기반의 사용자 선호도 학습 방법
|
5 |
5
제4항에 있어서,상기 사용자 대응 정보는상기 사용자 선호도 질의에 대한 보류, 선호, 비선호, 무응답 중 적어도 하나를 포함하는 것을 특징으로 하는 강화 학습 기반의 사용자 선호도 학습 방법
|
6 |
6
제5항에 있어서,상기 사용자 대응 정보에 따라 상기 사용자 단말에 차등 보상을 제공하는 단계;를 더 포함하는 것을 특징으로 하는 강화 학습 기반의 사용자 선호도 학습 방법
|
7 |
7
사용자 단말과 통신 채널을 형성하는 통신 회로;상기 사용자 단말과 송수신되는 데이터를 저장하는 메모리;상기 통신 회로 및 상기 메모리와 기능적으로 연결된 프로세서;를 포함하고,상기 프로세서는관련한 외부 데이터 및 상기 외부 데이터에 대한 사용자의 선호도 질의에 대한 사용자의 대응 정보에 해당하는 사용자 데이터를 수집하고,상기 외부 데이터 및 상기 사용자 데이터를 상기 메모리에 저장하고,상기 사용자 데이터 및 상기 외부 데이터를 기반으로 상기 외부 데이터에 대한 상기 사용자 선호도에 대한 강화 학습을 수행하되, 사전 정의된 스테이트 별 상기 외부 데이터 및 상기 사용자 데이터의 수집과 저장 및 이를 기반으로 한 강화 학습을 수행하면서 상기 사전 정의된 스테이트가 종료될 때까지 상기 강화 학습을 수행하고 상기 사전 정의된 스테이트가 종료되면 상기 사용자 선호도에 대한 강화 학습을 종료하도록 설정된 것을 특징으로 하는 사용자 선호도 강화 학습을 지원하는 학습 지원 장치
|
8 |
8
제7항에 있어서,상기 프로세서는상기 사용자 선호에 대한 강화 학습 종료를 통해 획득한 사용자 선호도를 기반으로 상기 사용자 단말의 사용자가 필요로 할 유용 정보 또는 아이템 정보를 수집하고, 상기 수집된 유용 정보 또는 아이템 정보를 상기 사용자 단말에 제공하도록 설정된 것을 특징으로 하는 사용자 선호도 강화 학습을 지원하는 학습 지원 장치
|
9 |
9
제7항에 있어서,상기 프로세서는상기 사용자 단말의 위치 또는 상기 사용자 단말의 사용자 정보를 토대로 관심사 정보를 수집하고, 상기 관심사 정보의 적어도 일부에 대한 상기 사용자 선호도 질의를 생성하여 상기 사용자 단말에 제공한 후, 상기 사용자 질의에 대한 상기 사용자 대응 정보를 사용자 데이터로서 수집하도록 설정된 것을 특징으로 하는 사용자 선호도 강화 학습을 지원하는 학습 지원 장치
|
10 |
10
제9항에 있어서,상기 프로세서는상기 사용자 대응 정보에 따라 상기 사용자 단말에 차등 보상을 제공하도록 설정된 것을 특징으로 하는 사용자 선호도 강화 학습을 지원하는 학습 지원 장치
|