맞춤기술찾기

이전대상기술

신규한 가중치를 이용한 센터링 연산을 적용한 강화 학습 방법 및 장치

  • 기술번호 : KST2020002506
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 신규한 가중치를 이용한 센터링 연산을 적용한 강화 학습 방법에 있어서, (a) 컴퓨팅 장치가, 강화 학습 에이전트로 하여금, k가 1인 경우 소정의 제k 행동 추정용 확률 분포를 참조로 하고 k가 2 이상인 경우 제k-1행동이 선택됨으로써 생성된 제k 행동 추정용 확률 분포를 참조로 하여, 상기 강화 학습 에이전트가 제k 행동을 선택하기 위한 제k 추정 파라미터를 결정하도록 하는 단계; (b) 상기 컴퓨팅 장치가, 상기 강화 학습 에이전트로 하여금, (i) 상기 제k 추정 파라미터 및 (ii) 상기 강화 학습 에이전트가 상기 k 번째 행동으로서 선택 가능한 N개 - N은 2이상의 정수임- 의 행동 후보군과 관련된 공변량을 나타내는 제k 컨텍스트를 참조로 하여 상기 N개의 행동 후보군들 중 하나의 행동 후보군을 제k 행동으로서 선택하도록 하는 단계; (c) 상기 N개의 행동 후보군들 각각이 제k 행동으로 선택될 확률에 대응하는 제k 행동 확률이 획득되면, 상기 컴퓨팅 장치가, 상기 강화 학습 에이전트로 하여금 상기 제k 행동 확률 및 이에 대응되는 상기 제k 컨텍스트를 이용하여 상기 제k 컨텍스트의 제k 가중 평균을 생성하고, 상기 제k 가중 평균을 이용하여 각각의 상기 제k 컨텍스트에 결과 값들의 평균이 조정되도록 하는 상기 센터링 연산을 적용함으로써 제k 조정 컨텍스트를 생성하도록 하는 단계; 및 (d) 상기 제k 행동에 의한 제k 보상 값이 획득되면, 상기 컴퓨팅 장치가, 상기 강화 학습 에이전트로 하여금, 상기 제k 조정 컨텍스트, 상기 제k 행동 확률 및 상기 제k 보상 값을 이용하여 제k+1 행동 추정용 확률 분포를 생성하도록 하는 단계; 를 포함하는 것을 특징으로 하는 방법.
Int. CL G06N 20/00 (2019.01.01) G06F 17/18 (2006.01.01)
CPC G06N 20/00(2013.01) G06N 20/00(2013.01) G06N 20/00(2013.01) G06N 20/00(2013.01)
출원번호/일자 1020180118565 (2018.10.04)
출원인 서울대학교산학협력단
등록번호/일자 10-2090539-0000 (2020.03.12)
공개번호/일자
공고번호/일자 (20200318) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2018.10.09)
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 서울대학교산학협력단 대한민국 서울특별시 관악구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 백명희조 서울시 강남구
2 김지수 서울특별시 서초구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인 수 대한민국 서울특별시 강남구 강남대로**길 **, *층(역삼동, 케이앤와이빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 서울대학교산학협력단 서울특별시 관악구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2018.10.04 수리 (Accepted) 1-1-2018-0981368-08
2 [심사청구]심사청구(우선심사신청)서
[Request for Examination] Request for Examination (Request for Preferential Examination)
2018.10.09 수리 (Accepted) 1-1-2018-0993011-40
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.05.13 수리 (Accepted) 4-1-2019-5093546-10
4 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.05.23 수리 (Accepted) 4-1-2019-5101798-31
5 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.02 수리 (Accepted) 4-1-2019-5154561-59
6 등록결정서
Decision to grant
2020.01.29 발송처리완료 (Completion of Transmission) 9-5-2020-0067263-13
7 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.11.25 수리 (Accepted) 4-1-2020-5265458-48
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
신규한 가중치를 이용한 센터링 연산을 적용한 강화 학습 방법에 있어서,(a) 컴퓨팅 장치가, 강화 학습 에이전트로 하여금, k가 1인 경우 소정의 제k 행동 추정용 확률 분포를 참조로 하고 k가 2 이상인 경우 제k-1행동이 선택됨으로써 생성된 제k 행동 추정용 확률 분포를 참조로 하여, 상기 강화 학습 에이전트가 제k 행동을 선택하기 위한 제k 추정 파라미터를 결정하도록 하는 단계;(b) 상기 컴퓨팅 장치가, 상기 강화 학습 에이전트로 하여금, (i) 상기 제k 추정 파라미터 및 (ii) 상기 강화 학습 에이전트가 상기 k 번째 행동으로서 선택 가능한 N개 - N은 2이상의 정수임- 의 행동 후보군과 관련된 공변량을 나타내는 제k 컨텍스트를 참조로 하여 상기 N개의 행동 후보군들 중 하나의 행동 후보군을 제k 행동으로서 선택하도록 하는 단계;(c) 상기 N개의 행동 후보군들 각각이 제k 행동으로 선택될 확률에 대응하는 제k 행동 확률이 획득되면, 상기 컴퓨팅 장치가, 상기 강화 학습 에이전트로 하여금 상기 제k 행동 확률을 가중치로 사용하여 상기 제k 컨텍스트의 제k 가중 평균을 생성하고, 상기 제k 가중 평균을 이용하여 각각의 상기 제k 컨텍스트에 결과 값들의 평균이 조정되도록 하는 상기 센터링 연산을 적용함으로써 제k 조정 컨텍스트를 생성하도록 하는 단계; 및(d) 상기 제k 행동에 의한 제k 보상 값이 획득되면, 상기 컴퓨팅 장치가, 상기 강화 학습 에이전트로 하여금, 상기 제k 조정 컨텍스트, 상기 제k 행동 확률 및 상기 제k 보상 값을 이용하여 제k+1 행동 추정용 확률 분포를 생성하도록 하는 단계;를 포함하는 것을 특징으로 하는 방법
2 2
제 1항에 있어서,상기 (b) 단계에서,상기 강화 학습 에이전트는, 상기 제k 행동이 될 수 있는 상기 N개의 행동 후보군 중 하나의 행동 후보군 번호 를 다음 수식에 의해 결정하고,는 상기 제k 행동 선택을 위한 상기 제k 추정 파라미터를 의미하고, - i는 1 이상 N 이하인 정수임 - 은 상기 N개의 행동 후보군과 관련된 공변량을 나타내는 상기 제k 컨텍스트를 의미하는 것을 특징으로 하는 방법
3 3
제 1항에 있어서,상기 (c) 단계에서,상기 강화 학습 에이전트가 다음 수식에 따라 상기 제k 컨텍스트들에 센터링 연산을 적용하고, 는 상기 제k 조정 컨텍스트, 는 상기 제k 컨텍스트, 는 상기 제k 가중 평균, 는 1 이상 N 이하의 정수인 것을 의미하는 것을 특징으로 하는 방법
4 4
제 1항에 있어서,상기 (c) 단계에서,상기 강화 학습 에이전트가 다음 수식에 따라 상기 제k 가중 평균을 계산하고,는 i번째 행동 후보의 제k 행동 확률이고, 는 제k 컨텍스트인 것을 특징으로 하는 방법
5 5
제 1항에 있어서,상기 (d) 단계에서,상기 강화 학습 에이전트는, 상기 제k 조정 컨텍스트 및 상기 제k 행동 확률을 이용하여 제k 회귀 파라미터 행렬을 조정함으로써 제k+1 회귀 파라미터 행렬을 생성하고, 상기 제k 조정 컨텍스트 및 상기 제k 보상 값을 이용하여 제k 종속 변수를 조정함으로써 제k+1 종속 변수를 생성하며, 상기 제k+1 회귀 파라미터 행렬 및 제k+1 종속 변수를 참조로 하여 상기 제k+1 행동 추정용 확률 분포를 생성하는 것을 특징으로 하되,상기 제k 회귀 파라미터 행렬은, 선형 회귀 추정을 위해 사용되는 회귀 파라미터들로 이루어진 행렬이고, 상기 제k 종속 변수는 선형 회귀 추정의 대상이 되는 변수인 것을 특징으로 하는 방법
6 6
제 5항에 있어서,상기 강화 학습 에이전트는, 상기 제k 회귀 파라미터 행렬을 다음 수식에 의해 조정하고,상기 수식에서 은 상기 제k+1 회귀 파라미터 행렬을 의미하고, 는 조정되기 전의 상기 제k 회귀 파라미터 행렬을 의미하며, 는 선택된 상기 제k 행동에 대응되는 제k 조정 컨텍스트를 의미하고, 는 상기 제k 행동에 대응되는 i번째 행동 후보군에 대한 상기 제k 행동 확률을 의미하며, 는 상기 제k 행동에 대응되는 상기 i번째 행동 후보군에 대한 상기 제k 조정 컨텍스트를 의미하는 것을 특징으로 하는 방법
7 7
제 6항에 있어서,상기 k가 1인 경우의 제1 회귀 파라미터 행렬은 제1 컨텍스트와 같은 차원을 가진 단위 행렬인 것을 특징으로 하는 방법,
8 8
제 5항에 있어서,상기 강화 학습 에이전트는, 상기 종속 변수를 다음 수식에 의해 조정하고,은 상기 제k+1 종속 변수를 의미하고, 는 조정되기 전의 상기 제k 종속 변수를 의미하며, 는 상기 제k 행동에 대응되는 제k 조정 컨텍스트를 의미하고, 는 상기 k번째 행동에 대응되는 제k 보상 값을 의미하는 것을 특징으로 하는 방법
9 9
제 8항에 있어서,상기 k가 1인 경우의 제1 종속 변수는 제1 컨텍스트와 같은 차원을 가진 0벡터인 것을 특징으로 하는 방법
10 10
제 5항에 있어서,상기 (d) 단계에서,상기 강화 학습 에이전트는, 다음 수식에 따라 제k+1 행동 추정용 확률 분포를 생성하고,는 조정된 제k+1 회귀 파라미터, 는 조정된 제k+1 종속 변수를 의미하고, 는 탐색의 정도와 연관되는 기설정된 분산 조절 값을 의미하는 것을 특징으로 하는 방법
11 11
신규한 가중치를 이용한 센터링 연산을 적용한 강화 학습 컴퓨팅 장치에 있어서,통신부; 및(I) 강화 학습 에이전트로 하여금, k가 1인 경우 소정의 제k 행동 추정용 확률 분포를 참조로 하고 k가 2 이상인 경우 제k-1행동이 선택됨으로써 생성된 제k 행동 추정용 확률 분포를 참조로 하여, 상기 강화 학습 에이전트가 제k 행동을 선택하기 위한 제k 추정 파라미터를 결정하도록 하는 프로세스; (II) 상기 강화 학습 에이전트로 하여금, (i) 상기 제k 추정 파라미터 및 (ii) 상기 강화 학습 에이전트가 상기 k 번째 행동으로서 선택 가능한 N개 - N은 2이상의 정수임- 의 행동 후보군과 관련된 공변량을 나타내는 제k 컨텍스트를 참조로 하여 상기 N개의 행동 후보군들 중 하나의 행동 후보군을 제k 행동으로서 선택하도록 하는 프로세스; (III) 상기 N개의 행동 후보군들 각각이 제k 행동으로 선택될 확률에 대응하는 제k 행동 확률이 획득되면, 상기 강화 학습 에이전트로 하여금 상기 제k 행동 확률을 가중치로 사용하여 상기 제k 컨텍스트의 제k 가중 평균을 생성하고, 상기 제k 가중 평균을 이용하여 각각의 상기 제k 컨텍스트에 결과 값들의 평균이 조정되도록 하는 상기 센터링 연산을 적용함으로써 제k 조정 컨텍스트를 생성하도록 하는 프로세스; 및 (IV) 상기 제k 행동에 의한 제k 보상 값이 획득되면, 상기 강화 학습 에이전트로 하여금, 상기 제k 조정 컨텍스트, 상기 제k 행동 확률 및 상기 제k 보상 값을 이용하여 제k+1 행동 추정용 확률 분포를 생성하도록 하는 프로세스; 를 수행하는 프로세서;를 포함하는 것을 특징으로 하는 컴퓨팅 장치
12 12
제 11항에 있어서,상기 (II) 프로세스에서,상기 강화 학습 에이전트는, 상기 제k 행동이 될 수 있는 상기 N개의 행동 후보군 중 하나의 행동 후보군 번호 를 다음 수식에 의해 결정하고,는 상기 제k 행동 선택을 위한 상기 제k 추정 파라미터를 의미하고, - i는 1 이상 N 이하인 정수임 - 은 상기 N개의 행동 후보군과 관련된 공변량을 나타내는 상기 제k 컨텍스트를 의미하는 것을 특징으로 하는 컴퓨팅 장치
13 13
제 11항에 있어서,상기 (III) 프로세스에서,상기 강화 학습 에이전트가 다음 수식에 따라 상기 제k 컨텍스트들에 센터링 연산을 적용하고, 는 상기 제k 조정 컨텍스트, 는 상기 제k 컨텍스트, 는 상기 제k 가중 평균, 는 1 이상 N 이하의 정수인 것을 의미하는 것을 특징으로 하는 컴퓨팅 장치
14 14
제 11항에 있어서,상기 (III) 프로세스에서,상기 강화 학습 에이전트가 다음 수식에 따라 상기 제k 가중 평균을 계산하고,는 i번째 행동 후보의 제k 행동 확률이고, 는 제k 컨텍스트인 것을 특징으로 하는 컴퓨팅 장치
15 15
제 11항에 있어서,상기 (IV) 프로세스에서,상기 강화 학습 에이전트는, 상기 제k 조정 컨텍스트 및 상기 제k 행동 확률을 이용하여 제k 회귀 파라미터 행렬을 조정함으로써 제k+1 회귀 파라미터 행렬을 생성하고, 상기 제k 조정 컨텍스트 및 상기 제k 보상 값을 이용하여 제k 종속 변수를 조정함으로써 제k+1 종속 변수를 생성하며, 상기 제k+1 회귀 파라미터 행렬 및 제k+1 종속 변수를 참조로 하여 상기 제k+1 행동 추정용 확률 분포를 생성하는 것을 특징으로 하되,상기 제k 회귀 파라미터 행렬은, 선형 회귀 추정을 위해 사용되는 회귀 파라미터들로 이루어진 행렬이고, 상기 제k 종속 변수는 선형 회귀 추정의 대상이 되는 변수인 것을 특징으로 하는 컴퓨팅 장치
16 16
제 15항에 있어서,상기 강화 학습 에이전트는, 상기 제k 회귀 파라미터 행렬을 다음 수식에 의해 조정하고,상기 수식에서 은 상기 제k+1 회귀 파라미터 행렬을 의미하고, 는 조정되기 전의 상기 제k 회귀 파라미터 행렬을 의미하며, 는 선택된 상기 제k 행동에 대응되는 제k 조정 컨텍스트를 의미하고, 는 상기 제k 행동에 대응되는 i번째 행동 후보군에 대한 상기 제k 행동 확률이며, 는 상기 제k 행동에 대응되는 상기 i번째 행동 후보군에 대한 상기 제k 조정 컨텍스트를 의미하는 것을 특징으로 하는 컴퓨팅 장치
17 17
제 16항에 있어서,상기 k가 1인 경우의 제1 회귀 파라미터 행렬은 제1 컨텍스트와 같은 차원을 가진 단위 행렬인 것을 특징으로 하는 컴퓨팅 장치
18 18
제 15항에 있어서,상기 강화 학습 에이전트는, 상기 종속 변수를 다음 수식에 의해 조정하고,은 상기 제k+1 종속 변수를 의미하고, 는 조정되기 전의 상기 제k 종속 변수를 의미하며, 는 상기 제k 행동에 대응되는 제k 조정 컨텍스트를 의미하고, 는 상기 k번째 행동에 대응되는 제k 보상 값을 의미하는 것을 특징으로 하는 컴퓨팅 장치
19 19
제 18항에 있어서,상기 k가 1인 경우의 제1 종속 변수는 제1 컨텍스트와 같은 차원을 가진 0벡터인 것을 특징으로 하는 컴퓨팅 장치
20 20
제 15항에 있어서,상기 (IV) 프로세스에서,상기 강화 학습 에이전트는, 다음 수식에 따라 제k+1 행동 추정용 확률 분포를 생성하고, 는 조정된 제k+1 회귀 파라미터, 는 조정된 제k+1 종속 변수를 의미하고, 는 탐색의 정도와 연관되는 기설정된 분산 조절 값을 의미하는 것을 특징으로 하는 컴퓨팅 장치
지정국 정보가 없습니다
순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - 패밀리정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US20200110964 US 미국 FAMILY

DOCDB 패밀리 정보

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - DOCDB 패밀리 정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US2020110964 US 미국 DOCDBFAMILY
국가 R&D 정보가 없습니다.