맞춤기술찾기

이전대상기술

연속 행동 공간 제어를 위한 적응형 다중-배치 경험 리플레이 기법

  • 기술번호 : KST2020000075
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 연속 행동 공간 제어를 위한 적응형 다중-배치 경험 리플레이 기법에 관한 것이다. 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계, 및 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함할 수 있다.
Int. CL G06N 20/00 (2019.01.01) G06F 7/02 (2006.01.01) G06N 3/08 (2006.01.01)
CPC G06N 20/00(2013.01) G06N 20/00(2013.01) G06N 20/00(2013.01)
출원번호/일자 1020180102008 (2018.08.29)
출원인 한국과학기술원
등록번호/일자
공개번호/일자 10-2019-0143329 (2019.12.30) 문서열기
공고번호/일자 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보 대한민국  |   1020180070191   |   2018.06.19
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2018.08.29)
심사청구항수 10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국과학기술원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 성영철 대전광역시 유성구
2 한승열 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 양성보 대한민국 서울특별시 강남구 선릉로***길 ** (논현동) 삼성빌딩 *층(피앤티특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국과학기술원 대한민국 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2018.08.29 수리 (Accepted) 1-1-2018-0858112-75
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.04.24 수리 (Accepted) 4-1-2019-5081392-49
3 의견제출통지서
Notification of reason for refusal
2019.12.20 발송처리완료 (Completion of Transmission) 9-5-2019-0922840-12
4 [출원서 등 보완]보정서
2019.12.23 수리 (Accepted) 1-1-2019-1325990-36
5 [공지예외적용 보완 증명서류]서류제출서
2019.12.23 수리 (Accepted) 1-1-2019-1325991-82
6 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2020.01.29 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2020-0096322-42
7 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2020.01.29 수리 (Accepted) 1-1-2020-0096321-07
8 등록결정서
Decision to grant
2020.03.27 발송처리완료 (Completion of Transmission) 9-5-2020-0222028-48
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.05.15 수리 (Accepted) 4-1-2020-5108396-12
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.06.12 수리 (Accepted) 4-1-2020-5131486-63
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계는,상기 랜덤 미니 배치(mini-batch)의 크기를 상기 리플레이 메모리의 크기 L에 해당하는 배수로 조정하는 단계를 포함하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
2 2
삭제
3 3
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 매개 변수를 업데이트하는 단계는,상기 리플레이 메모리를 대상으로, 드롭에서 제외되고 남은 배치로부터 상기 조정된 랜덤 미니 배치의 크기에 기초하여 샘플링을 수행하는 단계;샘플링된 배치에 기초하여 목적 함수를 계산하는 단계; 및계산된 목적 함수에 기초하여 상기 매개 변수를 업데이트하는 단계를 포함하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
4 4
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 리플레이 메모리(replay memory)에 저장하는 단계는,업데이트마다 생성되는 복수개의 상기 샘플의 정보 튜플 을 미리 지정된 배치 단위로 상기 리플레이 메모리에 저장하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
5 5
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 리플레이 메모리(replay memory)에 저장하는 단계는,업데이트마다 정책 최적화 기법(Proximal Policy Optimization, PPO)에 기초하여 생성되는 어드밴티지(advantage) 함수 , 상태 가치 , 가우시안(Gaussian) 신경망의 평균 및 표준편차 를 포함하도록 상기 샘플의 정보 튜플을 구성하여 상기 리플레이 메모리에 저장하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
6 6
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 의해 수행되는 적응형 다중 배치 경험 리플레이(AMBER) 방법에 있어서,상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 단계;상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키는 단계; 및상기 적응형 다중 배치 경험 리플레이(AMBER) 시스템에서, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 단계를 포함하고, 상기 매개 변수를 업데이트하는 단계는,상기 배치 드롭 계수보다 큰 배치를 업데이트에서 제외시키는 단계를 포함하는 적응형 다중 배치 경험 리플레이(AMBER) 방법
7 7
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 비중 제어부는,상기 랜덤 미니 배치(mini-batch)의 크기를 상기 리플레이 메모리의 크기 L에 해당하는 배수로 조정하는 것을 포함하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
8 8
삭제
9 9
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 업데이트 제어부는,상기 리플레이 메모리를 대상으로, 드롭에서 제외되고 남은 배치로부터 상기 조정된 랜덤 미니 배치의 크기에 기초하여 샘플링을 수행하고, 샘플링된 배치에 기초하여 목적 함수를 계산하고, 계산된 목적 함수에 기초하여 상기 매개 변수를 업데이트하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
10 10
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 저장 제어부는,업데이트마다 생성되는 복수개의 상기 샘플의 정보 튜플 을 미리 지정된 배치 단위로 상기 리플레이 메모리에 저장하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
11 11
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 저장 제어부는,업데이트마다 정책 최적화 기법(Proximal Policy Optimization, PPO)에 기초하여 생성되는 어드밴티지(advantage) 함수 , 상태 가치 , 가우시안(Gaussian) 신경망의 평균 및 표준편차 를 포함하도록 상기 샘플의 정보 튜플을 구성하여 상기 리플레이 메모리에 저장하는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
12 12
적응형 다중 배치 경험 리플레이(AMBER) 시스템에 있어서,업데이트된 정책에 기초하여 생성된 샘플의 정보 튜플(tuple)을 다중 배치로 리플레이 메모리(replay memory)에 저장하는 저장 제어부;랜덤 미니 배치(mini-batch)의 크기를 조정하여 평균 중요도 샘플링(importance sampling) 비중을 감소시키는 비중 제어부;상기 리플레이 메모리(replay memory) 내 각 샘플 배치의 평균 중요도 샘플링 비중을 계산하는 계산부; 및상기 리플레이 메모리를 대상으로, 계산된 상기 평균 중요도 샘플링 비중이 미리 지정된 배치 드롭 계수 보다 큰 배치를 드롭시키고, 상기 리플레이 메모리를 대상으로, 드롭에서 제외된 배치에 기초하여 랜덤 미니 배치 샘플링을 수행하여 매개 변수를 업데이트하는 업데이트 제어부를 포함하고,상기 업데이트 제어부는,상기 배치 드롭 계수보다 큰 배치를 업데이트에서 제외시키는 것을 특징으로 하는 적응형 다중 배치 경험 리플레이(AMBER) 시스템
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 한국과학기술원 정보통신.방송 연구개발사업 (EZBARO)자율지능 동반자를 위한 적응형 기계학습기술 연구개발(2017)