맞춤기술찾기

이전대상기술

시뮬레이션을 이용한 강화 학습 방법 및 장치

  • 기술번호 : KST2022010759
  • 담당센터 : 대구기술혁신센터
  • 전화번호 : 053-550-1450
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 시뮬레이터와 실제 환경의 차이를 줄이기 위한 강화 학습 방법 및 장치를 제공한다. 이로써 시뮬레이션 성능이 개선되고 실제 환경에서의 작업 성공률이 제고된다.
Int. CL G06N 20/00 (2019.01.01) G06N 7/00 (2022.01.01) G06N 3/00 (2022.01.01) G06N 3/04 (2006.01.01) G06N 3/08 (2006.01.01)
CPC G06N 20/00(2013.01) G06N 7/005(2013.01) G06N 3/006(2013.01) G06N 3/0472(2013.01) G06N 3/08(2013.01)
출원번호/일자 1020200188852 (2020.12.31)
출원인 재단법인대구경북과학기술원
등록번호/일자
공개번호/일자 10-2022-0096434 (2022.07.07) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.12.31)
심사청구항수 18

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 재단법인대구경북과학기술원 대한민국 대구 달성군 현

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 손종욱 대구광역시 달성군 유가읍 테크노대로 ***, ***동 ***호 (대구
2 조국래 대구광역시 남구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인 남앤남 대한민국 서울특별시 중구 서소문로**(서소문동, 정안빌딩*층)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.12.31 수리 (Accepted) 1-1-2020-1438846-11
2 선행기술조사의뢰서
Request for Prior Art Search
2022.03.15 수리 (Accepted) 9-1-9999-9999999-89
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
시뮬레이션을 이용한 강화 학습 방법에 있어서,에이전트의 목표 작업과 연계된 시뮬레이션 환경에 대한 제 1 조건 하에서 상기 에이전트의 상기 목표 작업에 대한 학습을 수행하는 단계; 및상기 시뮬레이션 환경에 대한 제 2 조건 하에서 상기 학습된 에이전트의 재학습(Re-train)을 수행하는 단계를 포함하고,상기 제 1 조건은, 상기 에이전트와 연계된 하드웨어가 상기 에이전트의 출력 액션이 지시하는 동작대로 작동하는 조건으로 정의되고,상기 제 2 조건은, 상기 에이전트의 출력 액션이 지시하는 동작과 상기 에이전트와 연계된 하드웨어의 동작 간에 오차가 존재하는 조건으로 정의되는,강화 학습 방법
2 2
제 1 항에 있어서,상기 학습을 수행하는 단계는,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하는 단계; 및상기 제 1 조건 하에서, 상기 에이전트와 연계된 하드웨어가 상기 출력 액션이 지시하는 동작대로 작동한 결과에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하는 단계를 포함하는,강화 학습 방법
3 3
제 2 항에 있어서,상기 학습을 수행하는 단계는,상기 다음 목표 상태와 상기 다음 상태를 비교하는 단계; 및상기 비교의 결과에 기반하여 상기 에이전트에게 리워드(reward)를 제공하는 단계를 더 포함하는,강화 학습 방법
4 4
제 1 항에 있어서,상기 재학습을 수행하는 단계는,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하는 단계;상기 제 2 조건 하에서, 상기 출력 액션이 지시하는 동작 및 상기 오차에 기반하여 상기 에이전트와 연계된 하드웨어의 동작을 결정하는 단계;결정된 상기 하드웨어의 동작에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하는 단계를 포함하는,강화 학습 방법
5 5
제 4 항에 있어서,상기 재학습을 수행하는 단계는,상기 다음 목표 상태와 상기 다음 상태를 비교하는 단계; 및상기 비교의 결과에 기반하여 상기 에이전트에게 리워드를 제공하는 단계를 더 포함하는,강화 학습 방법
6 6
제 1 항에 있어서,상기 재학습을 수행하는 단계는,상기 오차에 대한 확률 분포로부터 상기 오차를 샘플링하는 단계를 포함하는,강화 학습 방법
7 7
제 6 항에 있어서,상기 확률 분포는 상기 출력 액션에 대한 상기 하드웨어의 동작 오차의 확률 분포로서, 상기 출력 액션의 특성에 기반하여 결정되는,강화 학습 방법
8 8
제 1 항에 있어서,복수의 에피소드에 대하여 상기 재학습을 반복적으로 수행하는 단계를 더 포함하고,각 에피소드는 상기 시뮬레이션 환경의 현재 상태 및 상기 현재 상태에서의 상기 에이전트의 출력 액션의 데이터열에 대응하는,강화 학습 방법
9 9
제 8 항에 있어서,상기 재학습을 반복적으로 수행하는 단계는,각 에피소드마다 상기 오차를 확률적으로 샘플링하는 단계를 포함하는,강화 학습 방법
10 10
시뮬레이션을 이용한 강화 학습 장치에 있어서,상기 시뮬레이션을 실행하는 프로세서를 포함하고,상기 프로세서는,에이전트의 목표 작업과 연계된 시뮬레이션 환경에 대한 제 1 조건 하에서 상기 에이전트의 상기 목표 작업에 대한 학습을 수행하고,상기 시뮬레이션 환경에 대한 제 2 조건 하에서 상기 학습된 에이전트의 재학습을 수행하도록 구성되고,상기 제 1 조건은, 상기 에이전트와 연계된 하드웨어가 상기 에이전트의 출력 액션이 지시하는 동작대로 작동하는 조건으로 정의되고,상기 제 2 조건은, 상기 에이전트의 출력 액션이 지시하는 동작과 상기 에이전트와 연계된 하드웨어의 동작 간에 오차가 존재하는 조건으로 정의되는,강화 학습 장치
11 11
제 10 항에 있어서,상기 프로세서는,상기 학습을 수행하기 위하여,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하고,상기 제 1 조건 하에서, 상기 에이전트와 연계된 하드웨어가 상기 출력 액션이 지시하는 동작대로 작동한 결과에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하도록 구성되는,강화 학습 장치
12 12
제 11 항에 있어서,상기 프로세서는,상기 학습을 수행하기 위하여,상기 다음 목표 상태와 상기 다음 상태를 비교하고,상기 비교의 결과에 기반하여 상기 에이전트에게 리워드를 제공하도록 구성되는,강화 학습 장치
13 13
제 10 항에 있어서,상기 프로세서는,상기 재학습을 수행하기 위하여,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하고,상기 제 2 조건 하에서, 상기 출력 액션이 지시하는 동작 및 상기 오차에 기반하여 상기 에이전트와 연계된 하드웨어의 동작을 결정하고,결정된 상기 하드웨어의 동작에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하도록 구성되는,강화 학습 장치
14 14
제 13 항에 있어서,상기 프로세서는,상기 재학습을 수행하기 위하여,상기 다음 목표 상태와 상기 다음 상태를 비교하고,상기 비교의 결과에 기반하여 상기 에이전트에게 리워드를 제공하도록 구성되는,강화 학습 장치
15 15
제 10 항에 있어서,상기 프로세서는,상기 재학습을 수행하기 위하여,상기 오차에 대한 확률 분포로부터 상기 오차를 샘플링하도록 구성되는,강화 학습 장치
16 16
제 15 항에 있어서,상기 확률 분포는 상기 출력 액션에 대한 상기 하드웨어의 동작 오차의 확률 분포로서, 상기 출력 액션의 특성에 기반하여 결정되는,강화 학습 장치
17 17
제 10 항에 있어서,상기 프로세서는,복수의 에피소드에 대하여 상기 재학습을 반복적으로 수행하도록 구성되고,각 에피소드는 상기 시뮬레이션 환경의 현재 상태 및 상기 현재 상태에서의 상기 에이전트의 출력 액션의 데이터열에 대응하는,강화 학습 장치
18 18
제 17 항에 있어서,상기 프로세서는,상기 재학습을 반복적으로 수행하기 위하여,각 에피소드마다 상기 오차를 확률적으로 샘플링하도록 구성되는,강화 학습 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 대구경북과학기술원 유전체 정보 기반 정밀 의료 AI 시스템 개발 유전체 정보 기반 정밀 의료 AI 시스템 개발