기술이전플랫폼 Tech-Bridge-이전대상기술

맞춤기술찾기

홈으로 가기

맞춤기술찾기

이전대상기술

프린트하기

이전대상기술

시뮬레이션을 이용한 강화 학습 방법 및 장치

기술번호 : KST2022010759
담당센터 : 대구기술혁신센터
전화번호 : 053-550-1450

상담신청 PDF 받기

상세정보
공개전문
공고전문
등록사항
통합행정정보
기술정보
과제정보
관련기술
심판사항

서지정보
인명정보
행정처리
청구항
지정국
패밀리정보
국가R&D 연구정보

이전 슬라이드 보기 다음 슬라이드 보기

요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약	본 발명은 시뮬레이터와 실제 환경의 차이를 줄이기 위한 강화 학습 방법 및 장치를 제공한다. 이로써 시뮬레이션 성능이 개선되고 실제 환경에서의 작업 성공률이 제고된다.
Int. CL	G06N 20/00 (2019.01.01) G06N 7/00 (2022.01.01) G06N 3/00 (2022.01.01) G06N 3/04 (2006.01.01) G06N 3/08 (2006.01.01)
CPC	G06N 20/00(2013.01) G06N 7/005(2013.01) G06N 3/006(2013.01) G06N 3/0472(2013.01) G06N 3/08(2013.01)
출원번호/일자	1020200188852 (2020.12.31)
출원인	재단법인대구경북과학기술원
등록번호/일자
공개번호/일자	10-2022-0096434 (2022.07.07) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태	공개
심사진행상태	수리
심판사항
구분	국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자	Y (2020.12.31)
심사청구항수	18

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호	이름	국적	주소
1	재단법인대구경북과학기술원	대한민국	대구 달성군 현

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호	이름	국적	주소
1	손종욱		대구광역시 달성군 유가읍 테크노대로 *, 동 **호 (대구
2	조국래		대구광역시 남구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호	이름	국적	주소
1	특허법인 남앤남	대한민국	서울특별시 중구 서소문로*(서소문동, 정안빌딩층)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호	이름	국적	주소
최종권리자 정보가 없습니다

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서 [Patent Application] Patent Application	2020.12.31	수리 (Accepted)	1-1-2020-1438846-11
2	선행기술조사의뢰서 Request for Prior Art Search	2022.03.15	수리 (Accepted)	9-1-9999-9999999-89

번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호	청구항
1	1 시뮬레이션을 이용한 강화 학습 방법에 있어서,에이전트의 목표 작업과 연계된 시뮬레이션 환경에 대한 제 1 조건 하에서 상기 에이전트의 상기 목표 작업에 대한 학습을 수행하는 단계; 및상기 시뮬레이션 환경에 대한 제 2 조건 하에서 상기 학습된 에이전트의 재학습(Re-train)을 수행하는 단계를 포함하고,상기 제 1 조건은, 상기 에이전트와 연계된 하드웨어가 상기 에이전트의 출력 액션이 지시하는 동작대로 작동하는 조건으로 정의되고,상기 제 2 조건은, 상기 에이전트의 출력 액션이 지시하는 동작과 상기 에이전트와 연계된 하드웨어의 동작 간에 오차가 존재하는 조건으로 정의되는,강화 학습 방법
2	2 제 1 항에 있어서,상기 학습을 수행하는 단계는,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하는 단계; 및상기 제 1 조건 하에서, 상기 에이전트와 연계된 하드웨어가 상기 출력 액션이 지시하는 동작대로 작동한 결과에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하는 단계를 포함하는,강화 학습 방법
3	3 제 2 항에 있어서,상기 학습을 수행하는 단계는,상기 다음 목표 상태와 상기 다음 상태를 비교하는 단계; 및상기 비교의 결과에 기반하여 상기 에이전트에게 리워드(reward)를 제공하는 단계를 더 포함하는,강화 학습 방법
4	4 제 1 항에 있어서,상기 재학습을 수행하는 단계는,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하는 단계;상기 제 2 조건 하에서, 상기 출력 액션이 지시하는 동작 및 상기 오차에 기반하여 상기 에이전트와 연계된 하드웨어의 동작을 결정하는 단계;결정된 상기 하드웨어의 동작에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하는 단계를 포함하는,강화 학습 방법
5	5 제 4 항에 있어서,상기 재학습을 수행하는 단계는,상기 다음 목표 상태와 상기 다음 상태를 비교하는 단계; 및상기 비교의 결과에 기반하여 상기 에이전트에게 리워드를 제공하는 단계를 더 포함하는,강화 학습 방법
6	6 제 1 항에 있어서,상기 재학습을 수행하는 단계는,상기 오차에 대한 확률 분포로부터 상기 오차를 샘플링하는 단계를 포함하는,강화 학습 방법
7	7 제 6 항에 있어서,상기 확률 분포는 상기 출력 액션에 대한 상기 하드웨어의 동작 오차의 확률 분포로서, 상기 출력 액션의 특성에 기반하여 결정되는,강화 학습 방법
8	8 제 1 항에 있어서,복수의 에피소드에 대하여 상기 재학습을 반복적으로 수행하는 단계를 더 포함하고,각 에피소드는 상기 시뮬레이션 환경의 현재 상태 및 상기 현재 상태에서의 상기 에이전트의 출력 액션의 데이터열에 대응하는,강화 학습 방법
9	9 제 8 항에 있어서,상기 재학습을 반복적으로 수행하는 단계는,각 에피소드마다 상기 오차를 확률적으로 샘플링하는 단계를 포함하는,강화 학습 방법
10	10 시뮬레이션을 이용한 강화 학습 장치에 있어서,상기 시뮬레이션을 실행하는 프로세서를 포함하고,상기 프로세서는,에이전트의 목표 작업과 연계된 시뮬레이션 환경에 대한 제 1 조건 하에서 상기 에이전트의 상기 목표 작업에 대한 학습을 수행하고,상기 시뮬레이션 환경에 대한 제 2 조건 하에서 상기 학습된 에이전트의 재학습을 수행하도록 구성되고,상기 제 1 조건은, 상기 에이전트와 연계된 하드웨어가 상기 에이전트의 출력 액션이 지시하는 동작대로 작동하는 조건으로 정의되고,상기 제 2 조건은, 상기 에이전트의 출력 액션이 지시하는 동작과 상기 에이전트와 연계된 하드웨어의 동작 간에 오차가 존재하는 조건으로 정의되는,강화 학습 장치
11	11 제 10 항에 있어서,상기 프로세서는,상기 학습을 수행하기 위하여,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하고,상기 제 1 조건 하에서, 상기 에이전트와 연계된 하드웨어가 상기 출력 액션이 지시하는 동작대로 작동한 결과에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하도록 구성되는,강화 학습 장치
12	12 제 11 항에 있어서,상기 프로세서는,상기 학습을 수행하기 위하여,상기 다음 목표 상태와 상기 다음 상태를 비교하고,상기 비교의 결과에 기반하여 상기 에이전트에게 리워드를 제공하도록 구성되는,강화 학습 장치
13	13 제 10 항에 있어서,상기 프로세서는,상기 재학습을 수행하기 위하여,상기 시뮬레이션 환경의 현재 상태 및 상기 에이전트의 목표 작업을 달성하기 위한 상기 시뮬레이션 환경의 다음 목표 상태에 기반하여, 상기 다음 목표 상태에 도달하기 위한 상기 에이전트의 출력 액션을 결정하고,상기 제 2 조건 하에서, 상기 출력 액션이 지시하는 동작 및 상기 오차에 기반하여 상기 에이전트와 연계된 하드웨어의 동작을 결정하고,결정된 상기 하드웨어의 동작에 기반하여 상기 시뮬레이션 환경의 다음 상태를 결정하도록 구성되는,강화 학습 장치
14	14 제 13 항에 있어서,상기 프로세서는,상기 재학습을 수행하기 위하여,상기 다음 목표 상태와 상기 다음 상태를 비교하고,상기 비교의 결과에 기반하여 상기 에이전트에게 리워드를 제공하도록 구성되는,강화 학습 장치
15	15 제 10 항에 있어서,상기 프로세서는,상기 재학습을 수행하기 위하여,상기 오차에 대한 확률 분포로부터 상기 오차를 샘플링하도록 구성되는,강화 학습 장치
16	16 제 15 항에 있어서,상기 확률 분포는 상기 출력 액션에 대한 상기 하드웨어의 동작 오차의 확률 분포로서, 상기 출력 액션의 특성에 기반하여 결정되는,강화 학습 장치
17	17 제 10 항에 있어서,상기 프로세서는,복수의 에피소드에 대하여 상기 재학습을 반복적으로 수행하도록 구성되고,각 에피소드는 상기 시뮬레이션 환경의 현재 상태 및 상기 현재 상태에서의 상기 에이전트의 출력 액션의 데이터열에 대응하는,강화 학습 장치
18	18 제 17 항에 있어서,상기 프로세서는,상기 재학습을 반복적으로 수행하기 위하여,각 에피소드마다 상기 오차를 확률적으로 샘플링하도록 구성되는,강화 학습 장치

순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번	연구부처	주관기관	연구사업	연구과제
1	과학기술정보통신부	대구경북과학기술원	유전체 정보 기반 정밀 의료 AI 시스템 개발	유전체 정보 기반 정밀 의료 AI 시스템 개발

본 '원본보기 서비스'는 참고용이므로, 일부 오류 및 누락이 발생할 수 있습니다.
정확한 서류를 확인하시려면 해당 웹사이트에서 조회하시기 바랍니다. (특허로 바로가기: http://www.patent.go.kr)
해당 서비스는 점검으로 인해 매주 일요일 00:00 ~ 02:00까지 이용이 중단됩니다.

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송번호의 정보를 제공하는 이전대상기술 뷰 페이지 통합행정정보 > 등록료란 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서	2020.12.31	수리 (Accepted)	1-1-2020-1438846-11
2	선행기술조사의뢰서	2022.03.15	수리 (Accepted)	9-1-9999-9999999-89


과제고유번호	1711123871
세부과제번호	20-BT-05
연구과제명	유전체 정보 기반 정밀 의료 AI 시스템 개발
성과구분	출원
부처명	과학기술정보통신부
연구관리전문기관명	대구경북과학기술원
연구주관기관명	대구경북과학기술원
성과제출연도	2020
연구기간	202001~202312
기여율	1
연구개발단계명	응용연구
6T분류명	BT(생명공학기술)

특허성과

[1020200188852]	시뮬레이션을 이용한 강화 학습 방법 및 장치	새창보기
[1020200188850]	랜턴 제어 시스템 및 방법	새창보기
[1020200175119]	무인 시스템에 적합한 해시 체인 기반의 사용자 인증 방법 및 이를 이용한 전자 장치	새창보기
[1020200164629]	약물 평가 방법 및 장치	새창보기

중요키워드

이전대상기술 뷰 페이지 관련기술 표
[KST2019005061][대구경북과학기술원]	앙상블 및 미세 조정을 이용한 영상 데이터 처리 장치 및 제어 방법	새창보기
[KST2019032857][대구경북과학기술원]	디노이징 장치 및 노이즈 제거 방법	새창보기
[KST2021006172][대구경북과학기술원]	멀티 클래스 객체 식별 장치 및 방법	새창보기
[KST2022010707][대구경북과학기술원]	주행 환경 인지 방법 및 장치	새창보기
[KST2018009503][대구경북과학기술원]	얼굴 표정 인식 기반의 서비스 제공 장치 및 그 방법	새창보기
[KST2020003314][대구경북과학기술원]	촉각 감지 장치, 촉각 감지 방법 및 촉각 학습 방법	새창보기
[KST2020003326][대구경북과학기술원]	RLR 판별 및 사고 방지를 위한 교통 신호 제어 방법 및 장치	새창보기
[KST2020011912][대구경북과학기술원]	GPU 기반의 채널 단위 딥뉴럴 네트워크 구조 검색을 사용하는 인공지능 시스템	새창보기
[KST2022010701][대구경북과학기술원]	3차원 영상 영역화 방법 및 장치	새창보기
[KST2020011131][대구경북과학기술원]	의료 영상의 분석 모델을 학습시키는 학습 장치 및 그 학습 방법	새창보기
[KST2021006167][대구경북과학기술원]	객체 검출 모델의 학습 방법 및 객체 검출 모델이 실행되는 객체 검출 장치	새창보기
[KST2022023531][대구경북과학기술원]	건강 정보 제공 장치 및 방법	새창보기
[KST2019005214][대구경북과학기술원]	객체 검출 방법, 장치 및 컴퓨터 프로그램	새창보기
[KST2019032860][대구경북과학기술원]	서포트 벡터 머신 기반 분류 방법	새창보기
[KST2021006157][대구경북과학기술원]	딥러닝을 위한 학습 데이터 생성 방법 및 시스템	새창보기
[KST2022010704][대구경북과학기술원]	전자 장치 및 전자 장치의 제어 방법	새창보기
[KST2019032935][대구경북과학기술원]	카테터 추적 시스템 및 제어 방법	새창보기
[KST2020011124][대구경북과학기술원]	로스팅 레벨 예측 방법 및 상기 방법을 수행하는 로스터기	새창보기
[KST2019002605][대구경북과학기술원]	다채널 fNIRS 신호에서 동잡음을 제거하는 방법 및 장치	새창보기
[KST2019032897][대구경북과학기술원]	뉴럴 네트워크의 디버깅 방법, 장치 및 시스템	새창보기
[KST2022010703][대구경북과학기술원]	얼굴인식과 동작인식을 활용한 지능형 버추얼 피트니스 시스템 및 그 동작 방법	새창보기
[KST2019008487][대구경북과학기술원]	전달 학습을 통한 운전자의 시선 응시영역 추정 방법	새창보기
[KST2020011112][대구경북과학기술원]	데이터 빈도수 분석을 통한 인공지능 학습 방법 및 장치	새창보기
[KST2020011135][대구경북과학기술원]	미각데이터에 대한 선호도표시시스템 및 방법	새창보기
[KST2021006153][대구경북과학기술원]	골프장 내 카트의 자율주행을 위한 카트길 인식 장치 및 방법	새창보기
[KST2022010705][대구경북과학기술원]	오브젝트 인식을 위한 전자 장치 및 전자 장치의 제어 방법	새창보기
[KST2019013828][대구경북과학기술원]	학습 데이터의 분포 특성에 기초하여 학습 데이터를 생성하는 방법 및 장치	새창보기
[KST2020011132][대구경북과학기술원]	현실세계와 온라인 공간 간에 후각데이터를 공유하는 방법, 단말기 및 시스템	새창보기
[KST2022023530][대구경북과학기술원]	신경망 모델 기반 암호문을 복호화하기 위한 전자 장치 및 전자 장치의 제어 방법	새창보기
[KST2022010697][대구경북과학기술원]	마인드 맵 데이터베이스 기반의 인간-머신 인식 시스템 및 방법	새창보기

의뢰할 수요기술을 선택합니다

담당자명, 주소, 이메일, 연락처, 내용, 파일선택의 정보를 제공하는 도입희망기술 뷰 페이지 의뢰하기 입력표입니다.
담당자명		활동구분※필수입력항목
이메일		연락처	- -
내용
파일선택	파일선택

기술이전 상담신청 드립니다.
기업명
신청자 성명		직책
연락처	- -
이메일	@
상담희망전담센터	※ 사업장(본점) 소재지가 속한 지역의 기술혁신센터를 지정해주세요.