맞춤기술찾기

이전대상기술

심층 강화 학습을 이용한 자율 이동체의 충돌 회피 및 자율 탐사 기법 및 장치

  • 기술번호 : KST2020002060
  • 담당센터 : 광주기술혁신센터
  • 전화번호 : 062-360-4654
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 일 실시예에 따르면, 제어 파라미터를 생성하는 방법 및 장치는 센서 입력들 을 수신하고, 센서 입력들에 따라 임의의 환경에 대응하는 복수의 상태들 중 결정한 제1 상태를 신경망에 입력하여 제1 상태에서 실행 가능한 액션들의 가치들을 결정하고, 가치들 중 제1 상태에서의 보상을 최대화하는 가치에 대응하는 액션을 최적의 액션으로 결정하며, 최적의 액션에 기초하여 장치를 위한 제어 파라미터를 생성한다.
Int. CL B25J 9/16 (2006.01.01) G06N 3/08 (2006.01.01)
CPC B25J 9/1658(2013.01) B25J 9/1658(2013.01) B25J 9/1658(2013.01)
출원번호/일자 1020180171729 (2018.12.28)
출원인 군산대학교산학협력단
등록번호/일자
공개번호/일자 10-2020-0010982 (2020.01.31) 문서열기
공고번호/일자 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보 대한민국  |   1020180072690   |   2018.06.25
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2018.12.28)
심사청구항수 19

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 군산대학교산학협력단 대한민국 전라북도 군산시 대학로 *** (

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이덕진 전라북도 전주시 완산구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인 무한 대한민국 서울특별시 강남구 언주로 ***, *층(역삼동,화물재단빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 군산대학교 산학협력단 전라북도 군산시 대학로 *** (
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2018.12.28 수리 (Accepted) 1-1-2018-1314842-06
2 [출원서등 보정]보정서
[Amendment to Patent Application, etc.] Amendment
2019.01.10 수리 (Accepted) 1-1-2019-0032879-58
3 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2019.01.21 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2019-0068369-62
4 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.02.27 수리 (Accepted) 4-1-2019-5038912-94
5 의견제출통지서
Notification of reason for refusal
2020.02.20 발송처리완료 (Completion of Transmission) 9-5-2020-0128755-39
6 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2020.03.06 수리 (Accepted) 1-1-2020-0241436-17
7 [출원서 등 보완]보정서
2020.03.06 수리 (Accepted) 1-1-2020-0241418-95
8 [공지예외적용 보완 증명서류]서류제출서
2020.03.06 수리 (Accepted) 1-1-2020-0241419-30
9 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2020.03.06 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2020-0241437-52
10 등록결정서
Decision to grant
2020.04.29 발송처리완료 (Completion of Transmission) 9-5-2020-0302087-86
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.07.09 수리 (Accepted) 4-1-2020-5153535-17
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
센서 입력들을 수신하는 단계;상기 센서 입력들에 따라 임의의 환경에 대응하는 복수의 상태들 중 제1 상태를 결정하는 단계;상기 제1 상태를 신경망(neural networks)에 입력하여, 상기 제1 상태에서 실행 가능한 액션들의 가치들(values)을 결정하는 단계;상기 가치들 중 상기 제1 상태에서의 보상(reward)을 최대화하는 가치에 대응하는 액션을 최적의 액션(optimal action)으로 결정하는 단계; 및 상기 최적의 액션에 기초하여 장치를 위한 제어 파라미터를 생성하는 단계를 포함하고, 상기 제1 상태는 상기 제1 상태에서 실행 가능한 후보 액션들에 의한 복수의 단순 상태들(simple states)을 포함하는 슈퍼 상태(super state)인,제어 파라미터를 생성하는 방법
2 2
제1항에 있어서, 상기 제1 상태를 결정하는 단계는상기 복수의 상태들, 상기 액션들 및 상기 액션들에 대응하는 보상들을 누적적으로 저장하는 장기 메모리, 및 상기 제1 상태 및 상기 제1 상태의 이전 상태들을 저장하는 단기 메모리 중 적어도 하나를 이용하여 상기 제1 상태를 결정하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
3 3
제1항에 있어서, 상기 제1 상태를 결정하는 단계는상기 센서 입력들에 대응하는 액션(action)을 선택하는 단계; 및 상기 선택된 액션의 실행에 기초하여 상기 제1 상태를 결정하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
4 4
제3항에 있어서, 상기 액션을 선택하는 단계는상기 환경에 대응하는 상태들 및 정책(policy)에 기초하여 상기 액션을 선택하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
5 5
제4항에 있어서, 상기 정책은상기 센서 입력들에 대응하는 액션들을 상태들에 맵핑하는 엡실론 그리디(Epsilon-Greedy) 정책을 포함하는, 제어 파라미터를 생성하는 방법
6 6
삭제
7 7
제1항에 있어서,상기 액션들의 가치들을 결정하는 단계는상기 액션 및 상기 액션에 대응하는 최대 가치에 기초하는 최적의 액션-가치 함수를 추정하는 함수 근사자(function approximator)를 이용하여 상기 액션들의 가치들을 결정하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
8 8
제7항에 있어서, 상기 최적의 액션-가치 함수는상기 제1 상태에서 미리 설정된 횟수만큼 상기 액션을 수행한 후에 임의의 정책을 따르는 경우에 달성 가능한 최대 기대 수익(maximum expected return)을 나타내는, 제어 파라미터를 생성하는 방법
9 9
제1항에 있어서, 상기 최적의 액션으로 결정하는 단계는상기 보상에 기초하여, 상기 보상을 최대화하는 가치에 대응하는 액션을 반복적으로 갱신함으로써 상기 제1 상태에서의 보상을 최대화하는 상기 최적의 액션을 결정하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
10 10
제1항에 있어서, 상기 최적의 액션으로 결정하는 단계는상기 제1 상태에서 최대 가치를 갖는 액션을 선택하는 단계;상기 제1 상태에서의 최대 가치와 상기 환경에서 상기 액션에 대응하는 보상을 사용하여 상기 액션의 가치를 갱신하는 단계; 및 상기 선택하는 단계 및 상기 갱신하는 단계를 반복적으로 수행함으로써 상기 제1 상태에서의 보상에 대응하는 최대로 할인된 보상을 획득하는 단계를 포함하는, 제어 파라미터를 생성하는 방법
11 11
제1항에 있어서, 상기 센서 입력들은깊이 센서(depth sensor) 및 적어도 하나의 레인지 센서(range sensor)를 포함하는, 제어 파라미터를 생성하는 방법
12 12
제1항에 있어서, 상기 액션은강화 학습 에이전트(agent)에 의해 수행되고, 미리 설정된 정책(policy)에 기초하여 결정되는, 제어 파라미터를 생성하는 방법
13 13
제1항에 있어서, 상기 신경망은 컨볼루션 네트워크를 포함하는 심층 신경망을 포함하는, 제어 파라미터를 생성하는 방법
14 14
제1항에 있어서, 상기 신경망은 상기 액션의 선택을 위하여 미리 설정된 정책에 기초하여 동작할 수 있는 시간차 기반의 강화 학습 방법인 Q-learning 방법에 의해 학습되는, 제어 파라미터를 생성하는 방법
15 15
제1항에 있어서, 상기 보상은 최근접 장애물과의 거리에 기초하여 결정되는, 제어 파라미터를 생성하는 방법
16 16
제1항 내지 제5항, 및 제7항 내지 제15항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
17 17
센서 입력들을 수신하는 통신 인터페이스; 및 상기 센서 입력들에 따라 임의의 환경에 대응하는 복수의 상태들 중 제1 상태를 결정하고, 상기 제1 상태를 신경망에 입력하여, 상기 제1 상태에서 실행 가능한 액션들의 가치들을 결정하고, 상기 가치들 중 상기 제1 상태에서의 보상을 최대화하는 가치에 대응하는 액션을 최적의 액션으로 결정하며, 상기 최적의 액션에 기초하여 장치를 위한 제어 파라미터를 생성하는 프로세서를 포함하고, 상기 제1 상태는 상기 제1 상태에서 실행 가능한 후보 액션들에 의한 복수의 단순 상태들(simple states)을 포함하는 슈퍼 상태(super state)인,제어 파라미터를 생성하는 장치
18 18
제17항에 있어서, 상기 복수의 상태들, 상기 액션들 및 상기 액션들에 대응하는 보상들을 누적적으로 저장하는 장기 메모리; 및 상기 제1 상태 및 상기 제1 상태의 이전 상태들을 저장하는 단기 메모리를 포함하는 메모리중 적어도 하나를 더 포함하고, 상기 프로세서는 상기 메모리를 이용하여 상기 제1 상태를 결정하는, 제어 파라미터를 생성하는 장치
19 19
제17항에 있어서,상기 프로세서는상기 액션 및 상기 액션에 대응하는 최대 가치에 기초하는 최적의 액션-가치 함수를 추정하는 함수 근사자를 이용하여 상기 액션들의 가치들을 결정하는, 제어 파라미터를 생성하는 장치
20 20
제17항에 있어서, 상기 프로세서는상기 보상에 기초하여, 상기 보상을 최대화하는 가치에 대응하는 액션을 반복적으로 갱신함으로써 상기 제1 상태에서의 보상을 최대화하는 상기 최적의 액션을 결정하는, 제어 파라미터를 생성하는 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 산업통상자원부 한국전자정보통신산업진흥회 산업전문인력역량강화사업 2018년 미래형자동차 R&D 전문인력 양성사업
2 과학기술정보통신부 군산대학교산학협력단 무인이동체 미래선도 핵심기술개발사업 GPS 음영지역에서 무인이동체 충돌회피 및 자율비행 성능향상을 위한 심층학습 기반 지능형 비행에이전트 기술 개발