맞춤기술찾기

이전대상기술

강화학습 기반 다중 드론 네트워크 협업 운용 계획 생성 방법 및 장치

  • 기술번호 : KST2023008221
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법 및 장치에 관한 것이다. 본 발명에 따른 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법은, 강화학습 하이퍼파라미터를 정의하고, 상기 정의된 하이퍼파라미터에 따라 MADDPG 알고리즘을 기반으로 각 드론 에이전트별 액터 신경망을 학습시키는 단계와, 다중 드론 네트워크 임무 정보를 기초로 마르코프 게임 정식화 정보를 생성하고, 상기 정식화 정보를 기초로 상기 학습된 액터 신경망을 이용하여 상태-행동 이력 정보를 생성하는 단계와, 상기 상태-행동 이력 정보를 기초로 다중 드론 네트워크 운용 계획을 생성하는 단계를 포함한다.
Int. CL G06N 3/08 (2023.01.01) H04W 84/18 (2009.01.01) B64C 39/02 (2023.01.01) H04W 84/06 (2019.01.01) G05D 1/10 (2006.01.01) G06N 3/063 (2023.01.01) G06N 5/04 (2023.01.01)
CPC G06N 3/08(2013.01) H04W 84/18(2013.01) B64C 39/024(2013.01) H04W 84/06(2013.01) G05D 1/101(2013.01) G06N 3/063(2013.01) G06N 5/04(2013.01) B64U 2101/20(2013.01)
출원번호/일자 1020220033925 (2022.03.18)
출원인 한국전자통신연구원
등록번호/일자
공개번호/일자 10-2023-0136335 (2023.09.26)
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2022.04.15)
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 최의환 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인지명 대한민국 서울특별시 강남구 남부순환로**** 차우빌딩*층

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2022.03.18 수리 (Accepted) 1-1-2022-0294332-67
2 [심사청구]심사청구서·우선심사신청서
2022.04.15 수리 (Accepted) 1-1-2022-0405350-50
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
(a) 강화학습 하이퍼파라미터를 정의하고, 상기 정의된 하이퍼파라미터에 따라 MADDPG 알고리즘을 기반으로 각 드론 에이전트별 액터 신경망을 학습시키는 단계;(b) 다중 드론 네트워크 임무 정보를 기초로 마르코프 게임 정식화 정보를 생성하고, 상기 정식화 정보를 기초로 상기 학습된 액터 신경망을 이용하여 상태-행동 이력 정보를 생성하는 단계; 및(c) 상기 상태-행동 이력 정보를 기초로 다중 드론 네트워크 운용 계획을 생성하는 단계;를 포함하는 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
2 2
제1항에 있어서, 상기 다중 드론 네트워크 임무 정보는,기지국에 관한 정보, 표적지점에 관한 정보, 드론 에이전트에 관한 정보, 통신에 관한 정보 및 임무 종료 조건을 포함하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
3 3
제1항에 있어서, 상기 (b) 단계는,(b1) 상기 임무 정보를 기초로 상기 정식화 정보를 생성하는 단계;(b2) 상기 정식화 정보에 따라 드론 에이전트별 상태를 초기화하는 단계;(b3) 드론 에이전트별 상태에 기초하여 드론 에이전트별 관측을 획득하는 단계;(b4) 상기 관측을 상기 액터 신경망에 입력하여 드론 에이전트별 행동을 추론하는 단계;(b5) 상기 상태 및 상기 행동을 기초로 드론 에이전트별 다음 상태를 획득하는 단계; 및(b6) 상기 다음 상태를 기초로, 상기 임무 정보에 포함되어 있는 임무 종료 조건에 도달했는지 여부를 판단하고, 도달하지 않은 경우 (b3) 내지 (b5) 단계를 반복하고, 도달한 경우 상기 상태 및 상기 행동을 종합하여 상기 상태-행동 이력 정보를 생성하는 단계;를 포함하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
4 4
제1항에 있어서, 상기 상태-행동 이력 정보는,의사결정 시점별 드론의 위치 정보를 포함하고,상기 (c) 단계는,상기 위치 정보를 기초로 상기 운용 계획에 포함되는 드론의 비행경로 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
5 5
제1항에 있어서, 상기 상태-행동 이력 정보는,의사결정 시점별 드론의 임무 시간과 드론의 위치 정보를 포함하고,상기 (c) 단계는,상기 임무 시간과 상기 위치 정보를 기초로 상기 운용 계획에 포함되는 드론의 속도 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
6 6
제1항에 있어서, 상기 상태-행동 이력 정보는,의사결정 시점별 네트워크 토폴로지 이력 정보를 포함하고,상기 (c) 단계는,상기 토폴로지 이력 정보를 기초로 상기 운용 계획에 포함되는 토폴로지 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
7 7
제1항에 있어서, 상기 상태-행동 이력 정보는,의사결정 시점별 드론의 임무수행의도 및 드론의 행동을 포함하고,상기 (c) 단계는,상기 임무수행의도 및 상기 드론의 행동을 기초로 상기 운용 계획에 포함되는 임무수행 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성 방법
8 8
(a) 강화학습 하이퍼파라미터를 정의하는 단계;(b) 마르코프 게임 상태를 초기화하고, 상기 상태를 기초로 드론 에이전트별 관측을 획득하는 단계;(c) 상기 정의된 하이퍼파라미터와 상기 상태를 기초로 MADDPG 알고리즘을 이용하여 드론 에이전트별로 관측, 행동, 보상 및 다음 관측을 포함하는 튜플 데이터를 생성하고, 상기 튜플 데이터를 리플레이 버퍼에 저장하는 단계;(d) 상기 리플레이 버퍼에서 랜덤 샘플링으로 튜플 데이터의 미니배치를 추출하는 단계; 및(e) 상기 미니배치를 기초로 드론 에이전트별 액터 신경망을 업데이트하는 단계;를 포함하는 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
9 9
제8항에 있어서, 상기 (e) 단계 이후에,(f) 반복 회수를 1 증가시키고, 상기 반복 회수가 설정된 상한에 도달했는지 여부를 판단하여, 도달하지 않은 경우 상기 (c) 단계 내지 (e) 단계를 반복하는 단계를 더 포함하는 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
10 10
제9항에 있어서, 상기 (f) 단계 이후에,(g) 소정의 학습 종료 조건에 도달했는지 여부를 판단하여, 도달한 경우 학습을 종료하고, 도달하지 않은 경우 상기 (b) 단계 내지 (f) 단계를 반복하는 단계를 더 포함하는 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
11 11
제8항에 있어서, 상기 (c) 단계는,상기 상태를 기초로 상기 관측을 획득하고,상기 관측을 기초로 상기 행동을 추론하며,상기 상태 및 상기 행동을 기초로 상기 보상 및 드론 에이전트별 다음 상태를 획득하며,상기 다음 상태를 기초로 상기 다음 관측을 획득하는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
12 12
제8항에 있어서, 상기 하이퍼파라미터는,상기 액터 신경망에 대한 파라미터를 포함하고,상기 (c) 단계는,상기 액터 신경망을 이용하여 상기 행동을 추론하는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
13 13
제8항에 있어서, 상기 하이퍼파라미터는,다중 드론의 통신 네트워크에 관한 토폴로지 모델 및 통신 비용 모델을 포함하고,상기 (c) 단계는,상기 상태 및 상기 행동을 기초로 상기 토폴로지 모델 및 통신 비용 모델을 이용하여 상기 통신 네트워크의 통신 비용을 산출하고, 상기 상태, 상기 행동 및 상기 통신 비용을 기초로 상기 보상을 산출하는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
14 14
제8항에 있어서, 상기 상태는,임무 시간, 드론 에이전트별 위치 벡터, 다중 드론 통신 네트워크 토폴로지, 다중 드론 통신 네트워크의 연결성 및 드론 에이전트별 임무 완료 여부를 포함하는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
15 15
제8항에 있어서, 상기 관측은,현재 임무 시간, 드론 에이전트의 위치, 드론 에이전트의 현재 임무수행의도, 다중 드론의 통신 네트워크 연결성, 지상국의 상대적 위치 좌표, 표적지점의 상대적 위치 좌표, 드론 에이전트의 임무 완료 여부 및 다른 드론 에이전트의 상대적 위치 좌표를 포함하며,상기 임무수행의도는,다른 드론 에이전트 간의 통신 중계, 상기 드론 에이전트의 임무 수행, 다른 드론 에이전트가 있는 방향으로 이동하기 및 지상국 방향으로 이동하기 중 어느 하나인 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
16 16
제8항에 있어서, 상기 보상은,다중 드론 통신 네트워크의 연결성, 상기 네트워크의 통신 비용 및 드론 에이전트별 임무 완료 여부를 기초로 정의되는 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
17 17
제8항에 있어서, 상기 드론 에이전트는,매 의사결정 시점마다 하나의 임무수행의도를 가지며,상기 행동은,단순 이동방향 결정 행동 및 의도명시적 결정 행동 중 어느 하나의 행동에 해당하며,상기 단순 이동방향 결정 행동은 현재의 임무수행의도를 다음 의사결정시점에서 변경하지 않고 이동방향만을 결정하는 행동이고,상기 의도명시적 결정 행동은 다음 의사결정시점의 임무수행의도를 명시적으로 선택하는 행동이며,상기 임무수행의도는,다른 드론 에이전트 간의 통신 중계, 상기 드론 에이전트의 임무 수행, 다른 드론 에이전트가 있는 방향으로 이동하기 및 지상국 방향으로 이동하기 중 어느 하나인 것인 MADDPG 알고리즘 기반의 다중 드론 에이전트 강화학습 방법
18 18
강화학습 하이퍼파라미터와 다중 드론 네트워크 임무 정보를 입력받는 입력부;상기 강화학습 하이퍼파라미터에 따라 MADDPG 알고리즘을 이용하여 각 드론 에이전트별 액터 신경망을 학습시키는 학습부; 및상기 다중 드론 네트워크 임무 정보를 기초로 상기 학습된 액터 신경망을 이용하여 상태-행동 이력 정보를 생성하고, 상기 상태-행동 이력 정보를 기초로 다중 드론 네트워크 운용 계획을 생성하는 계획 생성부;를 포함하는 강화학습 기반 다중 드론 네트워크 운용 계획 생성기
19 19
제18항에 있어서, 상기 학습부는,상기 강화학습 하이퍼파라미터에 따라 MADDPG 알고리즘을 이용하여 드론 에이전트별 관측, 행동, 보상 및 다음 관측을 포함하는 튜플 데이터를 생성하고, 상기 튜플 데이터의 미니배치를 기초로 상기 액터 신경망을 학습시키는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성기
20 20
제18항에 있어서, 상기 계획 생성부는,상기 임무 정보를 기초로 드론 에이전트별 상태를 초기화하고,상기 상태에 기초하여 드론 에이전트별 관측을 획득하며,상기 관측을 상기 학습된 액터 신경망에 입력하여 드론 에이전트별 행동을 추론하며,상기 상태 및 상기 행동을 기초로 상기 상태를 천이시키며,상기 상태를 기초로 상기 임무 정보에 포함되어 있는 임무 종료 조건에 도달하였는지 여부를 판단하고, 임무 종료 조건에 도달한 것으로 판단한 경우 상기 상태 및 상기 행동의 이력을 종합하여 상기 상태-행동 이력 정보를 생성하는 것인 강화학습 기반 다중 드론 네트워크 운용 계획 생성기
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 한국전자통신연구원 정부출연금사업(기관고유사업) 인간중심의 자율지능시스템 원천기술연구