맞춤기술찾기

이전대상기술

관리 네트워크와 커리큘럼 학습을 이용한 대규모 환경 멀티에이전트 강화학습 방법

  • 기술번호 : KST2023001430
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 전장환경, 자율주행, 로봇 제어 등의 복잡도가 높은 대규모 학습 환경에서 멀티에이전트 강화학습을 위해 관리 네트워크와 커리큘럼 학습을 도입한 대규모 환경 멀티에이전트 강화학습 방법에 관한 것이다. 본 발명에 따른 멀티에이전트 강화학습 방법은, 목표 정보와 각 에이전트의 상태를 포함하는 환경 정보를 관리 네트워크에 입력하여 각 에이전트의 세부 목표를 출력하는 단계; 환경의 크기, 상기 세부 목표 및 상기 각 에이전트의 상태를 상기 각 에이전트의 네트워크에 입력하여 상기 각 에이전트의 행동을 출력하는 단계; 상기 각 에이전트의 행동에 따라 상기 각 에이전트의 다음 상태와 보상을 생성하고, 상기 환경 정보를 업데이트하며, 상기 보상 및 업데이트 전후의 환경 정보를 리플레이 메모리에 저장하는 단계; 상기 리플레이 메모리에서 샘플링한 정보를 기초로 상기 관리 네트워크 및 상기 각 에이전트의 네트워크를 학습하는 단계; 및 상기 각 에이전트의 보상의 합을 기초로 상기 환경의 크기를 소정의 값에 따라 증가시키는 단계;를 포함한다.
Int. CL G06N 20/00 (2019.01.01) G06N 3/08 (2023.01.01) G06N 7/00 (2023.01.01)
CPC G06N 20/00(2013.01) G06N 3/08(2013.01) G06N 7/01(2013.01)
출원번호/일자 1020210177916 (2021.12.13)
출원인 한국전자통신연구원
등록번호/일자
공개번호/일자 10-2023-0089357 (2023.06.20) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 N
심사청구항수 1

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 도승원 대전광역시 유성구
2 이창은 대전광역시 유성구
3 백재욱 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인지명 대한민국 서울특별시 강남구 남부순환로**** 차우빌딩*층

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2021.12.13 수리 (Accepted) 1-1-2021-1442875-19
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
목표 정보와 각 에이전트의 상태를 포함하는 환경 정보를 관리 네트워크에 입력하여 각 에이전트의 세부 목표를 출력하는 단계;환경의 크기, 상기 세부 목표 및 상기 각 에이전트의 상태를 상기 각 에이전트의 네트워크에 입력하여 상기 각 에이전트의 행동을 출력하는 단계;상기 각 에이전트의 행동에 따라 상기 각 에이전트의 다음 상태와 보상을 생성하고, 상기 환경 정보를 업데이트하며, 상기 보상 및 업데이트 전후의 환경 정보를 리플레이 메모리에 저장하는 단계;상기 리플레이 메모리에서 샘플링한 정보를 기초로 상기 관리 네트워크 및 상기 각 에이전트의 네트워크를 학습하는 단계; 및상기 각 에이전트의 보상의 합을 기초로 상기 환경의 크기를 소정의 값에 따라 증가시키는 단계;를 포함하는 대규모 환경 멀티에이전트 강화학습 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.