맞춤기술찾기

이전대상기술

가이드에이전트 기반의 복수의 메인에이전트 강화학습 방법을 사용한 특징 선택 방법, 컴퓨팅장치 및 컴퓨터 프로그램

  • 기술번호 : KST2022012483
  • 담당센터 : 인천기술혁신센터
  • 전화번호 : 032-420-3580
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 가이드에이전트 기반의 복수의 메인에이전트 강화학습 방법을 사용한 특징 선택 방법, 컴퓨팅장치 및 컴퓨터 프로그램에 관한 것으로서, 더욱 상세하게는 데이터에 포함된 복수의 특징 가운데 문제를 해결하기 위하여 적합한 특징만을 선택하는 특징 선택 방법에 있어서, 복수의 특징 가운데 하나의 특징에 대한 선택 여부에 대한 행동을 수행하는 복수의 메인에이전트 및 복수의 가이드에이전트에서의 행동의 선택에 따른 결과에 따라 훈련보상값을 산출하고, 산출된 훈련보상값을 가이드에이전트와 다른 행동을 선택한 1 이상의 메인에이전트에만 선택적으로 제공하여, 상기 1 이상의 메인에이전트에서만 훈련보상값에 따른 정책을 업데이트 하도록 하여, 메인에이전트의 탐색 공간을 최소화하고, 강화학습 기반의 특징 선택 방법을 수행하는 컴퓨팅장치의 연산량을 효과적으로 줄일 수 있는 가이드에이전트 기반의 복수의 메인에이전트 강화학습 방법을 사용한 특징 선택 방법, 컴퓨팅장치 및 컴퓨터 프로그램에 관한 것이다.
Int. CL G06N 20/00 (2019.01.01)
CPC G06N 20/00(2013.01)
출원번호/일자 1020210179469 (2021.12.15)
출원인 가천대학교 산학협력단
등록번호/일자 10-2371183-0000 (2022.03.02)
공개번호/일자
공고번호/일자 (20220304) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2021.12.15)
심사청구항수 7

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 가천대학교 산학협력단 대한민국 경기도 성남시 수정구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 김민우 경기도 용인시 수지구
2 임준식 경기도 용인시 수지구
3 왕보현 서울특별시 송파구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 심찬 대한민국 서울특별시 서초구 양재천로**길 *(양재동) *층(아이픽스특허법률사무소)
2 송두현 대한민국 서울특별시 서초구 양재천로**길 *, *층(양재동, 화암빌딩)(아이픽스특허법률사무소)
3 강정빈 대한민국 서울특별시 서초구 양재천로 **길 *, *층 (양재동, 화암빌딩)(아이픽스특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 가천대학교 산학협력단 경기도 성남시 수정구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2021.12.15 수리 (Accepted) 1-1-2021-1452402-16
2 [우선심사신청]심사청구서·우선심사신청서
2022.01.24 수리 (Accepted) 1-1-2022-0084668-77
3 선행기술조사의뢰서
Request for Prior Art Search
2022.01.28 수리 (Accepted) 9-1-9999-9999999-89
4 선행기술조사보고서
Report of Prior Art Search
2022.02.14 발송처리완료 (Completion of Transmission) 9-6-2022-0034931-90
5 등록결정서
Decision to grant
2022.02.23 발송처리완료 (Completion of Transmission) 9-5-2022-0150130-55
6 특허고객번호 정보변경(경정)신고서·정정신고서
2022.05.25 수리 (Accepted) 4-1-2022-5123428-62
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치에서 수행하는 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법으로서,N(N은 2 이상의 자연수) 개의 메인에이전트 각각에 의하여, 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 메인에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 기설정된 행동정책을 기반으로 선택하는 메인에이전트행동단계;N 개의 가이드에이전트 각각에 의하여, 상기 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 가이드에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 선택하는 가이드에이전트행동단계;상기 메인에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 메인에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 메인에이전트보상값을 도출하는 메인에이전트보상값도출단계;상기 가이드에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 가이드에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 가이드에이전트보상값을 도출하는 가이드에이전트보상값도출단계; 및상기 메인에이전트보상값 및 상기 가이드에이전트보상값의 차이값에 기초하여 학습보상값을 도출하고, 상기 학습보상값을 N 개의 메인에이전트 가운데 1 이상의 메인에이전트에 제공하여 해당 메인에이전트의 행동정책을 업데이트하도록 하는 메인에이전트학습단계;를 포함하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
2 2
청구항 1에 있어서,상기 메인에이전트에 기설정된 행동정책은,상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동을 무작위로 선택하도록 하는 제1정책; 및 상기 제1행동에 대한 행동가치함수(Q-value) 및 상기 제2행동에 대한 행동가치함수의 값을 비교하여 높은 값에 해당하는 행동을 선택하도록 하는 제2정책;을 포함하고,상기 가이드에이전트는,상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동을 무작위로 선택하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
3 3
청구항 1에 있어서,상기 메인에이전트보상값도출단계는,분류모듈에 의하여, 상기 메인에이전트행동단계를 통해 수행된 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 메인에이전트의 행동의 선택에 따른 결과를 입력받아, 상기 복수의 데이터 각각을 레이블링하는 분류단계; 및상기 분류단계에서 상기 복수의 데이터 각각에 레이블링된 레이블링 값 및 상기 복수의 데이터 각각에 기설정된 레이블링 값을 비교하여 분류정확도를 산출하는 분류정확도산출단계;를 포함하고,상기 분류정확도산출단계에서 산출된 분류정확도는 상기 메인에이전트보상값에 해당하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
4 4
청구항 1에 있어서,상기 메인에이전트학습단계는,상기 메인에이전트행동단계를 통해 상기 N 개의 메인에이전트 각각이 할당받은 1 개의 특징에 대하여 선택한 상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동과, 상기 가이드에이전트행동단계를 통해 상기 N 개의 가이드에이전트 각각이 할당받은 1 개의 특징에 대하여 선택한 상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동을 비교하는 행동비교단계; 및동일한 특징을 할당받은 메인에이전트 및 가이드에이전트에 대하여, 해당 메인에이전트에서 선택한 어느 하나의 행동과 해당 가이드에이전트에서 선택한 어느 하나의 행동이 상이한 경우에 해당 메인에이전트에 상기 학습보상값을 제공하고, 해당 메인에이전트에서 선택한 어느 하나의 행동과 해당 가이드에이전트에서 선택한 어느 하나의 행동이 동일한 경우에 해당 메인에이전트에는 상기 학습보상값을 제공하지 않는 학습보상값제공단계;를 포함하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
5 5
청구항 4에 있어서,상기 메인에이전트에 기설정된 행동정책은,상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동을 무작위로 선택하도록 하는 제1정책; 및 상기 제1행동에 대한 행동가치함수 및 상기 제2행동에 대한 행동가치함수의 값을 비교하여, 높은 값에 해당하는 행동을 선택하도록 하는 제2정책;을 포함하고,상기 학습보상값제공단계를 통해 상기 학습보상값을 제공받은 메인에이전트는,상기 제1행동에 대한 행동가치함수 및 상기 제2행동에 대한 행동가치함수 가운데 해당 메인에이전트가 선택한 상기 제1행동 및 상기 제2행동 가운데 어느 하나의 행동에 상응하는 행동가치함수를 상기 제공받은 학습보상값을 사용하여 업데이트하는, 복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법
6 6
복수의 메인에이전트 및 가이드에이전트를 포함하는 강화학습 기반의 특징 선택 방법을 수행하는 1 이상의 프로세서 및 1 이상의 메모리를 포함하는 컴퓨팅장치로서,N(N은 2 이상의 자연수) 개의 메인에이전트 각각에 의하여, 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 메인에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 기설정된 행동정책을 기반으로 선택하는 메인에이전트행동단계;N 개의 가이드에이전트 각각에 의하여, 상기 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 가이드에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 선택하는 가이드에이전트행동단계;상기 메인에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 메인에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 메인에이전트보상값을 도출하는 메인에이전트보상값도출단계;상기 가이드에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 가이드에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 가이드에이전트보상값을 도출하는 가이드에이전트보상값도출단계; 및상기 메인에이전트보상값 및 상기 가이드에이전트보상값의 차이값에 기초하여 학습보상값을 도출하고, 상기 학습보상값을 N 개의 메인에이전트 가운데 1 이상의 메인에이전트에 제공하여 해당 메인에이전트의 행동정책을 업데이트하도록 하는 메인에이전트학습단계;를 수행하는, 컴퓨팅장치
7 7
1 이상의 프로세서에 의해 실행되는 복수의 명령들을 포함하는, 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램으로서,상기 컴퓨터 프로그램은,N(N은 2 이상의 자연수) 개의 메인에이전트 각각에 의하여, 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 메인에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 기설정된 행동정책을 기반으로 선택하는 메인에이전트행동단계;N 개의 가이드에이전트 각각에 의하여, 상기 데이터셋에 포함된 복수의 데이터 각각에 포함되어 있는 N 개의 특징 중에서 상기 N 개의 가이드에이전트 각각에 할당된 1 개의 특징을 선택하는 제1행동 및 해당 특징을 선택하지 않는 제2행동 가운데 어느 하나의 행동을 선택하는 가이드에이전트행동단계;상기 메인에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 메인에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 메인에이전트보상값을 도출하는 메인에이전트보상값도출단계;상기 가이드에이전트행동단계를 통해 수행된 상기 데이터셋에 포함된 복수의 데이터 각각에 대한 N 개의 가이드에이전트의 행동의 선택에 따른 결과에 따라 상기 복수의 데이터 각각을 레이블링하고, 상기 복수의 데이터 각각의 레이블링 값에 기초하여 가이드에이전트보상값을 도출하는 가이드에이전트보상값도출단계; 및상기 메인에이전트보상값 및 상기 가이드에이전트보상값의 차이값에 기초하여 학습보상값을 도출하고, 상기 학습보상값을 N 개의 메인에이전트 가운데 1 이상의 메인에이전트에 제공하여 해당 메인에이전트의 행동정책을 업데이트하도록 하는 메인에이전트학습단계;를 포함하는, 컴퓨터 프로그램
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 가천대학교 산학협력단 대학ICT연구센터육성지원사업 의료 빅데이터를 활용한 뇌질환 예측·예방 기술개발 및 전문인력 양성