기술이전플랫폼 Tech-Bridge-이전대상기술

맞춤기술찾기

홈으로 가기

맞춤기술찾기

이전대상기술

프린트하기

이전대상기술

일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치

기술번호 : KST2022003550
담당센터 : 대전기술혁신센터
전화번호 : 042-610-2279

상담신청 PDF 받기

상세정보
공개전문
공고전문
등록사항
통합행정정보
기술정보
과제정보
관련기술
심판사항

서지정보
인명정보
행정처리
청구항
지정국
패밀리정보
국가R&D 연구정보

이전 슬라이드 보기 다음 슬라이드 보기

요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약	일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치가 제시된다. 일 실시예에 따른 컴퓨터를 통해 수행되는 일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 방법은, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화 단계를 포함하고, 상기 정책 신뢰도 정량화 단계는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 및 근사화된 두 개의 상기 매핑 함수를 비교하는 단계를 포함하여 이루어질 수 있다.
Int. CL	G06N 20/00 (2019.01.01)
CPC	G06N 20/00(2013.01)
출원번호/일자	1020200126999 (2020.09.29)
출원인	한국과학기술원
등록번호/일자
공개번호/일자	10-2022-0043509 (2022.04.05) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태	공개
심사진행상태	수리
심판사항
구분	국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자	Y (2020.09.29)
심사청구항수	15

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호	이름	국적	주소
1	한국과학기술원	대한민국	대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호	이름	주소
1	이상완	대전광역시 유성구
2	김동재	대전광역시 유성구
3	신재훈	대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호	이름	국적	주소
1	양성보	대한민국	서울특별시 강남구 선릉로*길 (논현동) 삼성빌딩 *층(피앤티특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호	이름	국적	주소
최종권리자 정보가 없습니다

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서 [Patent Application] Patent Application	2020.09.29	수리 (Accepted)	1-1-2020-1039765-18

번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호	청구항
1	1 컴퓨터를 통해 수행되는 일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 방법에 있어서, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화 단계를 포함하고, 상기 정책 신뢰도 정량화 단계는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 및 근사화된 두 개의 상기 매핑 함수를 비교하는 단계를 포함하는, 정량화 방법
2	2 제1항에 있어서, 상기 일반화 능력의 정밀한 검증을 위해, 상기 작업의 실제 문제의 복잡도와 문맥 변화를 매개변수화 한 작업공간에서 샘플링된 작업에 대한 일반화 가능성을 검증하는 일반화 능력 검증 단계를 더 포함하는, 정량화 방법
3	3 제2항에 있어서, 환경으로부터 행동으로 연결되는 정보의 전환 또는 이동 과정이 핵심적인 인간 지능의 행동 원리를 제대로 반영하고 있는지를 정량화하는 문제해결 정보처리 효율 정량화 단계를 더 포함하는, 정량화 방법
4	4 제3항에 있어서, 상기 문제해결 정보처리 효율 정량화 단계는, 상기 문맥 변화에 따라 문제해결 정책을 변화시키는 인간 모사형 강화학습 모델의 정책 신뢰도 정량화를 통한 적응 능력과 문제해결을 위해 검증된 일반화 능력과의 연결성 확인을 위해 마르코프 체인(Markov chain)을 이용하여 정량화 하는 것을 특징으로 하는, 정량화 방법
5	5 제3항에 있어서, 상기 문제해결 정보처리 효율 정량화 단계는, 문제해결 과정에서 발생되는 과거 에피소드가 강화학습 정책에 반영되는 정보 압축 효율과 강화학습 정책으로부터 도출되는 행동의 최적성 비율을 에피소드-정책-행동으로 이어지는 마르코프 체인상의 상호 정보량(mutual information)을 이용하여 계산하는 것을 특징으로 하는, 정량화 방법
6	6 제5항에 있어서, 상기 행동의 최적성 비율은 최적의 문제해결을 위해 에피소드 정보를 강화학습 정책결정에 반영하는 정보전달 체계를 나타내는 지표가 되는 것을 특징으로 하는, 정량화 방법
7	7 제1항에 있어서, 상기 강화학습 모델은, 인간이 학습한 정책 정보를 신뢰성 있게 인코딩하는 모델 기반 제어와 모델 없는(model-free) 제어를 결합한 계산 모델인 것을 특징으로 하는, 정량화 방법
8	8 제1항에 있어서, 상기 강화학습 모델은, 목표 매칭(goal matching, GM), 행동 복제(behavior cloning, BC) 및 정책 매칭(policy matching, PM)의 학습 방법을 통해 구축되는 것을 특징으로 하는, 정량화 방법
9	9 일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 장치에 있어서, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화부를 포함하고, 상기 정책 신뢰도 정량화부는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하고, 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화한 후, 근사화된 두 개의 상기 매핑 함수를 비교하는 것을 특징으로 하는, 정량화 장치
10	10 제9항에 있어서, 상기 일반화 능력의 정밀한 검증을 위해, 상기 작업의 실제 문제의 복잡도와 문맥 변화를 매개변수화 한 작업공간에서 샘플링된 작업에 대한 일반화 가능성을 검증하는 일반화 능력 검증부를 더 포함하는, 정량화 장치
11	11 제10항에 있어서, 환경으로부터 행동으로 연결되는 정보의 전환 또는 이동 과정이 핵심적인 인간 지능의 행동 원리를 제대로 반영하고 있는지를 정량화하는 문제해결 정보처리 효율 정량화부를 더 포함하는, 정량화 장치
12	12 제11항에 있어서, 상기 문제해결 정보처리 효율 정량화부는, 상기 문맥 변화에 따라 문제해결 정책을 변화시키는 인간 모사형 강화학습 모델의 상기 정책 신뢰도 정량화부를 통한 적응 능력과 상기 일반화 능력 검증부를 통한 문제해결을 위해 검증된 일반화 능력과의 연결성 확인을 위해 마르코프 체인(Markov chain)을 이용하여 정량화 하는 것을 특징으로 하는, 정량화 장치
13	13 제11항에 있어서, 상기 문제해결 정보처리 효율 정량화부는, 문제해결 과정에서 발생되는 과거 에피소드가 강화학습 정책에 반영되는 정보 압축 효율과 강화학습 정책으로부터 도출되는 행동의 최적성 비율을 에피소드-정책-행동으로 이어지는 마르코프 체인상의 상호 정보량(mutual information)을 이용하여 계산하는 것을 특징으로 하는, 정량화 장치
14	14 제13항에 있어서, 상기 행동의 최적성 비율은 최적의 문제해결을 위해 에피소드 정보를 강화학습 정책결정에 반영하는 정보전달 체계를 나타내는 지표가 되는 것을 특징으로 하는, 정량화 장치
15	15 제9항에 있어서, 상기 강화학습 모델은, 인간이 학습한 정책 정보를 신뢰성 있게 인코딩하는 모델 기반 제어와 모델 없는(model-free) 제어를 결합한 계산 모델인 것을 특징으로 하는, 정량화 장치

순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번	연구부처	주관기관	연구사업	연구과제
1	과학기술정보통신부	한국과학기술원	정보통신.방송 연구개발사업	(통합EZ)뇌·인지 발달과정의 기초-영아단계 모사형 실세계 상호작용 경험 기반 객체 관련 개념의 기계학습 기술 개발(2020)
2	과학기술정보통신부	한국과학기술원	원천기술개발사업	(통합EZ)초고속 학습이 가능한 메타인지-모사 인공지능 설계(2020)
3	산업체	한국과학기술원	산업체연구개발사업	전문가 학습 및 추론 능력 극대화를 위한 스마트 머신 개발(6회차,끝)(2019)

본 '원본보기 서비스'는 참고용이므로, 일부 오류 및 누락이 발생할 수 있습니다.
정확한 서류를 확인하시려면 해당 웹사이트에서 조회하시기 바랍니다. (특허로 바로가기: http://www.patent.go.kr)
해당 서비스는 점검으로 인해 매주 일요일 00:00 ~ 02:00까지 이용이 중단됩니다.

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송번호의 정보를 제공하는 이전대상기술 뷰 페이지 통합행정정보 > 등록료란 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서	2020.09.29	수리 (Accepted)	1-1-2020-1039765-18


과제고유번호	1345330259
세부과제번호	4199990914370
연구과제명	바이오공학 글로벌인재 양성 사업단
성과구분	출원
부처명	교육부
연구관리전문기관명	한국과학기술원
연구주관기관명	한국연구재단
성과제출연도	2020
연구기간	202009~202708
기여율	0
연구개발단계명	기타
6T분류명	BT(생명공학기술)


과제고유번호	1711103022
세부과제번호	2019-0-01371-002
연구과제명	뇌·인지 발달과정의 기초-영아단계 모사형 실세계 상호작용 경험 기반 객체 관련 개념의 기계학습 기술 개발
성과구분	출원
부처명	과학기술정보통신부
연구관리전문기관명	한국과학기술원
연구주관기관명	정보통신기획평가원
성과제출연도	2020
연구기간	201904~202212
기여율	0.5
연구개발단계명	기초연구
6T분류명	BT(생명공학기술)


과제고유번호	1711105430
세부과제번호	2019M3E5D2A01066267
연구과제명	초고속 학습이 가능한 메타인지-모사 인공지능 설계
성과구분	출원
부처명	과학기술정보통신부
연구관리전문기관명	한국과학기술원
연구주관기관명	한국연구재단
성과제출연도	2020
연구기간	201906~202312
기여율	0.5
연구개발단계명	응용연구
6T분류명	IT(정보기술)

특허성과

[1020200183859]	과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법	새창보기
[1020200179776]	뉴럴 네트워크를 이용한 비매칭 저화질 영상 처리 방법 및 그 장치	새창보기
[1020200177368]	제로 임퓨테이션의 희소성 편향 보정을 통한 인공 신경망의 누락 데이터 처리 방법 및 시스템	새창보기
[1020200175612]	알츠하이머성 치매의 치료를 위한 약물의 효능 예측을 위한 컴퓨터 시뮬레이션 방법 및 이를 위한 장치	새창보기
[1020200175465]	끌개별 네트워크 축소에 기반한 생물학적 네트워크 제어 방법 및 이를 위한 장치	새창보기
[1020200171206]	비지도 학습 기반 단일 뉴럴 네트워크를 이용한 다중 초음파 영상 처리 방법 및 그 장치	새창보기
[1020200166376]	인간의 불확실성 추론을 위한 컴퓨터 시스템 및 그의 방법	새창보기
[1020200162969]	감정 인식의 부정 편향 감지 방법 및 장치	새창보기
[1020200160322]	약물 투여량에 따른 세포운명에 관한 확률을 결정하는 방법 및 이를 위한 장치	새창보기
[1020200156681]	정신 질환 진단 프로토콜 자동 탐색을 위한 컴퓨터 시스템 및 그의 방법	새창보기
[1020200149990]	키메라 항원 수용체를 위한 타깃 항원 발굴 방법 및 분석 장치	새창보기
[1020200126999]	일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치	새창보기
[1020200126708]	터치버튼 작동방식의 미세유체 기반 미세액적 생성기	새창보기
[1020200112520]	딥러닝 기반 소수 샷 이미지 분류 장치 및 방법	새창보기
[1020200109802]	연관 도메인에 대한 사전 정보 없이 극소량의 데이터 만을 이용한 데이터 생성 및 작업 성능 향상을 위한 전자 장치 및 그의 동작 방법	새창보기

중요키워드

이전대상기술 뷰 페이지 관련기술 표
[KST2019010554][한국과학기술원]	확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템	새창보기
[KST2019014402][한국과학기술원]	가중치 선택 신경망을 이용한 Wi-Fi 망의 침입 탐지 방법 및 장치	새창보기
[KST2019021940][한국과학기술원]	새로운 사례의 분석을 통한 단일 분류 도메인의 전문가 경험 지식의 점진적 학습 방법 및 시스템	새창보기
[KST2019014577][한국과학기술원]	공동 학습을 이용한 기계학습 시스템 및 그 방법	새창보기
[KST2022003190][한국과학기술원]	기계학습 기반의 유전체 구조 변이 식별 방법 및 장치	새창보기
[KST2022005332][한국과학기술원]	비기능성 전사체를 이용한 PARP 저해제 또는 DNA 손상 약물 감수성 판정방법	새창보기
[KST2022005601][한국과학기술원]	택배 파손 주의를 위한 안전 배송 유도 및 모니터링 방법 및 시스템	새창보기
[KST2022001401][한국과학기술원]	복잡한 건물 구조에서의 효과적인 측위 방법 및 장치	새창보기
[KST2019023920][한국과학기술원]	교차 프로젝트 결함 예측을 위한 최단 이웃점을 이용한 하이브리드 인스턴스 선택 방법	새창보기
[KST2020007694][한국과학기술원]	가지친 L1 페널티를 통한 최대우도 추정 장치 및 방법	새창보기
[KST2020003655][한국과학기술원]	저밀도 패리티 검사 부호를 활용한 고장 방지 능력을 갖춘 분산 기계 학습 방법 및 그 장치	새창보기
[KST2020000075][한국과학기술원]	연속 행동 공간 제어를 위한 적응형 다중-배치 경험 리플레이 기법	새창보기
[KST2020010329][한국과학기술원]	기판 검사 장치 및 스크린 프린터의 결함 유형 결정 방법	새창보기
[KST2020013208][한국과학기술원]	메타 인지 기반 고속 환경 탐색 방법 및 장치	새창보기
[KST2022005566][한국과학기술원]	비지도 기반 질의 생성 모델의 학습 방법 및 장치	새창보기
[KST2020006655][한국과학기술원]	기계 학습 연산을 처리하는 아날로그 회로, 이를 포함하는 학습 장치 및 이를 이용한 기계 학습 연산 방법	새창보기
[KST2022005334][한국과학기술원]	대화 상대와 사용자의 성격 정보를 고려한 대화 상대에 대한 신뢰 정도 예측 시스템 및 그 방법	새창보기
[KST2020004292][한국과학기술원]	카메라 워크를 재현하는 방법 및 장치	새창보기
[KST2020004297][한국과학기술원]	베이지안 최적화를 이용한 카메라 속성 제어 방법 및 장치	새창보기
[KST2020007680][한국과학기술원]	차선 기반의 확률론적 주변 차량 거동 예측 및 이를 이용한 종방향 제어 방법	새창보기
[KST2020009218][한국과학기술원]	강화학습 기법을 활용한 LoRa Enabled IoT 장치의 에너지 최적화 방법 및 시스템	새창보기
[KST2020011324][한국과학기술원]	신경망 학습을 통한 데이터 처리 장치, 신경망 학습을 통한 데이터 처리 방법, 및 동일 방법을 기록한 기록 매체	새창보기
[KST2020000070][한국과학기술원]	베스트 에이전트의 정책으로 안내되는 다중 에이전트 PPO 알고리즘	새창보기
[KST2019014054][한국과학기술원]	강화 학습 기반 다중 안테나 송수신단의 I/Q 불균형 파라미터 추정 방법 및 시스템	새창보기
[KST2019000368][한국과학기술원]	이종 컨텐츠 추천 모델 제공 장치 및 방법	새창보기
[KST2019010567][한국과학기술원]	무선 Wi-Fi 망에서 딥러닝을 이용한 위장 공격 특장점 분석 장치 및 방법	새창보기
[KST2019024089][한국과학기술원]	기계학습 기반의 동적 시뮬레이션 파라미터 교정 방법	새창보기
[KST2020004686][한국과학기술원]	학습 기반 혐오 표현 댓글 필터링 장치 및 이의 동작 방법	새창보기
[KST2022005604][한국과학기술원]	기계학습 기반의 균열신호 분류 방법, 이를 구현한 실시간 균열신호 감지 장치	새창보기
[KST2020014950][한국과학기술원]	데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치	새창보기

의뢰할 수요기술을 선택합니다

담당자명, 주소, 이메일, 연락처, 내용, 파일선택의 정보를 제공하는 도입희망기술 뷰 페이지 의뢰하기 입력표입니다.
담당자명		활동구분※필수입력항목
이메일		연락처	- -
내용
파일선택	파일선택

기술이전 상담신청 드립니다.
기업명
신청자 성명		직책
연락처	- -
이메일	@
상담희망전담센터	※ 사업장(본점) 소재지가 속한 지역의 기술혁신센터를 지정해주세요.