맞춤기술찾기

이전대상기술

인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치

  • 기술번호 : KST2023009529
  • 담당센터 :
  • 전화번호 :
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 개시서에는 인공지능 에이전트를 훈련시키는 방법, 이에 기반하여 사용자 액션을 추천하는 방법 및 이를 이용한 장치가 개시된다. 특히 본 개시서는 강화학습에 필요한 환경, 보상 기준 등이 제공되지 않아 반복적으로 학습을 진행할 수 없는 경우에도 인공지능 에이전트를 훈련시킬 수 있는 강건한(robust) 방법에 관한 것이다.
Int. CL G06N 20/00 (2019.01.01) G06N 3/08 (2023.01.01)
CPC G06N 20/00(2013.01) G06N 20/00(2013.01)
출원번호/일자 1020190082618 (2019.07.09)
출원인 (주)시큐레이어
등록번호/일자 10-2079745-0000 (2020.02.14)
공개번호/일자
공고번호/일자 (20200407) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2019.07.09)
심사청구항수 9

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 (주)시큐레이어 대한민국 서울특별시 성동구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 강필상 대전광역시 동구
2 신강식 대전광역시 서구
3 전영창 세종특별자치시 반곡*길

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인영비 대한민국 서울 강남구 테헤란로**길 **-*,벧엘빌딩 *층

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 기술보증기금 (취급지점: 가산기술평가센터) 부산광역시 남구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2019.07.09 수리 (Accepted) 1-1-2019-0701674-10
2 [우선심사신청]심사청구(우선심사신청)서
[Request for Preferential Examination] Request for Examination (Request for Preferential Examination)
2019.07.10 수리 (Accepted) 1-1-2019-0705935-14
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.19 수리 (Accepted) 4-1-2019-5164709-09
4 의견제출통지서
Notification of reason for refusal
2019.09.18 발송처리완료 (Completion of Transmission) 9-5-2019-0672581-38
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2019.09.26 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2019-0985341-04
6 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2019.09.26 수리 (Accepted) 1-1-2019-0985340-58
7 등록결정서
Decision to grant
2019.11.25 발송처리완료 (Completion of Transmission) 9-5-2019-0850700-17
8 [명세서등 보정]보정서(심사관 직권보정)
2020.03.02 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2020-5005120-54
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.08.31 수리 (Accepted) 4-1-2020-5196095-71
10 특허고객번호 정보변경(경정)신고서·정정신고서
2023.10.19 수리 (Accepted) 4-1-2023-5273549-41
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
인공지능 에이전트(artificial intelligent agent)를 훈련시키는 컴퓨팅 장치 상에서 수행되는 방법으로서,(a) 사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조를 획득하는 단계;(b) 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로를 생성하는 단계;(c) (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 단계; 및(d) 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 단계로서, 상기 훈련은 상기 인공지능 에이전트로 하여금 입력된 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습인, 단계;를 포함하되, 상기 (c) 단계는,(c1) (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하는 단계; 및(c2) 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는 단계를 포함하는, 인공지능 에이전트 훈련 방법
2 2
제1항에 있어서,상기 (b) 단계 내지 (d) 단계는, 소정의 훈련 종료 조건이 충족될 때까지 반복되는 것을 특징으로 하는 인공지능 에이전트 훈련 방법
3 3
삭제
4 4
제1항에 있어서,상기 (c1) 단계는,상기 사용자의 평가를 입력받도록 구성된 사용자 인터페이스 요소를 제공하는 단계; 및(i) 상기 사용자 인터페이스 요소에 의하여 상기 평가가 입력되면 상기 최종 보상이 상기 평가에 의하여 산출되고, (ii) 상기 사용자 인터페이스 요소에 의한 상기 평가의 입력이 없으면, 상기 사용자가 상기 개별 상태들에 도달하기 위하여 동일한 경로를 선택했던 과거의 기록이 있는지 여부를 조회하여 상기 과거의 기록이 있으면 상기 과거의 기록에 따른 이전 훈련에 이용되었던 최종 보상 중 최대값과 같거나 그보다 낮은 값이 상기 최종 보상으로서 산출되며, (iii) 상기 과거의 기록이 없으면, 미리 정해진 최대 점수가 상기 최종 보상으로서 산출되는, 단계를 포함하는 인공지능 에이전트 훈련 방법
5 5
사용자가 취할 액션을 컴퓨팅 장치가 인공지능 에이전트를 통하여 추천하는 방법으로서,(a) 사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조가 획득된 후 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로가 생성되고, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출되어, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트가 훈련된 상태에서, 상기 사용자에게 주어진 현재 상태를 획득하는 단계;(b) 획득된 상기 현재 상태를 상기 인공지능 에이전트에 입력하여 상기 인공지능 에이전트를 통하여 상기 현재 상태에 대하여 상기 사용자에게 추천되는 액션인 추천 액션을 적어도 하나 포함하는 추천 시나리오를 산출하는 단계; 및(c) 상기 추천 시나리오를 상기 사용자에게 제공하는 단계를 포함하되, 상기 훈련은 상기 인공지능 에이전트로 하여금 주어진 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습이고, 상기 (a) 단계는,(a1) (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 상기 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하는 단계; 및(a2) 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는 단계를 포함하는, 인공지능 에이전트 기반 사용자 액션 추천 방법
6 6
제5항에 있어서,(d) 상기 사용자에 의한 상기 추천 시나리오의 사용 여부를 감지하고, (i) 상기 추천 시나리오가 사용된 경우의 상기 추천 시나리오에 의하여 도달한 경로에 대응되는 액션들에 의한 상기 상태의 변화 또는 상기 추천 시나리오가 사용되지 않은 경우의 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여,상기 모든 경로 중 상기 사용자 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 단계; 및(e) 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 단계를 더 포함하는 인공지능 에이전트 기반 사용자 액션 추천 방법
7 7
컴퓨팅 장치로 하여금, 제1항, 제2항, 제4항 내지 제6항 중 어느 한 항의 방법을 수행하도록 구현된 명령어(instructions)를 포함하는, 기계 판독 가능한 비일시적 기록 매체에 저장된, 컴퓨터 프로그램
8 8
인공지능 에이전트(artificial intelligent agent)를 훈련시키는 컴퓨팅 장치로서,사용자에게 주어진 환경 및 상기 사용자에게 현재 주어진 상태를 획득하는 통신부; 및상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조를 획득하는 제1 프로세스, 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로를 생성하는 제2 프로세스; (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출하는 제3 프로세스; 및 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트를 훈련시키는 프로세스로서, 상기 훈련은 상기 인공지능 에이전트로 하여금 입력된 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습인, 제4 프로세스를 수행하는 프로세서를 포함하고, 상기 프로세서는, 상기 제3 프로세스에서, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하고, 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행하는, 인공지능 에이전트 훈련 장치
9 9
제8항에 있어서,상기 프로세서는, 상기 제1 프로세스 내지 제3 프로세스를 소정의 훈련 종료 조건이 충족될 때까지 반복되는 것을 특징으로 하는 인공지능 에이전트 훈련 장치
10 10
사용자가 취할 액션을 인공지능 에이전트를 통하여 추천하는 컴퓨팅 장치로서,사용자에게 주어진 환경에서 상기 사용자의 액션에 의하여 촉발되는 상태의 변화(state transition)에 따라 도달 가능한 상태들(reachable states)의 계층 구조가 획득된 후 상기 사용자에게 현재 주어진 상태에서 상기 계층 구조에 포함된 개별 상태들에 도달할 수 있는 모든 경로가 생성되고, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 기초하여, 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택된 경로에 대한 제1 지연 보상 및 상기 모든 경로 중 상기 사용자의 액션에 의하여 선택되지 않은 경로에 대한 제2 지연 보상을 상기 인공지능 에이전트에 부여할 지연 보상으로서 산출되어, 산출된 상기 지연 보상을 이용하여 상기 인공지능 에이전트가 훈련된 상태에서, 상기 사용자에게 주어진 현재 상태를 획득하는 통신부; 및획득된 상기 현재 상태를 상기 인공지능 에이전트에 입력하여 상기 인공지능 에이전트를 통하여 상기 현재 상태에 대하여 상기 사용자에게 추천되는 액션인 추천 액션을 적어도 하나 포함하는 추천 시나리오를 산출하는 제1 프로세스; 및 상기 추천 시나리오를 상기 사용자에게 제공하는 제2 프로세스를 수행하는 프로세서를 포함하되, 상기 훈련은 상기 인공지능 에이전트로 하여금 주어진 현재의 상태에 대하여 출력되는 추천 액션이 상기 지연 보상에 따른 편향성을 가지게 하는 보상-기반(reward-based) 기계학습이고, 상기 지연 보상은, (i) 상기 사용자의 액션에 의한 상기 상태의 변화, 및 (ii) 상기 개별 상태들에서의 체류를 유지하는 상기 액션의 수량 또는 상기 개별 상태들에 대한 상기 사용자의 평가에 의하여 상기 개별 상태들에 대한 최종 보상을 산출하고, 상기 보상-기반 기계학습의 반복 횟수 N에 대하여, N/2 회 이상은 상기 사용자의 액션에 의하여 선택된 경로에 부여할 제1 지연 보상으로서 상기 최종 보상과 같거나 그보다 더 높은 값을 산출하는 프로세스, 및 상기 N에서 상기 N/2 회 이상을 뺀 나머지 횟수는 상기 사용자의 액션에 의하여 선택되지 않은 경로에 부여할 제2 지연 보상으로서 상기 최종 보상의 절반 또는 그보다 낮은 값을 산출하는 프로세스를 수행함으로써 산출되는, 인공지능 에이전트 기반 사용자 액션 추천 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 (주)시큐레이어 정보보호핵심원천기술개발(R&D) (자가방어-3세부) 진화형 사이버방어 가시화 기술 개발