1 |
1
각 단계가 컴퓨팅 장치의 프로세서에서 실행되는 프로그램 명령어로 구현되어 프로세서에서 실행되는 뉴로-논리 강화학습(Neural Logic Reinforcement Learning, NLRL) 최적화 방법에 있어서,서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계;미리 정의되며 결론부(head)와 조건부(body)로 구성되는 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성된 규칙과 객체 상수를 조합한 구체화된 규칙들의 집합인 정책 공간을 설정하는 단계;시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계;상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계;정책 공간에 속하는 구체화된 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 정책 공간을 최적화하는 단계; 및최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계;를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
2 |
2
제 1 항에 있어서, 상태-행동 공간을 최적화하는 단계는 :추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계;선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계;지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계; 및지식 베이스를 상기 온톨로지로 초기화하는 단계;를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
3 |
3
제 2 항에 있어서, 정책 공간을 최적화하는 단계는 :추론되지 않은 구체화된 규칙을 정책 공간에서 선택하는 단계;선택된 구체화된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계;지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계;추론 성공 시 선택된 구체화된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계;지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 규칙을 정책 공간에서 제거하는 단계;지식 베이스를 상기 온톨로지로 초기화하는 단계;를 포함하여 정책 공간에 추론되지 않은 구체화된 규칙이 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
4 |
4
제 1 항에 있어서, 상태-행동 공간을 설정하는 단계는 :객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계;객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계;상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계;를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
5 |
5
제 1 항에 있어서, 정책 공간을 설정하는 단계는 :구문 템플릿을 따라 서술자와 객체 변수들을 조합하여 제1 규칙 집합을 생성하는 단계;제1 규칙 집합에 속하는 규칙들과 객체 상수를 조합하여 정책 공간을 설정하는 단계;를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
6 |
6
제 1 항에 있어서,의미적 제약은 클래스 유형, 정의역(domain)과 치역(range), 대칭 성질, 비대칭 성질, 역 성질(inverse), 이행 성질(transitive)을 포함하는 제약들의 조합으로 정의되는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
7 |
7
각 단계가 컴퓨팅 장치의 프로세서에서 실행되는 프로그램 명령어로 구현되어 프로세서에서 실행되는 뉴로-논리 강화학습(Neural Logic Reinforcement Learning, NLRL) 최적화 방법에 있어서,서술자와 객체 상수를 조합한 구체화된 서술자들의 집합인 상태-행동 공간을 설정하는 단계;미리 정의되며 결론부(head)와 조건부(body)로 구성되는 구문 템플릿에 따라 서술자와 객체 변수를 조합하여 생성한 규칙들의 규칙 집합을 생성하는 단계;시맨틱 웹 표준 언어로 정의된 의미적 제약들로 구성되는 온톨로지를 지식 베이스에 삽입하는 단계;상태-행동 공간에 속하는 구체화된 서술자들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 서술자들을 제거하여 상태-행동 공간을 최적화하는 단계;규칙 집합에 속하는 규칙들에 대하여 지식 베이스를 대상으로 추론하여 의미적 제약에 위배되는 규칙들을 제거하여 규칙 집합을 최적화하는 단계;최적화된 상태-행동 공간에 속하는 구체화된 서술자와 최적화된 규칙 집합의 조건부를 조합하여 최적화된 정책 공간을 생성하는 단계; 및최적화된 상태-행동 공간과 최적화된 정책 공간에 기초하여 뉴로-논리 강화학습(NLRL)을 수행하는 단계;를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
8 |
8
제 7 항에 있어서, 상태-행동 공간을 최적화하는 단계는 :추론되지 않은 구체화된 서술자를 상태-행동 공간에서 선택하는 단계;선택된 구체화된 서술자를 지식 베이스에 삽입하는 단계;지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 구체화된 서술자를 상태-행동 공간에서 제거하는 단계지식 베이스를 상기 온톨로지로 초기화하는 단계;를 포함하여 상태-행동 공간에 추론되지 않은 구체화된 서술자가 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
9 |
9
제 8 항에 있어서, 규칙 집합을 최적화하는 단계는 :추론되지 않은 규칙을 규칙 집합에서 선택하는 단계;선택된 규칙의 조건부의 서술자들을 지식 베이스에 삽입하는 단계;지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계;추론 성공 시 선택된 규칙의 결론부의 서술자를 지식 베이스에 삽입하는 단계;지식 베이스를 대상으로 추론을 수행하여 추론 실패 시 선택된 규칙을 규칙 집합에서 제거하는 단계;지식 베이스를 상기 온톨로지로 초기화하는 단계;를 포함하여 규칙 집합에 추론되지 않은 규칙이 없을 때까지 각 단계를 반복하여 수행하는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
10 |
10
제 7 항에 있어서, 상태-행동 공간을 설정하는 단계는 :객체의 상태에 대하여 정의된 모든 상태 서술자들과 객체 상수를 조합하여 상태 서술자 집합을 생성하는 단계;객체를 대상으로 하는 행동에 대하여 정의된 모든 행동 서술자들과 객체 상수를 조합하여 행동 서술자 집합을 생성하는 단계;상태 서술자 집합과 행동 서술자 집합을 결합하여 상태-행동 공간을 설정하는 단계;를 포함하는 뉴로-논리 강화학습(NLRL) 최적화 방법
|
11 |
11
제 7 항에 있어서,의미적 제약은 클래스 유형, 정의역(domain)과 치역(range), 대칭 성질, 비대칭 성질, 역 성질(inverse), 이행 성질(transitive)을 포함하는 제약들의 조합으로 정의되는 뉴로-논리 강화학습(NLRL) 최적화 방법
|