1 |
1
컴퓨팅 장치에 의하여 실행되는 방법에 있어서,입력 데이터를 이용하여 상기 입력 데이터의 평가결과를 결정하는 강화 학습 모델을 학습 시키는 것을 반복하는 단계를 포함하되, 상기 반복하는 단계는, 상기 입력 데이터를 상기 강화 학습 모델에 입력하여 출력된 결과인 제1 결과 데이터를 얻는 단계; 상기 입력 데이터를 제1 평가 모델을 이용하여 평가한 결과인 제2 결과 데이터를 얻는 단계; 상기 제1 결과 데이터 및 상기 제2 결과 데이터의 합치 여부를 고려하여 부여되는 제1 보상(reward)에 감가율(discount factor)이 적용되어 합산된 결과인 제1 반환 값을 얻는 단계; 상기 제1 반환 값을 이용하여 상기 강화 학습 모델을 학습 시키는 단계; 및상기 제2 결과 데이터를 고려하여 상기 감가율을 자동으로 조정하는 단계를 포함하는, 감가율 자동 조정형 강화 학습 방법
|
2 |
2
제1 항에 있어서,상기 감가율을 자동으로 조정하는 단계는, 상기 입력 데이터가 수신되는 빈도가 잦을수록 상기 감가율의 조정폭을 감소시키는 단계를 포함하는, 감가율 자동 조정형 강화 학습 방법
|
3 |
3
제1 항에 있어서,상기 반복하는 단계는, 상기 제1 결과 데이터 및 제3 결과 데이터의 합치 여부에 기초하여 부여되는 제2 보상(reward)에 상기 감가율이 적용되어 합산된 결과인 제2 반환 값의 기대치인 가치 값(value)을 얻되, 상기 제3 결과 데이터는 상기 입력 데이터를 제2 평가 모델을 이용하여 평가한 결과인 단계를 더 포함하고,상기 강화 학습 모델을 학습 시키는 단계는, 상기 제1 반환 값 및 상기 가치 값을 이용하여 상기 강화 학습 모델을 학습시키는 단계를 포함하고, 상기 감가율을 자동으로 조정하는 단계는, 상기 제1 결과 데이터 및 상기 제3 결과 데이터의 합치 여부를 더 고려하여 상기 감가율을 조정하는 단계를 포함하는, 감가율 자동 조정형 강화 학습 방법
|
4 |
4
제3 항에 있어서,상기 제1 평가 모델은,복수의 알려진 패턴(known pattern)을 감지하는 모델이고, 상기 가치 값을 얻는 단계는, 상기 제1 결과 데이터가 상기 복수의 알려진 패턴 중 하나 이상이 발견되지 않았음을 가리키는 것인 경우에 한하여, 상기 가치 값을 얻는 단계를 포함하는, 감가율 자동 조정형 강화 학습 방법
|
5 |
5
제3 항에 있어서,상기 제1 평가 모델은,복수의 알려진 패턴(known pattern)을 감지하는 모델로서, 상기 컴퓨팅 장치에 다운로드 된 데이터로 구성되는 것이고, 상기 제2 평가 모델은, 상기 복수의 알려진 패턴 중 적어도 일부의 패턴과, 상기 복수의 알려진 패턴에 포함되지 않은 신규의 패턴을 감지하는 모델로서, 상기 컴퓨팅 장치와 네트워크로 연결되는 서버 장치에 저장되어, 학습 결과가 반영되도록 주기적 또는 비주기적으로 업데이트 되는 것인,감가율 자동 조정형 강화 학습 방법
|
6 |
6
제5 항에 있어서,상기 제2 평가 모델은, 상기 복수의 알려진 패턴 중 적어도 일부의 패턴을 이용하여 초기 학습(initial learning)을 진행한 후, 전이학습(transfer learning) 방식으로 추가 학습된 모델인, 감가율 자동 조정형 강화 학습 방법
|
7 |
7
제3 항에 있어서,상기 제1 평가 모델은,과거 데이터에서 수집된 복수의 알려진 패턴(known pattern)을 감지하는 모델이고, 상기 감가율을 자동으로 조정하는 단계는, 상기 제2 결과 데이터가 상기 복수의 알려진 패턴 중 하나 이상이 발견되었음을 가리키는 것인지 여부를 더 고려하여 상기 감가율을 자동으로 조정하는 단계를 포함하는, 감가율 자동 조정형 강화 학습 방법
|
8 |
8
제7 항에 있어서,상기 제2 결과 데이터가 상기 복수의 알려진 패턴 중 하나 이상이 발견되었음을 가리키는 것인지 여부를 더 고려하여 상기 감가율을 자동으로 조정하는 단계는, 상기 제2 결과 데이터가 상기 복수의 알려진 패턴 중 하나 이상이 발견되었음을 가리키는 것인 경우, 상기 감가율을 자동으로 감소시키는 단계를 포함하는, 감가율 자동 조정형 강화 학습 방법
|
9 |
9
제7 항에 있어서,상기 제2 평가 모델은, 상기 복수의 알려진 패턴 중 적어도 일부의 패턴과, 상기 복수의 알려진 패턴에 포함되지 않은 신규의 패턴을 감지하는 모델로서, 주기적, 비주기적 또는 실시간으로 수집되는 데이터를 이용한 기계 학습의 결과가 반영되도록 주기적 또는 비주기적으로 업데이트 되는 것이며,상기 제2 결과 데이터가 상 기 복수의 알려진 패턴 중 하나 이상이 발견되었음을 가리키는 것인지 여부를 더 고려하여 상기 감가율을 자동으로 조정하는 단계는, 상기 제1 결과 데이터가 패턴이 발견되지 않았음을 가리키는 것이고, 상기 제3 결과 데이터는 패턴이 발견되었음을 가리키는 것인 경우, 상기 감가율을 자동으로 증가시키는 단계를 포함하는, 감가율 자동 조정형 강화 학습 방법
|
10 |
10
제3 항에 있어서,상기 입력 데이터는 상기 컴퓨팅 장치와 내부망으로 연결된 디바이스의 인바운드 패킷 및 아웃바운드 패킷 중 적어도 하나이고, 상기 제1 평가 모델은,과거의 패킷 데이터에서 수집된 복수의 알려진 패턴(known pattern)을 감지하는 모델로서 상기 컴퓨팅 장치에 저장된 것이고, 상기 제2 평가 모델은, 상기 복수의 알려진 패턴 중 적어도 일부의 패턴과, 상기 복수의 알려진 패턴에 포함되지 않은 신규의 패턴을 감지하는 모델로서, 주기적, 비주기적 또는 실시간으로 수집되는 데이터를 이용한 기계 학습의 결과가 반영되도록 주기적 또는 비주기적으로 업데이트 되는 것으로서, 상기 컴퓨팅 장치와 외부망으로 연결된 외부 장치에 저장된 것이며, 상기 강화 학습 모델을 구성하는 데이터는 상기 컴퓨팅 장치에 저장된 것인, 감가율 자동 조정형 강화 학습 방법
|
11 |
11
제3 항에 있어서,상기 입력 데이터는 상기 컴퓨팅 장치와 내부망으로 연결된 IoT 센서에서 송신된 센서값의 시계열 데이터이고, 상기 제1 평가 모델은,과거의 센서값 시계열 데이터에서 수집된 복수의 알려진 패턴(known pattern)을 감지하는 모델로서 상기 컴퓨팅 장치에 저장된 것이고, 상기 제2 평가 모델은, 상기 복수의 알려진 패턴 중 적어도 일부의 패턴과, 상기 복수의 알려진 패턴에 포함되지 않은 신규의 패턴을 감지하는 모델로서, 주기적, 비주기적 또는 실시간으로 수집되는 데이터를 이용한 기계 학습의 결과가 반영되도록 주기적 또는 비주기적으로 업데이트 되는 것으로서, 상기 컴퓨팅 장치와 외부망으로 연결된 외부 장치에 저장된 것이며, 상기 강화 학습 모델을 구성하는 데이터는 상기 컴퓨팅 장치에 저장된 것인, 감가율 자동 조정형 강화 학습 방법
|
12 |
12
제3 항에 있어서,상기 제2 평가 모델은, 복수의 알려진 패턴(known pattern) 중 적어도 일부의 패턴과, 상기 복수의 알려진 패턴에 포함되지 않은 신규의 패턴을 감지하는 모델로서, 주기적, 비주기적 또는 실시간으로 수집되는 데이터를 이용한 기계 학습의 결과가 반영되도록 주기적 또는 비주기적으로 업데이트 되는 것이고,상기 제2 보상은, 상기 제1 결과 데이터 및 상기 제3 결과 데이터의 불합치 시 마이너스 값이 부여되는 것이되, 상기 제1 결과 데이터가 패턴 발견을 가리키는 것이고 상기 제3 결과 데이터가 패턴 미발견을 가리키는 것인 경우의 상기 제2 보상의 절대값이, 상기 제1 결과 데이터가 패턴 미발견을 가리키는 것이고 상기 제3 결과 데이터가 패턴 발견을 가리키는 것인 경우의 상기 제2 보상의 절대값보다 큰것인,감가율 자동 조정형 강화 학습 방법
|
13 |
13
제1 항에 있어서,상기 제1 평가 모델은,과거 데이터에서 수집된 복수의 알려진 패턴(known pattern)을 감지하는 모델이고, 상기 제1 보상은, 상기 제1 결과 데이터 및 상기 제2 결과 데이터의 불합치 시 마이너스 값이 부여되는 것이되, 상기 제1 결과 데이터가 패턴 미발견을 가리키는 것이고 상기 제2 결과 데이터가 패턴 발견을 가리키는 것인 경우의 상기 제1 보상의 절대값이, 상기 제1 결과 데이터가 패턴 발견을 가리키는 것이고 상기 제2 결과 데이터가 패턴 미발견을 가리키는 것인 경우의 상기 제1 보상의 절대값보다 큰것인,감가율 자동 조정형 강화 학습 방법
|
14 |
14
복수의 디바이스와 연결되어 상기 복수의 디바이스의 인바운드 패킷 및 아웃바운드 패킷 중 적어도 하나인 입력 데이터를 수집하는 네트워크 인터페이스; 과거의 패킷 데이터에서 수집된 복수의 알려진 패턴(known pattern)을 감지하는 제1 평가 모델을 구성하는 데이터 및 강화 학습 모델을 구성하는 데이터를 저장하는 스토리지; 복수의 인스트럭션, 상기 제1 평가 모델을 구성하는 데이터 및 상기 강화 학습 모델을 구성하는 데이터를 로드하는 메모리; 및 상기 복수의 인스트럭션을 실행하는 프로세서를 포함하되, 상기 복수의 인스트럭션은, 상기 입력 데이터를 상기 강화 학습 모델에 입력하여 출력된 결과인 제1 결과 데이터를 얻는 인스트럭션; 상기 입력 데이터를 상기 제1 평가 모델을 이용하여 평가한 결과인 제2 결과 데이터를 얻는 인스트럭션; 상기 제1 결과 데이터 및 상기 제2 결과 데이터의 합치 여부를 고려하여 부여되는 제1 보상(reward)에 감가율(discount factor)이 적용되어 합산된 결과인 제1 반환 값을 얻는 인스트럭션; 상기 제1 반환 값을 이용하여 상기 강화 학습 모델을 학습 시키는 인스트럭션; 상기 제2 결과 데이터를 고려하여 상기 감가율을 자동으로 조정하는 인스트럭션; 및 상기 제1 결과 데이터를 출력하는 인스트럭션을 포함하는, 위협 탐지 기능이 구비된 게이트웨이 장치
|
15 |
15
제14 항에 있어서,상기 복수의 인스트럭션은, 상기 제1 결과 데이터가 상기 복수의 알려진 패턴 중 하나 이상이 발견되지 않았음을 가리키는 것인 경우, 상기 제1 결과 데이터 및 제3 결과 데이터의 합치 여부에 기초하여 부여되는 제2 보상(reward)에 상기 감가율이 적용되어 합산된 결과인 제2 반환 값의 기대치인 가치 값(value)을 얻기 위한 요청 신호를 상기 네트워크 인터페이스를 통하여 서버 장치에 송신하는 인스트럭션을 더 포함하되,상기 강화 학습 모델을 학습 시키는 인스트럭션은, 상기 제1 반환 값 및 상기 가치 값을 이용하여 상기 강화 학습 모델을 학습시키는 인스트럭션을 포함하고, 상기 감가율을 자동으로 조정하는 인스트럭션은, 상기 제1 결과 데이터 및 상기 제3 결과 데이터의 합치 여부를 더 고려하여 상기 감가율을 조정하는 인스트럭션을 포함하되, 상기 제3 결과 데이터는 상기 입력 데이터를 제2 평가 모델을 이용하여 평가한 결과이고, 상기 요청 신호는 상기 입력 데이터 및 감가율 데이터를 포함하는, 위협 탐지 기능이 구비된 게이트웨이 장치
|
16 |
16
제15 항에 있어서,상기 제1 결과 데이터 및 상기 제3 결과 데이터의 합치 여부를 더 고려하여 상기 감가율을 조정하는 인스트럭션은, 상기 제1 결과 데이터가 패턴이 발견되지 않았음을 가리키는 것이고, 상기 제3 결과 데이터는 패턴이 발견되었음을 가리키는 것인 경우, 상기 감가율을 자동으로 증가시키는 인스트럭션을 포함하는, 위협 탐지 기능이 구비된 게이트웨이 장치
|
17 |
17
제14 항에 있어서,상기 제2 결과 데이터를 고려하여 상기 감가율을 자동으로 조정하는 인스트럭션은, 상기 제2 결과 데이터가 상기 복수의 알려진 패턴 중 하나 이상이 발견되었음을 가리키는 것인 경우, 상기 감가율을 자동으로 감소시키는 인스트럭션을 포함하는, 위협 탐지 기능이 구비된 게이트웨이 장치
|
18 |
18
컴퓨팅 장치에 의하여 실행되는 방법에 있어서,입력 데이터를 이용하여 상기 입력 데이터의 평가결과를 결정하는 강화 학습 모델을 학습 시키는 것을 반복하는 단계를 포함하되, 상기 반복하는 단계는, 상기 입력 데이터를 상기 강화 학습 모델에 입력하여 출력된 결과인 제1 결과 데이터를 얻는 단계; 상기 입력 데이터를 제1 평가모델을 이용하여 평가한 결과인 제2 결과 데이터를 얻는 단계; 상기 입력 데이터를 제2 평가모델을 이용하여 평가한 결과인 제3 결과 데이터를 얻는 단계; 상기 제2 결과 데이터 및 상기 제3 결과 데이터의 비교 결과에 따라 추종 대상 평가 모델을 결정하는 단계; 상기 추종 대상 평가 모델의 결과 데이터와 상기 제1 결과 데이터 사이의 비교 결과에 따라 결정되는 보상(reward)을 이용하여 상기 강화 학습 모델을 학습 시키는 단계를 포함하는, 강화 학습 방법
|