1 |
1
트레이딩 장치에 의한 트레이딩 방법에 있어서,비지도 학습 기반의 오프라인 상태 표현 모델을 통해 주식 데이터로부터 특징을 추출하는 단계;지도 학습 기반의 온라인 상태 표현 모델을 통해 상기 특징으로부터 상태 정보로 변환하는 단계;강화 학습 기반의 주식 매매 결정 모델을 통해 상기 상태 정보를 이용하여 주식 매매를 결정하는 단계를 포함하는 트레이딩 방법
|
2 |
2
제1항에 있어서,상기 강화 학습 기반의 주식 매매 결정 모델은,상기 상태 정보를 이용하여 주식 가격을 예측하는 회귀 네트워크;상기 상태 정보를 이용하여 정책에 따라 상기 주식 매매에 관한 행위를 결정하는 행위자 네트워크;상기 상태 정보를 이용하여 상기 정책에 고려되는 보상을 제공하는 비평가 네트워크를 포함하는 것을 특징으로 하는 트레이딩 방법
|
3 |
3
제2항에 있어서,상기 비지도 학습 기반의 오프라인 상태 표현 모델은 상기 회귀 네트워크가 학습하기 전에 학습을 수행하며,상기 비지도 학습 기반의 오프라인 상태 표현 모델은 고차원의 주식 데이터로부터 기술적 지표와 캔들스틱으로 구분하여 저차원의 특징을 추출하며, 상기 특징을 정규화하고, 정규화한 특징을 주성분 분석을 통해 차원을 줄이고, 상기 캔들스틱의 색을 제외한 특징에 대해서 클러스터링을 수행하여 출력하는 것을 특징으로 하는 트레이딩 방법
|
4 |
4
제2항에 있어서,상기 지도 학습 기반의 온라인 상태 표현 모델은 상기 회귀 네트워크가 학습하는 동안 학습을 수행하며,상기 지도 학습 기반의 온라인 상태 표현 모델은 상기 특징에 슬라이딩 윈도우를 적용하여 시계열 데이터를 확인하고 중요 특징에 가중치를 부여한 후 LSTM(Long Short-Term Memory) 계층을 적용하여 시간적 특성을 학습하는 것을 특징으로 하는 트레이딩 방법
|
5 |
5
제4항에 있어서,상기 강화 학습 기반의 주식 매매 결정 모델은,상기 행위를 저장하는 환경 모델;상기 환경 모델로부터 전문가 행위 모델을 통해 하이퍼 파라미터로 설정된 오늘과 내일의 종가 관계를 기반으로 결정된 제1 주식 매매에 관한 행위를 수신하고, 상기 행위자 네트워크로부터 제2 주식 매매에 관한 행위를 수신하고, 상기 제1 주식 매매에 관한 행위 및 상기 제2 주식 매매에 관한 행위를 비교하여 상기 행위자 네트워크에 피드백을 제공하는 행위 복제 모델을 포함하는 것을 특징으로 하는 트레이딩 방법
|
6 |
6
제4항에 있어서,상기 비평가 네트워크는 상기 지도 학습 기반의 온라인 상태 표현 모델로부터 상태 정보를 각각 수신하여 보상을 처리하는 제1 비평가 네트워크 및 제2 비평가 네트워크를 포함하며, 상기 제1 비평가 네트워크 및 상기 제2 비평가 네트워크에 의해 도출된 각각의 보상 중에서 최소값을 기준으로 업데이트를 수행하는 것을 특징으로 하는 트레이딩 방법
|
7 |
7
제6항에 있어서,상기 지도 학습 기반의 온라인 상태 표현 모델은,상기 제1 비평가 네트워크로 제1 상태 정보를 전송하는 제1 온라인 상태 표현 모델;상기 제2 비평가 네트워크로 제2 상태 정보를 전송하는 제2 온라인 상태 표현 모델;상기 행위자 네트워크 및 상기 회귀 네트워크로 제3 상태 정보를 전송하는 제3 온라인 상태 표현 모델을 포함하는 것을 특징으로 하는 트레이딩 방법
|
8 |
8
제4항에 있어서,상기 주식 매매를 결정하는 단계는,다단계 학습 버퍼를 통해 상기 주식 매매 결정 모델에 적용될 행위 및 보상, 상기 온라인 상태 표현 모델에 적용될 상기 슬라이딩 윈도우를 저장하고,시간 조건에 따라 상기 다단계 학습 버퍼로부터 상기 주식 매매 결정 모델에 적용될 행위 및 보상, 상기 온라인 상태 표현 모델에 적용될 상기 슬라이딩 윈도우를 획득하여 사용하고, 재생 버퍼에 저장하고,상기 재생 버퍼에 저장된 데이터를 샘플링한 후 샘플링한 데이터를 상기 비평가 네트워크를 업데이트하는 과정에서 사용하는 것을 특징으로 하는 트레이딩 방법
|
9 |
9
제2항에 있어서,상기 주식 매매를 결정하는 단계는,지연 변동 파라미터 및 최소 지연 파라미터를 기반으로 정의된 동적 지연값을 이용하여 상기 행위자 네트워크 및 상기 비평가 네트워크의 업데이트 시점을 동적으로 제어하는 것을 특징으로 하는 트레이딩 방법
|
10 |
10
제2항에 있어서,상기 주식 매매를 결정하는 단계에서,상기 비평가 네트워크가 업데이트되면 역전파를 거쳐 상기 온라인 상태 표현 모델이 업데이트되는 것을 특징으로 하는 트레이딩 방법
|
11 |
11
제2항에 있어서,상기 주식 매매를 결정하는 단계에서,상기 회귀 네트워크가 업데이트되면 역전파를 거쳐 상기 온라인 상태 표현 모델이 업데이트되는 것을 특징으로 하는 트레이딩 방법
|
12 |
12
프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함하는 트레이딩 장치에 있어서,상기 프로세서는,비지도 학습 기반의 오프라인 상태 표현 모델을 통해 주식 데이터로부터 특징을 추출하고,지도 학습 기반의 온라인 상태 표현 모델을 통해 상기 특징으로부터 상태 정보로 변환하고,강화 학습 기반의 주식 매매 결정 모델을 통해 상기 상태 정보를 이용하여 주식 매매를 결정하는 것을 특징으로 하는 트레이딩 장치
|
13 |
13
제12항에 있어서,상기 강화 학습 기반의 주식 매매 결정 모델은,상기 상태 정보를 이용하여 주식 가격을 예측하는 회귀 네트워크;상기 상태 정보를 이용하여 정책에 따라 상기 주식 매매에 관한 행위를 결정하는 행위자 네트워크;상기 상태 정보를 이용하여 상기 정책에 고려되는 보상을 제공하는 비평가 네트워크를 포함하는 것을 특징으로 하는 트레이딩 장치
|