맞춤기술찾기

이전대상기술

상태 표현 학습 및 모방 강화 학습을 이용한 실용적인 트레이딩 방법 및 장치

  • 기술번호 : KST2023009500
  • 담당센터 : 서울서부기술혁신센터
  • 전화번호 : 02-6124-6930
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 실시예들은 오프라인/온라인 상태 표현 학습 및 모방 강화 학습을 사용하며, 오프라인 상태 표현 모델은 차원 축소 및 클러스터링을 적용하여 강력한 특징을 추출하고, 온라인 상태 표현 모델은 회귀 모델을 강화 학습 모델과 공동 학습하여 의사 결정을 위한 정확한 상태 정보를 제공하고, 모방 강화 학습 모델에 다단계 학습과 동적 지연을 적용하는 방식을 통해 트레이딩 과정에서 리스크를 감소시키고 수익률을 향상시킬 수 있는 트레이딩 방법 및 장치를 제공한다.
Int. CL G06Q 40/04 (2023.01.01) G06Q 40/06 (2023.01.01) G06N 20/00 (2019.01.01) G06N 3/08 (2023.01.01)
CPC G06Q 40/04(2013.01) G06Q 40/06(2013.01) G06N 20/00(2013.01) G06N 3/084(2013.01) G06N 3/088(2013.01)
출원번호/일자 1020220046396 (2022.04.14)
출원인 광운대학교 산학협력단
등록번호/일자
공개번호/일자 10-2023-0147409 (2023.10.23) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2022.04.14)
심사청구항수 13

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 광운대학교 산학협력단 대한민국 서울특별시 노원구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이기훈 서울특별시 노원구
2 박덕영 전라남도 영암군

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인우인 대한민국 서울특별시 강남구 역삼로 ***, *층(역삼동, 중평빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2022.04.14 수리 (Accepted) 1-1-2022-0400855-33
2 선행기술조사의뢰서
Request for Prior Art Search
2023.08.18 수리 (Accepted) 9-1-9999-9999999-89
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
트레이딩 장치에 의한 트레이딩 방법에 있어서,비지도 학습 기반의 오프라인 상태 표현 모델을 통해 주식 데이터로부터 특징을 추출하는 단계;지도 학습 기반의 온라인 상태 표현 모델을 통해 상기 특징으로부터 상태 정보로 변환하는 단계;강화 학습 기반의 주식 매매 결정 모델을 통해 상기 상태 정보를 이용하여 주식 매매를 결정하는 단계를 포함하는 트레이딩 방법
2 2
제1항에 있어서,상기 강화 학습 기반의 주식 매매 결정 모델은,상기 상태 정보를 이용하여 주식 가격을 예측하는 회귀 네트워크;상기 상태 정보를 이용하여 정책에 따라 상기 주식 매매에 관한 행위를 결정하는 행위자 네트워크;상기 상태 정보를 이용하여 상기 정책에 고려되는 보상을 제공하는 비평가 네트워크를 포함하는 것을 특징으로 하는 트레이딩 방법
3 3
제2항에 있어서,상기 비지도 학습 기반의 오프라인 상태 표현 모델은 상기 회귀 네트워크가 학습하기 전에 학습을 수행하며,상기 비지도 학습 기반의 오프라인 상태 표현 모델은 고차원의 주식 데이터로부터 기술적 지표와 캔들스틱으로 구분하여 저차원의 특징을 추출하며, 상기 특징을 정규화하고, 정규화한 특징을 주성분 분석을 통해 차원을 줄이고, 상기 캔들스틱의 색을 제외한 특징에 대해서 클러스터링을 수행하여 출력하는 것을 특징으로 하는 트레이딩 방법
4 4
제2항에 있어서,상기 지도 학습 기반의 온라인 상태 표현 모델은 상기 회귀 네트워크가 학습하는 동안 학습을 수행하며,상기 지도 학습 기반의 온라인 상태 표현 모델은 상기 특징에 슬라이딩 윈도우를 적용하여 시계열 데이터를 확인하고 중요 특징에 가중치를 부여한 후 LSTM(Long Short-Term Memory) 계층을 적용하여 시간적 특성을 학습하는 것을 특징으로 하는 트레이딩 방법
5 5
제4항에 있어서,상기 강화 학습 기반의 주식 매매 결정 모델은,상기 행위를 저장하는 환경 모델;상기 환경 모델로부터 전문가 행위 모델을 통해 하이퍼 파라미터로 설정된 오늘과 내일의 종가 관계를 기반으로 결정된 제1 주식 매매에 관한 행위를 수신하고, 상기 행위자 네트워크로부터 제2 주식 매매에 관한 행위를 수신하고, 상기 제1 주식 매매에 관한 행위 및 상기 제2 주식 매매에 관한 행위를 비교하여 상기 행위자 네트워크에 피드백을 제공하는 행위 복제 모델을 포함하는 것을 특징으로 하는 트레이딩 방법
6 6
제4항에 있어서,상기 비평가 네트워크는 상기 지도 학습 기반의 온라인 상태 표현 모델로부터 상태 정보를 각각 수신하여 보상을 처리하는 제1 비평가 네트워크 및 제2 비평가 네트워크를 포함하며, 상기 제1 비평가 네트워크 및 상기 제2 비평가 네트워크에 의해 도출된 각각의 보상 중에서 최소값을 기준으로 업데이트를 수행하는 것을 특징으로 하는 트레이딩 방법
7 7
제6항에 있어서,상기 지도 학습 기반의 온라인 상태 표현 모델은,상기 제1 비평가 네트워크로 제1 상태 정보를 전송하는 제1 온라인 상태 표현 모델;상기 제2 비평가 네트워크로 제2 상태 정보를 전송하는 제2 온라인 상태 표현 모델;상기 행위자 네트워크 및 상기 회귀 네트워크로 제3 상태 정보를 전송하는 제3 온라인 상태 표현 모델을 포함하는 것을 특징으로 하는 트레이딩 방법
8 8
제4항에 있어서,상기 주식 매매를 결정하는 단계는,다단계 학습 버퍼를 통해 상기 주식 매매 결정 모델에 적용될 행위 및 보상, 상기 온라인 상태 표현 모델에 적용될 상기 슬라이딩 윈도우를 저장하고,시간 조건에 따라 상기 다단계 학습 버퍼로부터 상기 주식 매매 결정 모델에 적용될 행위 및 보상, 상기 온라인 상태 표현 모델에 적용될 상기 슬라이딩 윈도우를 획득하여 사용하고, 재생 버퍼에 저장하고,상기 재생 버퍼에 저장된 데이터를 샘플링한 후 샘플링한 데이터를 상기 비평가 네트워크를 업데이트하는 과정에서 사용하는 것을 특징으로 하는 트레이딩 방법
9 9
제2항에 있어서,상기 주식 매매를 결정하는 단계는,지연 변동 파라미터 및 최소 지연 파라미터를 기반으로 정의된 동적 지연값을 이용하여 상기 행위자 네트워크 및 상기 비평가 네트워크의 업데이트 시점을 동적으로 제어하는 것을 특징으로 하는 트레이딩 방법
10 10
제2항에 있어서,상기 주식 매매를 결정하는 단계에서,상기 비평가 네트워크가 업데이트되면 역전파를 거쳐 상기 온라인 상태 표현 모델이 업데이트되는 것을 특징으로 하는 트레이딩 방법
11 11
제2항에 있어서,상기 주식 매매를 결정하는 단계에서,상기 회귀 네트워크가 업데이트되면 역전파를 거쳐 상기 온라인 상태 표현 모델이 업데이트되는 것을 특징으로 하는 트레이딩 방법
12 12
프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함하는 트레이딩 장치에 있어서,상기 프로세서는,비지도 학습 기반의 오프라인 상태 표현 모델을 통해 주식 데이터로부터 특징을 추출하고,지도 학습 기반의 온라인 상태 표현 모델을 통해 상기 특징으로부터 상태 정보로 변환하고,강화 학습 기반의 주식 매매 결정 모델을 통해 상기 상태 정보를 이용하여 주식 매매를 결정하는 것을 특징으로 하는 트레이딩 장치
13 13
제12항에 있어서,상기 강화 학습 기반의 주식 매매 결정 모델은,상기 상태 정보를 이용하여 주식 가격을 예측하는 회귀 네트워크;상기 상태 정보를 이용하여 정책에 따라 상기 주식 매매에 관한 행위를 결정하는 행위자 네트워크;상기 상태 정보를 이용하여 상기 정책에 고려되는 보상을 제공하는 비평가 네트워크를 포함하는 것을 특징으로 하는 트레이딩 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 교육부 광운대학교 산학협력단 기본연구지원사업 분산 환경에서 스트리밍 데이터와 저장된 데이터의 통합 처리 및 분석