1 |
1
머신 러닝(machine learning)이 수행되는 태스크(task)를 입력받는 외부 입력 모듈(10)과;상기 입력된 태스크(task)에 대해 머신 러닝을 수행하되, 수행 중이거나 수행을 마친 적어도 하나 이상의 태스크에 대한 정보를 제공하는 워커 노드(20)와;상기 워커 노드(20)에서 제공된 태스크 정보를 분석하고, 태스크별로 상기 머신 러닝에 소요되는 컴퓨팅 자원을 산출하는 세션 노드(30); 및상기 외부 입력 모듈(10)을 통해 새로 입력된 태스크에 대한 머신 러닝 수행 명령을 전달하는 마스터 노드(40);를 포함하되,상기 세션 노드(30)는 미리 산출된 태스크의 컴퓨팅 자원을 기반으로 새로 입력된 태스크의 컴퓨팅 자원을 예측하고, 예측 결과에 따라 상기 새로 입력된 태스크가 할당되는 워커 노드(20)를 선택하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
2 |
2
제1항에 있어서,상기 워커 노드(20)는,태스크의 머신 러닝에 소요되는 컴퓨팅 자원 정보를 로그(Log) 형식으로 제공하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
3 |
3
제1항에 있어서,상기 워커 노드(20)는,CPU 사용량, 메모리 사용량, 디스크 사용량, GPU 플롭(Flops), 머신 러닝 태스크의 총 에폭(epoch) 및 머신 러닝 총 수행 시간을 상기 컴퓨팅 자원 정보로 제공하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
4 |
4
제3항에 있어서,상기 세션 노드(30)는,상기 워커 노드(20)로부터 제공된 컴퓨팅 자원을 분석하여 머신 러닝 태스크의 에폭(epoch)당 컴퓨팅 비용 및 수행 시간을 산출하여 상기 새로 입력된 태스크에서 소요되는 컴퓨팅 자원을 예측하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
5 |
5
제4항에 있어서,상기 세션 노드(30)는,각 에폭당 상기 CPU 사용량, 메모리 사용량, 디스크 사용량 및 GPU 플롭을 참조하되,진행된 모든 에폭에서의 CPU 사용량, 메모리 사용량, 디스크 사용량 각각에 대한 평균값으로 상기 컴퓨팅 비용을 산출하여,GPU 플롭에서의 에폭당 CPU 사용량, 메모리 사용량 및 디스크 사용량의 평균값으로 상기 새로 입력된 태스크를 예측하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
6 |
6
제4항에 있어서,상기 세션 노드(30)는,상기 머신 러닝 태스크의 총 에폭, 머신 러닝 총 수행 시간 및 GPU 플롭을 참조하되,상기 머신 러닝 태스크의 총 에폭 및 머신 러닝 총 수행 시간으로 에폭당 수행 시간을 산출하여, GPU 플롭에서의 에폭당 수행 시간으로 상기 새로 입력된 태스크를 예측하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
7 |
7
제3항에 있어서,상기 세션 노드(30)는 다수개이며,각각의 세션 노드(30)는 동일하거나 동일한 그룹으로 분류되는 프레임워크(frame work)로 구성된 워커 노드(20)를 관리하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
8 |
8
제3항에 있어서,상기 세션 노드(30)는,상기 새로 입력된 태스크에 대해 머신 러닝을 수행하는데 소요되는 컴퓨팅 자원을 추가하여, 상기 예측에 이용되는 태스크의 컴퓨팅 자원에 대한 기록을 갱신하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
9 |
9
제1항에 있어서,상기 마스터 노드(40) 및 세션 노드(30) 중 어느 하나 이상은,상기 워커 노드(20)에 대해 네트워크 핑 테스트(ping test)를 수행하여, 태스크의 할당이 가능한 노드를 추출하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
10 |
10
제1항에 있어서,상기 머신 러닝이 수행된 태스크에 대한 정보가 예측 신뢰도를 획득하는 수준으로 축적되지 않은 경우, 이미 머신 러닝이 수행된 태스크에 대한 정보에 선형 보간법을 적용하는 초기 구동 모듈을 더 포함하되,상기 초기 구동 모듈은,상기 선형 보간법으로 예상한 태스크에 대한 정보로 상기 새로 입력된 태스크의 컴퓨팅 자원을 예측하기 위한 태스크 정보를 생성하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 플랫폼 시스템
|
11 |
11
워커 노드(20)에서 태스크에 대해 머신 러닝을 수행하되, 수행 중이거나 수행을 마친 적어도 하나 이상의 태스크에 대한 정보를 제공하는 정보 제공 단계(S10)와;세션 노드(30)에서 상기 워커 노드(20)로부터 제공된 태스크 정보를 분석하고, 태스크별로 상기 머신 러닝에 소요되는 컴퓨팅 자원을 산출하는 자원 산출 단계(S20)와;외부 입력 모듈(10)을 통해 머신 러닝이 수행되는 새로운 태스크를 입력받아 등록하는 태스크 등록 단계(S30)와;상기 세션 노드(30)에서 미리 산출된 태스크의 컴퓨팅 자원을 기반으로 상기 새로 입력된 태스크의 컴퓨팅 자원을 예측하고, 예측 결과에 따라 상기 새로 입력된 태스크가 할당되는 워커 노드(20)를 선택하는 노드 선택 단계(S40)와;마스터 노드(40)에서 상기 외부 입력 모듈(10)을 통해 새로 입력된 태스크에 대한 머신 러닝 수행 명령을 전달하는 실행 명령 단계(S50); 및상기 워커 노드(20)에서 상기 머신 러닝 수행 명령을 입력받아 상기 새로 입력된 태스크에 대한 머신 러닝을 수행하는 머신 러닝 단계(S60);를 포함하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 방법
|
12 |
12
제11항에 있어서,상기 마스터 노드(40) 및 세션 노드(30) 중 어느 하나 이상에서,상기 워커 노드(20)에 대해 네트워크 핑 테스트(ping test)를 수행하여, 상기 태스크의 할당이 가능한 노드를 분석하는 상태 검색 단계를 더 포함하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 방법
|
13 |
13
제1항에 있어서,상기 머신 러닝이 수행된 태스크에 대한 정보가 예측 신뢰도를 획득하는 수준으로 축적되지 않은 경우, 초기 구동 모듈에 의해 이미 머신 러닝이 수행된 태스크에 대한 정보에 선형 보간법을 적용하는 데이터 보간 단계(S1)를 더 포함하되,상기 데이터 보간 단계(S1)에서는,상기 선형 보간법으로 예상한 태스크에 대한 정보로 상기 새로 입력된 태스크의 컴퓨팅 자원을 예측하기 위한 태스크 정보를 생성하는 것을 특징으로 하는 학습에 의한 머신 러닝 실행 관리 방법
|