1 |
1
GPU 메모리 크기와 디바이스와 호스트 간 메모리 전송 속도를 실시간으로 모니터링하는 단계;상기 GPU 메모리 크기와 상기 디바이스와 호스트 간 메모리 전송 속도에 기초하여 체크포인트 지연시간과 리커버리 지연시간을 계산하는 단계; 및상기 체크포인트 지연시간과 상기 리커버리 지연시간에 기초하여 체크포인트 인터벌을 계산하는 단계를 포함하는체크포인트 인터벌 최적화 방법
|
2 |
2
제1항에 있어서,상기 체크포인트 인터벌을 계산하는 단계는,상기 체크포인트 지연시간과 상기 리커버리 지연시간을 체크포인트 인터벌 최적화 함수에 반영하여 체크포인트 인터벌을 계산하는체크포인트 인터벌 최적화 방법
|
3 |
3
제1항에 있어서,상기 체크포인트 지연시간(C)은 하기 수학식 1에의하여 계산되는,[수학식 1]여기서, GPUmemorysize는 GPU 메모리 크기, DEVICEtoHOSTmemorybandwidth는 디바이스에서 호스트로의 메모리 전송 속도, HOSTDELAY는 호스트 지연시간체크포인트 인터벌 최적화 방법
|
4 |
4
제1항에 있어서,상기 리커버리 지연시간(R)은 하기 수학식 2에 의하여 계산되는,[수학식 2] 여기서, GPUmemorysize는 GPU 메모리 크기, HOSTtoDEVICEmemorybandwidth는 호스트에서 디바이스로의 메모리 전송 속도, HOSTRECOVERYDELAY는 호스트 리커버리 지연시간체크포인트 인터벌 최적화 방법
|
5 |
5
제2항에 있어서,상기 체크포인트 지연시간과 상기 리커버리 지연시간을 체크포인트 인터벌 최적화 함수에 반영한 체크포인트 인터벌 계산은,하기 수학식 3에 의해 인터벌 최적화 함수가 최대값을 가지는 시간을 체크포인트 인터벌로 하는,[수학식 3]여기서, E는 체크포인트 인터벌 최적화 함수, W는 잡의 크기, K는 W 크기의 잡이 분배되는 chunk의 수, C는 체크포인트 지연시간, R은 리커버리 지연시간, D는 Failure of duration체크포인트 인터벌 최적화 방법
|
6 |
6
GPU 메모리 크기와 디바이스와 호스트 간 메모리 전송 속도를 실시간으로 모니터링하는 모니터링부;상기 GPU 메모리 크기와 상기 디바이스와 호스트 간 메모리 전송 속도에 기초하여 체크포인트 지연시간과 리커버리 지연시간을 계산하는 제1 계산부; 및상기 체크포인트 지연시간과 상기 리커버리 지연시간에 기초하여 체크포인트 인터벌을 계산하는 제2 계산부를 포함하는체크포인트 인터벌 최적화 장치
|
7 |
7
제6항에 있어서,상기 제2 계산부는,상기 체크포인트 지연시간과 상기 리커버리 지연시간을 체크포인트 인터벌 최적화 함수에 반영하여 체크포인트 인터벌을 계산하는체크포인트 인터벌 최적화 장치
|
8 |
8
제6항에 있어서,상기 체크포인트 지연시간(C)은 하기 수학식 1에 의하여 계산되는,[수학식 1]여기서, GPUmemorysize는 GPU 메모리 크기, DEVICEtoHOSTmemorybandwidth는 호스트에서 디바이스로의 메모리 전송 속도, HOSTDELAY는 호스트 지연시간체크포인트 인터벌 최적화 장치
|
9 |
9
제6항에 있어서,상기 리커버리 지연시간(R)은 하기 수학식 2에 의하여 계산되는,[수학식 2] 여기서, GPUmemorysize는 GPU 메모리 크기, HOSTtoDEVICEmemorybandwidth는 호스트에서 디바이스로의 메모리 전송 속도, HOSTRECOVERYDELAY는 호스트 리커버리 지연시간체크포인트 인터벌 최적화 장치
|
10 |
10
제6항에 있어서,상기 체크포인트 지연시간과 상기 리커버리 지연시간을 체크포인트 인터벌 최적화 함수에 반영한 체크포인트 인터벌 계산은,하기 수학식 3에 의해 인터벌 최적화 함수가 최대값을 가지는 시간을 체크포인트 인터벌로 하는,[수학식 3]여기서, E는 체크포인트 인터벌 최적화 함수, W는 잡의 크기, K는 W 크기의 잡이 분배되는 chunk의 수, C는 체크포인트 지연시간, R은 리커버리 지연시간, D는 Failure of duration체크포인트 인터벌 최적화 장치
|