1 |
1
신경망 프루닝 장치에 의해 수행되는 그래픽 처리 장치의 구조를 고려한 신경망 프루닝 방법에 있어서,복수의 연산 유닛(Compute Unit)을 포함하는 그래픽 처리 장치(Graphic Processing Unit, GPU)를 통해 동작하는 신경망의 가중치 커널을 GEMM 변환하는 단계; 및상기 복수의 연산 유닛을 통해 병렬적으로 수행되는 행렬 곱셈 연산의 분할 단위인 블록을 단위로 하여 상기 GEMM 변환된 가중치 커널을 프루닝하는 단계,를 포함하고,상기 그래픽 처리 장치는,글로벌 메모리 및 상기 복수의 연산 유닛 각각에 대하여 구비되는 복수의 로컬 메모리를 포함하고,상기 블록은,상기 행렬 곱셈 연산을 수행하기 위하여 상기 글로벌 메모리로부터 상기 로컬 메모리로 복사되는 상기 GEMM 변환된 가중치 커널의 구획된 일부분에 대응하는 것인, 신경망 프루닝 방법
|
2 |
2
삭제
|
3 |
3
제1항에 있어서,상기 복수의 연산 유닛 각각은 미리 설정된 복수 개의 상기 블록에 대한 상기 행렬 곱셈 연산을 수행하되,상기 프루닝하는 단계는,상기 복수의 연산 유닛 각각과 연계된 복수 개의 상기 블록 중 미리 설정된 비율의 블록을 제거하는 것인, 신경망 프루닝 방법
|
4 |
4
제1항에 있어서,상기 프루닝하는 단계에 의해 제거된 블록은 상기 신경망의 추론 과정에서 상기 글로벌 메모리로부터 상기 로컬 메모리로 미복사되는 것을 특징으로 하는, 신경망 프루닝 방법
|
5 |
5
제3항에 있어서,상기 프루닝하는 단계는,상기 블록 각각에 대한 가중치 중요도를 연산하는 단계; 및상기 연산된 가중치 중요도에 기초하여 상기 미리 설정된 비율로 제거할 블록을 결정하는 단계,를 포함하는 것인, 신경망 프루닝 방법
|
6 |
6
신경망 프루닝 장치에 의해 수행되는 그래픽 처리 장치의 구조를 고려한 신경망 프루닝 방법에 있어서,각각이 복수의 연산 처리 소자(Processing Element, PE)를 포함하는 복수의 연산 유닛(Compute Unit)을 포함하는 그래픽 처리 장치(Graphic Processing Unit, GPU)를 통해 동작하는 신경망의 가중치 커널을 GEMM 변환하는 단계; 및상기 복수의 연산 처리 소자를 통해 병렬적으로 수행되는 행렬 곱셈 연산의 분할 단위인 미세 블록을 단위로 하여 상기 GEMM 변환된 가중치 커널을 프루닝하는 단계,를 포함하고,상기 그래픽 처리 장치는,글로벌 메모리, 상기 복수의 연산 유닛 각각에 대하여 구비되는 복수의 로컬 메모리 및 상기 복수의 연산 처리 소자 각각에 대하여 구비되는 복수의 프라이빗 메모리를 포함하고,상기 미세 블록은,상기 행렬 곱셈 연산을 수행하기 위하여 상기 글로벌 메모리로부터 상기 로컬 메모리로 복사되는 상기 GEMM 변환된 가중치 커널의 구획된 일부분인 블록에 포함된 가중치 행(row)에 대응하는 것인, 신경망 프루닝 방법
|
7 |
7
삭제
|
8 |
8
제6항에 있어서,상기 프루닝하는 단계는,상기 복수의 연산 처리 소자 각각과 연계된 복수 개의 상기 미세 블록 중 미리 설정된 비율의 미세 블록을 제거하는 것인, 신경망 프루닝 방법
|
9 |
9
제8항에 있어서,상기 프루닝하는 단계에 의해,상기 복수의 연산 처리 소자 각각의 연산 부하가 동등하게 결정되는 것을 특징으로 하는, 신경망 프루닝 방법
|
10 |
10
제8항에 있어서,상기 프루닝하는 단계는,상기 미세 블록 각각에 대한 가중치 중요도를 연산하는 단계; 및상기 연산된 가중치 중요도에 기초하여 상기 미리 설정된 비율로 제거할 미세 블록을 결정하는 단계,를 포함하는 것인, 신경망 프루닝 방법
|
11 |
11
그래픽 처리 장치의 구조를 고려한 신경망 프루닝 장치에 있어서,복수의 연산 유닛(Compute Unit)을 포함하는 그래픽 처리 장치(Graphic Processing Unit, GPU)를 통해 동작하는 신경망의 가중치 커널을 GEMM 변환하는 가중치 변환부; 및상기 복수의 연산 유닛을 통해 병렬적으로 수행되는 행렬 곱셈 연산의 분할 단위인 블록을 단위로 하여 상기 GEMM 변환된 가중치 커널을 프루닝하는 프루닝부,를 포함하고,상기 그래픽 처리 장치는,글로벌 메모리 및 상기 복수의 연산 유닛 각각에 대하여 구비되는 복수의 로컬 메모리를 포함하고,상기 블록은,상기 행렬 곱셈 연산을 수행하기 위하여 상기 글로벌 메모리로부터 상기 로컬 메모리로 복사되는 상기 GEMM 변환된 가중치 커널의 구획된 일부분에 대응하는 것인, 신경망 프루닝 장치
|
12 |
12
삭제
|
13 |
13
제11항에 있어서,상기 프루닝부는,상기 블록 각각에 대한 가중치 중요도를 연산하고, 상기 연산된 가중치 중요도에 기초하여 미리 설정된 비율로 제거할 블록을 결정하는 것인, 신경망 프루닝 장치
|
14 |
14
그래픽 처리 장치의 구조를 고려한 신경망 프루닝 장치에 있어서,각각이 복수의 연산 처리 소자(Processing Element, PE)를 포함하는 복수의 연산 유닛(Compute Unit)을 포함하는 그래픽 처리 장치(Graphic Processing Unit, GPU)를 통해 동작하는 신경망의 가중치 커널을 GEMM 변환하는 가중치 변환부; 및상기 복수의 연산 처리 소자를 통해 병렬적으로 수행되는 행렬 곱셈 연산의 분할 단위인 미세 블록을 단위로 하여 상기 GEMM 변환된 가중치 커널을 프루닝하는 프루닝부,를 포함하고,상기 그래픽 처리 장치는,글로벌 메모리, 상기 복수의 연산 유닛 각각에 대하여 구비되는 복수의 로컬 메모리 및 상기 복수의 연산 처리 소자 각각에 대하여 구비되는 복수의 프라이빗 메모리를 포함하고,상기 미세 블록은,상기 행렬 곱셈 연산을 수행하기 위하여 상기 글로벌 메모리로부터 상기 로컬 메모리로 복사되는 상기 GEMM 변환된 가중치 커널의 구획된 일부분인 블록에 포함된 가중치 행(row)에 대응하는 것인, 신경망 프루닝 장치
|
15 |
15
삭제
|
16 |
16
제14항에 있어서,상기 프루닝부는,상기 복수의 연산 처리 소자 각각과 연계된 복수 개의 상기 미세 블록 중 미리 설정된 비율의 미세 블록을 제거하여 상기 복수의 연산 처리 소자 각각의 연산 부하를 동등하게 결정하는 것인, 신경망 프루닝 장치
|
17 |
17
제16항에 있어서,상기 프루닝부는,상기 미세 블록 각각에 대한 가중치 중요도를 연산하고, 상기 연산된 가중치 중요도에 기초하여 상기 미리 설정된 비율로 제거할 미세 블록을 결정하는 것인, 신경망 프루닝 장치
|