1 |
1
다수의 PE(Processing Element)가 연결된 PE 어레이를 포함하는 시스톨릭 어레이(systolic array) 구조로서,상기 각 PE는 비트 단위로 곱셈 및 누적 덧셈 연산을 수행하는 다수의 PPE를 포함하는 비트-병렬 구조가 적용되어, 벡터 단위의 누적을 통해 가변 정밀도 연산을 수행하는 구조
|
2 |
2
제1항에 있어서,상기 각 PE의 연산 결과들을 벡터 단위로 누적하고, 상기 PE들의 열(Column)에 해당하는 각 PC의 연산이 완료된 이후에 쉬프트(Shift)를 통한 조합이 수행되는 구조
|
3 |
3
제1항에 있어서,하나의 PE 내에서 상기 각 PPE는,2비트 단위에 대한 곱셈 연산을 수행하는 곱셈기; 및 비트 단위에 대한 누적 덧셈 연산을 수행하는 누산기;를 포함하는 구조
|
4 |
4
제3항에 있어서,M비트(단, M은 2의 N 제곱수이며, N은 자연수) 단위에 대한 곱셈 연산이 2비트 단위의 곱셈 연산으로 치환되며,하나의 PE 내에서 상기 각 PPE는 M2/4개의 PPE를 포함하는 구조
|
5 |
5
제4항에 있어서,상기 PE들의 열에 해당하는 각 PC는 해당 PC 내에 포함된 각 PE에서 전달되는 부분합(partial sum, PS)을 누적하는 누적부를 더 포함하며,상기 각 PC에서, 해당 PC 내의 각 PE에서 도출 곱셈 결과들이 각 PE 내에서 누적되지 않고 상기 PS로 전달되어 상기 누적부에서 한꺼번에 누적되는 구조
|
6 |
6
제5항에 있어서,상기 SA는 M2/4개의 M비트 PS들을 각 자릿수에 맞게 시프트(shift)한 후에 더하는 구조
|
7 |
7
제1항에 있어서,상기 각 PE에 입력되는 제1 및 제2 입력에 대해, 상기 제1 입력이 Pre-load되어 세팅되고, 상기 제2 입력은 시스톨릭하게 입력되는 구조
|
8 |
8
제7항에 있어서,상기 가변 정밀도 연산은 딥러닝 관련 연산인 구조
|
9 |
9
제8항에 있어서,상기 제1 입력은 가중치(weight)이고, 상기 제2 입력은 입력층의 노드로부터 출력된 것이거나, 어느 한 은닉층의 노드에서 계산되어 다음 은닉층의 노드 또는 출력층의 노드에 입력되는 activation인 구조
|
10 |
10
메모리; 및상기 메모리에 저장된 정보를 이용하는 프로세서;를 포함하고,상기 프로세서는 다수의 PE(Processing Element)가 연결된 PE 어레이를 구비한 시스톨릭 어레이(systolic array) 구조를 포함하며,상기 각 PE는 비트 단위로 곱셈 및 누적 덧셈 연산을 수행하는 다수의 PPE를 포함하는 비트-병렬 구조가 적용되어, 벡터 단위의 누적을 통해 가변 정밀도 연산을 수행하는 장치
|
11 |
11
제10항에 있어서,상기 시스톨릭 어레이 구조는 상기 각 PE의 연산 결과들을 벡터 단위로 누적하고, 상기 PE들의 열(Column)에 해당하는 각 PC의 연산이 완료된 이후에 쉬프트(Shift)를 통한 조합을 수행하는 장치
|
12 |
12
제10항에 있어서,하나의 PE 내에서 상기 각 PPE는,2비트 단위에 대한 곱셈 연산을 수행하는 곱셈기; 및 비트 단위에 대한 누적 덧셈 연산을 수행하는 누산기;를 포함하는 장치
|
13 |
13
제12항에 있어서,M비트(단, M은 2의 N 제곱수이며, N은 자연수) 단위에 대한 곱셈 연산이 2비트 단위의 곱셈 연산으로 치환되며,하나의 PE 내에서 상기 각 PPE는 M2/4개의 PPE를 포함하는 장치
|
14 |
14
제13항에 있어서,상기 PE들의 열에 해당하는 각 PC는 해당 PC 내에 포함된 각 PE에서 전달되는 부분합(partial sum, PS)을 누적하는 누적부를 더 포함하며,상기 각 PC에서, 해당 PC 내의 각 PE에서 도출 곱셈 결과들이 각 PE 내에서 누적되지 않고 상기 PS로 전달되어 상기 누적부에서 한꺼번에 누적되는 장치
|
15 |
15
제14항에 있어서,상기 SA는 M2/4개의 M비트 PS들을 각 자릿수에 맞게 시프트(shift)한 후에 더하는 장치
|
16 |
16
제10항에 있어서,상기 각 PE에 입력되는 제1 및 제2 입력에 대해, 상기 제1 입력이 Pre-load되어 세팅되고, 상기 제2 입력은 시스톨릭하게 입력되는 장치
|
17 |
17
제16항에 있어서,상기 가변 정밀도 연산은 딥러닝 관련 연산인 장치
|
18 |
18
제17항에 있어서,상기 제1 입력은 가중치(weight)이고, 상기 제2 입력은 입력층의 노드로부터 출력된 것이거나, 어느 한 은닉층의 노드에서 계산되어 다음 은닉층의 노드 또는 출력층의 노드에 입력되는 activation인 장치
|