1 |
1
복수의 PE(Processing Engine)에서 상기 PE마다 전용된 인풋 채널을 이용하여 입력특징맵의 채널 별로 컨볼루션(convolution) 연산을 수행하는 제1 단계; 및상기 제1 단계에서 획득된 프로세싱된 입력에 대해 상기 PE에 전용된 인풋 채널을 이용하여 PE 별로 독립적으로 연산을 수행하며, 레이어 출력(layer output)을 획득하도록 PE를 연결하는 에더 트리(adder tree)를 이용하여 복수의 PE 연산 결과를 합산하는 컨볼루션 연산을 수행하는 제2 단계; 를 포함하는,채널 정상 데이터 플로우 설계 방법
|
2 |
2
제1 항에 있어서,상기 제2 단계에서 획득된 상기 레이어 출력은 상기 레이어 출력의 아웃풋 채널이 할당된 PE로 라이트 백(Write back)되는 제3 단계;를 더 포함하는,채널 정상 데이터 플로우 설계 방법
|
3 |
3
제1 항에 있어서,상기 컨볼루션 연산은, 상기 입력특징맵의 채널 별로 컨볼루션 연산을 수행하는 깊이별 컨볼루션(depthwise convolution) 및 상기 입력특징맵의 위치 별로 컨볼루션 연산을 수행하는 위치별 컨볼루션(pointwise convolution)을 분리하여 연산하며, 상기 제1 단계에서 깊이별 컨볼루션을 연산하고, 제2 단계에서 위치별 컨볼루션을 연산하는,채널 정상 데이터 플로우 설계 방법
|
4 |
4
제3 항에 있어서,상기 제2 단계에서 풀리 커넥티드 레이어(Fully connected layer) 또는 스탠다드 컨볼루션(standard convolution) 연산을 수행하는,채널 정상 데이터 플로우 설계 방법
|
5 |
5
제1항에 있어서,상기 인풋 채널은, PE에 배치된 SRAM 버퍼에 저장되며, 인풋 액티베이션(Input Activaion) 및 가중치(Weight)를 포함하는,채널 정상 데이터 플로우 설계 방법
|
6 |
6
입력특징맵의 채널 별로 레이어 출력(layer output)을 출력하도록 채널 별로 컨볼루션 연산을 수행하는 복수의 PE; 및상기 PE마다 분산 배치되어 대응되는 PE와 독립적으로 통신하며, 상기 대응되는 PE에 전용될 인풋 채널을 저장하는 복수의 전속 SRAM 버퍼;가 배치된 칩을 포함하는,분산 SRAM 아키텍쳐를 가지는 모바일넷 하드웨어 가속기
|
7 |
7
제6 항에 있어서,상기 전속 SRAM 버퍼는, DRAM과의 통신 없이 모바일넷 연산을 수행하기위한 기설정된 임계값 이상의 용량을 가지는,분산 SRAM 아키텍쳐를 가지는 모바일넷 하드웨어 가속기
|
8 |
8
제7 항에 있어서,상기 전속 SRAM 버퍼는, 칩 외부의 DRAM 과 통신하며,현재 연산을 수행하는 레이어에 해당하는 데이터들이 상기 SRAM 버퍼 내에 저장되어 있지 않으면, 상기 DRAM으로부터 상기 데이터들을 전달받는,분산 SRAM 아키텍쳐를 가지는 모바일넷 하드웨어 가속기
|
9 |
9
입력특징맵의 채널 별로 레이어 출력(layer output)을 출력하도록 채널 별로 컨볼루션 연산을 수행하는 복수의 PE; 및 상기 PE마다 분산 배치되어 대응되는 PE와 독립적으로 통신하며, 상기 대응되는 PE에 전용될 인풋 채널을 저장하는 복수의 전속 SRAM 버퍼;를 포함하는 칩이 탑재된 분산 SRAM 아키텍쳐를 가지는 모바일넷 하드웨어 가속기에서,제1 항 내지 제5 항 중 어느 한 항에 따른 채널 정상 데이터 플로우 설계 방법을 실행시키는 프로세서를 포함하는 모바일넷 하드웨어 가속기
|
10 |
10
컴퓨터에 제1 항 내지 제5 항 중 어느 한 항에 따른 채널 정상 데이터 플로우 설계 방법을 실행시키는 컴퓨터 프로그램을 저장하는, 컴퓨터 판독 가능한 저장 매체
|