1 |
1
데이터를 저장하는 메모리;상기 메모리를 제어하는 프로세서;를 포함하되, 상기 프로세서는, 입력 영상에 대해 다중 패치를 임베딩(embedding)하고, 상기 임베딩된 다중 패치에 대한 특징맵을 추출하고,상기 추출된 특징맵을 이용하여 신경망 기반의 트랜스포머 인코딩을 수행하고,상기 트랜스포머 인코딩을 통해 추출된 최종 특징맵을 통해 상기 입력 영상의 특징을 추출하되,상기 패치는 서로 다른 크기를 갖는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
2 |
2
제1 항에 있어서,상기 패치는 상기 서로 다른 크기로 병렬적으로 임베딩되는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
3 |
3
제1 항에 있어서,상기 트랜스포머 인코딩은 상기 특징맵에 대해 병렬적으로 수행되는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
4 |
4
제1 항에 있어서,상기 패치는 서로 영역이 겹치도록 임베딩되는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
5 |
5
제1 항에 있어서,상기 트랜스포머 인코딩은 상기 다중 패치 간의 상관관계를 구함으로써 수행되는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
6 |
6
제5 항에 있어서,상기 상관관계는 상기 다중 패치 간에 유사 영역 혹은 유사 카테고리를 포함하는지에 따라 정해지는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
7 |
7
제6 항에 있어서,상기 상관관계는 상기 최종 특징맵을 추출하기 위해 상기 특징맵의 어텐션 맵(attention map)을 구하는데 이용되는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
8 |
8
제7 항에 있어서,상기 상관관계는 키(key), 쿼리(query), 밸류(value)에 대한 임베딩을 통해 계산되는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
9 |
9
제8 항에 있어서,상기 특징맵은 상기 밸류를 상기 어텐션 맵에 곱함으로써 추출되는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
10 |
10
제9 항에 있어서, 상기 최종 특징맵은 상기 특징맵에 대한 부가 연산(concatenation) 및 컨볼루션(convolution) 연산을 통해 상기 특징맵 간의 상호 작용을 학습한 레이어를 기반으로 추출되는, 비전 트랜스포머 기반 영상 특징 추출 장치
|
11 |
11
입력 영상에 대해 다중 패치를 임베딩(embedding)하는 단계; 상기 임베딩된 다중 패치에 대한 특징맵을 추출하는 단계; 상기 추출된 특징맵을 이용하여 신경망 기반의 트랜스포머 인코딩을 수행하는 단계; 상기 트랜스포머 인코딩을 통해 추출된 최종 특징맵을 통해 상기 입력 영상의 특징을 추출하는 단계;를 포함하되,상기 패치는 서로 다른 크기를 갖는, 비전 트랜스포머 기반 영상 특징 추출 방법
|
12 |
12
제11 항에 있어서,상기 패치는 상기 서로 다른 크기로 병렬적으로 임베딩되는, 비전 트랜스포머 기반 영상 특징 추출 방법
|
13 |
13
제11 항에 있어서,상기 트랜스포머 인코딩은 상기 특징맵에 대해 병렬적으로 수행되는, 비전 트랜스포머 기반 영상 특징 추출 방법
|
14 |
14
제11 항에 있어서,상기 패치는 서로 영역이 겹치도록 임베딩되는, 비전 트랜스포머 기반 영상 특징 추출 방법
|
15 |
15
제11 항에 있어서,상기 트랜스포머 인코딩은 상기 다중 패치 간의 상관관계를 구함으로써 수행되는, 비전 트랜스포머 기반 영상 특징 추출 방법
|
16 |
16
제15 항에 있어서,상기 상관관계는 상기 다중 패치 간에 유사 영역 혹은 유사 카테고리를 포함하는지에 따라 정해지는, 비전 트랜스포머 기반 영상 특징 추출 방법
|
17 |
17
제16 항에 있어서,상기 상관관계는 상기 최종 특징맵을 추출하기 위해 상기 특징맵의 어텐션 맵(attention map)을 구하는데 이용되는, 비전 트랜스포머 기반 영상 특징 추출 방법
|
18 |
18
제17 항에 있어서,상기 상관관계는 키(key), 쿼리(query), 밸류(value)에 대한 임베딩을 통해 계산되는, 비전 트랜스포머 기반 영상 특징 추출 방법
|
19 |
19
제18 항에 있어서,상기 특징맵은 상기 밸류를 상기 어텐션 맵에 곱함으로써 추출되는, 비전 트랜스포머 기반 영상 특징 추출 방법
|
20 |
20
비전 트랜스포머 기반 영상 특징 추출을 위한 트랜스포머 인코딩 방법에 있어서,다중 패치로 임베딩된 특징맵을 기반으로 정규화(normalize)를 수행하는 단계;상기 다중 패치 간 상관관계를 계산하여 셀프 어텐션(self-attention) 연산을 수행하는 단계;상기 셀프 어텐션 연산에 의해 생성된 어텐션맵을 이용하여, 상기 상관관계를 기반으로 최종 특징맵을 생성하는 단계;를 포함하되, 상기 패치는 서로 다른 크기를 갖고, 상기 상관관계는 키(key), 쿼리(query), 밸류(value) 임베딩을 기반으로 도출되는, 트랜스포머 인코딩 방법
|