1 |
1
뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기(ViT-NeT)로서,입력 이미지에서 주의 맵(attention map) 특징을 추출하는 계층적 변환기 인코더(hierarchical transformer encoder)(100); 및리프 노드를 포함하는 복수의 노드 및 상위 노드와 자식 노드 사이의 에지를 포함하여 구성되고, 완전 이진 트리 구조를 가지는 뉴럴 트리 디코더(neural tree decoder)(200)를 포함하며,상기 뉴럴 트리 디코더(200)는,상기 계층적 변환기 인코더(100)에서 추출한 상기 주의 맵 특징을 입력으로 하여 최종 클래스 레이블을 예측하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기
|
2 |
2
제1항에 있어서, 상기 계층적 변환기 인코더(100)는,시프트 윈도우(shifted window)를 사용해 윈도우 크기를 변경하여, 입력 이미지 내의 크기가 서로 다른 객체를 검출할 수 있는 주의 맵 특징을 추출하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기
|
3 |
3
제2항에 있어서, 상기 계층적 변환기 인코더(100)는,스윈 변환기(swin transformer)를 백본 모델로 사용해 세밀한 분류와 이미지의 시각적 설명을 위한 상기 주의 맵 지도를 추출하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기
|
4 |
4
제1항에 있어서, 상기 뉴럴 트리 디코더(200)는,프로토타입을 사용해 이미지 패치 중 차별적(discriminative) 특징을 찾아 경로설정 방향을 결정하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기
|
5 |
5
제4항에 있어서, 상기 뉴럴 트리 디코더(200)는,각 노드에서 프로토타입과 이미지 패치 사이의 유사도(similarity)를 나타내는 라우팅 점수를 계산하고, 상기 라우팅 점수에 따라 경로설정 방향을 결정하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기
|
6 |
6
제1항에 있어서, 상기 뉴럴 트리 디코더(200)의 에지는,맥락 변환기 모듈을 이용해 각 위치의 이미지 패치에 전역 맥락(global context)을 집약하여 전역 특징이 강화된 이미지 패치를 자식 노드에 공급하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기
|
7 |
7
제5항에 있어서, 상기 뉴럴 트리 디코더(200)의 리프 노드는,클래스 확률을 예측하는 리프 예측 모듈에 의한 모든 리프 예측과 루트 노드에서 리프 노드까지의 경로별 에지 세트에 대한 누적 라우팅 점수를 이용해 최종 예측을 출력하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기
|
8 |
8
제1항에 있어서, 상기 뉴럴 트리 디코더(200)는,데이터셋의 복잡성에 따라 트리 깊이가 결정되는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기
|
9 |
9
컴퓨터로 구현되는 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기(ViT-NeT)에 의해 수행되는 분류 방법으로서,(1) 입력 이미지에서 주의 맵(attention map) 특징을 추출하는 계층적 변환기 인코더(hierarchical transformer encoder)(100); 및 리프 노드를 포함하는 복수의 노드 및 상위 노드와 자식 노드 사이의 에지를 포함하여 구성되고, 완전 이진 트리 구조를 가지는 뉴럴 트리 디코더(neural tree decoder)(200)를 포함하여 구성되는 ViT-NeT를 학습해 분류 모델을 생성하는 단계; 및(2) 상기 분류 모델에 입력 이미지를 입력해 최종 클래스 레이블을 예측하는 단계를 포함하며,상기 뉴럴 트리 디코더(200)는,상기 계층적 변환기 인코더(100)에서 추출한 상기 주의 맵 특징을 입력으로 하여 최종 클래스 레이블을 예측하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기에 의한 분류 방법
|
10 |
10
제9항에 있어서, 상기 계층적 변환기 인코더(100)는,시프트 윈도우(shifted window)를 사용해 윈도우 크기를 변경하여, 입력 이미지 내의 크기가 서로 다른 객체를 검출할 수 있는 주의 맵 특징을 추출하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기에 의한 분류 방법
|
11 |
11
제10항에 있어서, 상기 계층적 변환기 인코더(100)는,스윈 변환기(swin transformer)를 백본 모델로 사용해 세밀한 분류와 이미지의 시각적 설명을 위한 상기 주의 맵 지도를 추출하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기에 의한 분류 방법
|
12 |
12
제9항에 있어서, 상기 뉴럴 트리 디코더(200)는,프로토타입을 사용해 이미지 패치 중 차별적(discriminative) 특징을 찾아 경로설정 방향을 결정하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기에 의한 분류 방법
|
13 |
13
제12항에 있어서, 상기 뉴럴 트리 디코더(200)는,각 노드에서 프로토타입과 이미지 패치 사이의 유사도(similarity)를 나타내는 라우팅 점수를 계산하고, 상기 라우팅 점수에 따라 경로설정 방향을 결정하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기에 의한 분류 방법
|
14 |
14
제9항에 있어서, 상기 뉴럴 트리 디코더(200)의 에지는,맥락 변환기 모듈을 이용해 각 위치의 이미지 패치에 전역 맥락(global context)을 집약하여 전역 특징이 강화된 이미지 패치를 자식 노드에 공급하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기에 의한 분류 방법
|
15 |
15
제13항에 있어서, 상기 뉴럴 트리 디코더(200)의 리프 노드는,클래스 확률을 예측하는 리프 예측 모듈에 의한 모든 리프 예측과 루트 노드에서 리프 노드까지의 경로별 에지 세트에 대한 누적 라우팅 점수를 이용해 최종 예측을 출력하는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기에 의한 분류 방법
|
16 |
16
제9항에 있어서, 상기 뉴럴 트리 디코더(200)는,데이터셋의 복잡성에 따라 트리 깊이가 결정되는 것을 특징으로 하는, 뉴럴 트리 디코더(200)를 이용한 해석 가능한 비전 변환기에 의한 분류 방법
|