1 |
1
이미지를 입력받는 이미지 입력 모듈;입력된 이미지를 사전 설정된 크기로 분할하여 패치들을 생성하고, 상기 패치들을 사전 설정된 크기로 묶어 윈도우들을 생성하는 패치 생성 모듈;각 패치들을 임베딩하여 벡터로 변환하는 패치 임베딩 모듈;윈도우의 위치를 변환시키는 이동 윈도우 멀티헤드 셀프 어텐션(SW-MSA) 모듈;로컬 어텐션 알고리즘을 사용하여 어텐션 맵의 크기를 윈도우의 크기에 비례하도록 해주는 윈도우 멀티헤드 셀프 어텐션(W-MAS) 모듈;인접한 패치들을 하나의 패치로 합쳐주는 패치 머징 모듈;을 구비하고, 상기 SW-MSA 모듈 및 W-MAS 모듈은 쌍으로 이루어져 각 단계별로 반복적으로 실행되고, 마지막 단계에는 하나의 윈도우가 전체 이미지를 감싸는 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조
|
2 |
2
제1항에 있어서, 상기 SW-MSA 모듈은 윈도우에서 윈도우 토큰을 제외한 패치들을 사용하여 셀프 어텐션 알고리즘을 수행하여 윈도우 간의 정보를 공유하도록 구성된 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조
|
3 |
3
제1항에 있어서, 상기 W-MAS 모듈은,윈도우 토큰을 패치들과 같이 사용하여 셀프 어텐션 알고리즘을 수행하여 윈도우 토큰에 윈도우의 정보를 집어넣도록 구성된 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조
|
4 |
4
제1항에 있어서, 상기 패치 머징 모듈은, SW-MSA 모듈과 W-MSA 모듈의 쌍이 실행된 후 다음 단계로 넘어갈 때 인접한 4개의 패치를 하나로 만드는 패치 임베딩을 하고, 근접한 윈도우 토큰 4개를 하나로 만드는 토큰 임베딩을 하는 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조
|
5 |
5
제1항에 있어서, 상기 패치 생성 모듈은, 각 윈도우에 대해 회전률 토큰과 Contrastive Loss 토큰을 부여하는 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조
|
6 |
6
(a) 입력된 이미지를 2개의 이미지로 증가시키는 학습 이미지 증가 단계;(b) 2개의 증가 이미지를 자기지도 스윈 트랜스포머 모델에 입력하는 단계;(c) 상기 자기지도 스윈 트랜스포머 모델에서 출력으로 토큰값들을 사용하여 이미지 회전률과 Contrastive Loss를 구하는 단계; 및(d) 패치값들을 이용하여 본래의 패치로 복원하는 단계;를 구비하고, 상기 자기지도 스윈 트랜스포머 모델은, 이미지를 입력받는 이미지 입력 모듈;입력된 이미지를 사전 설정된 크기로 분할하여 패치들을 생성하고, 상기 패치들을 사전 설정된 크기로 묶어 윈도우들을 생성하며, 각 윈도우에 회전률 토큰과 CL 토큰을 부여하는 패치 생성 모듈;각 패치들을 임베딩하여 벡터로 변환하는 패치 임베딩 모듈;윈도우의 위치를 변환시키는 이동 윈도우 멀티헤드 셀프 어텐션(SW-MSA) 모듈;로컬 어텐션 알고리즘을 사용하여 어텐션 맵의 크기를 윈도우의 크기에 비례하도록 해주는 윈도우 멀티헤드 셀프 어텐션(W-MAS) 모듈;인접한 패치들을 하나의 패치로 합쳐주는 패치 머징 모듈;을 구비하고, 상기 SW-MSA 모듈 및 W-MAS 모듈은 쌍으로 이루어져 각 단계별로 반복적으로 실행되고, 마지막 단계에는 하나의 윈도우가 전체 이미지를 감싸는 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조의 학습 방법
|
7 |
7
제6항에 있어서, 상기 (a) 단계는, 입력된 이미지에 대하여 사전 설정된 이미지 증가 기법을 사용하여 2개의 이미지로 증가시키고, 증가된 2개의 이미지를 랜덤하게 회전시킨 후, 임의로 망가뜨리는 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조의 학습 방법
|
8 |
8
제6항에 있어서, 상기 SW-MSA 모듈은 윈도우에서 윈도우 토큰을 제외한 패치들을 사용하여 셀프 어텐션 알고리즘을 수행하여 윈도우 간의 정보를 공유하도록 구성된 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조의 학습 방법
|
9 |
9
제6항에 있어서, 상기 W-MAS 모듈은,윈도우 토큰을 패치들과 같이 사용하여 셀프 어텐션 알고리즘을 수행하여 윈도우 토큰에 윈도우의 정보를 집어넣도록 구성된 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조의 학습 방법
|
10 |
10
제6항에 있어서, 상기 패치 머징 모듈은, SW-MSA 모듈과 W-MSA 모듈의 쌍이 실행된 후 다음 단계로 넘어갈 때 인접한 4개의 패치를 하나로 만드는 패치 임베딩을 하고, 근접한 윈도우 토큰 4개를 하나로 만드는 토큰 임베딩을 하는 것을 특징으로 하는 자기지도 스윈 트랜스포머 모델 구조의 학습 방법
|