1 |
1
심층 네트워크를 이용한 악보인식 시스템에 있어서,악보 이미지를 포함하는 영상을 촬영하는 촬영부;상기 영상을 슬라이딩 레이어로 구성하여 전체 영상에 대한 특징 맵을 추출하는 특징맵 추출부;상기 특징 맵으로부터 악보 기호를 포함하는 후보 지역을 검출하는 후보지역 검출부;상기 후보지역으로부터 특징벡터를 추출하는 특징벡터 추출부; 및상기 후보지역에서의 특징벡터 검출을 초기화하고, 상기 후보지역 검출부를 통해 조정된 새로운 후보지역을 설정하도록 제어하며, 상기 특징벡터 추출부를 통해 새로운 후보지역으로부터 특징벡터를 추출하도록 제어하는 훈련 처리부를 포함하되,상기 특징벡터 추출부는,풀링 레이어(pooling layer)를 통해 후보 지역 내의 마지막 두 개의 출력 레이어로 분기하여 첫 번째 레이어에서는 상기 특징벡터로부터 음악 기호 클래스와 백그라운드 클래스를 softmax 확률 함수를 통해 인식하고, 두 번째 레이어에서는 상기 특징벡터로부터 음악 기호 각각의 위치를 계산하는 것을 특징으로 하는 심층 네트워크를 이용한 악보인식 시스템
|
2 |
2
제1항에 있어서,상기 후보지역 검출부는,256 차원의 특성 벡터로 매핑된 각 슬라이딩 윈도우를 박스 회귀 및 박스 분류를 위해 완전연결층(fully connected layers)의 합성곱 레이어(convolutinal layer) 및 풀링 레이어(pooling layer)로 인가하고, 설정된 축적(x1, x2, x3) 및 종횡비(1:1, 1:2, 1:3)를 포함하는 참조 세트를 구성하는 것을 특징으로 하는 심층 네트워크를 이용한 악보인식 시스템
|
3 |
3
삭제
|
4 |
4
심층 네트워크를 이용한 악보인식 방법에 있어서,(a) 촬영부가 촬영을 통해 악보 이미지를 포함하는 영상을 입력받는 단계;(b) 특징맵 추출부가 상기 영상에 대한 특징 맵을 추출하는 단계;(c) 후보지역 검출부가 상기 특징 맵으로부터 악보 기호를 포함하는 후보 지역을 검출하는 단계;(d) 특징벡터 추출부가 상기 후보지역으로부터 특징 벡터를 추출하는 단계;(e) 훈련 처리부가 상기 후보지역에서의 특징벡터 검출을 초기화하는 단계;(f) 훈련 처리부가 상기 후보지역 검출부를 통해 조정된 새로운 후보지역을 설정하도록 제어하는 단계; 및(g) 훈련 처리부가 상기 특징벡터 추출부를 통해 새로운 후보지역으로부터 특징벡터를 추출하도록 제어하는 단계를 포함하되,상기 (c) 단계는,(c-1) 후보지역 검출부가 256 차원의 특성벡터로 매핑된 각 슬라이딩 윈도우를 구성하는 단계;(c-2) 후보지역 검출부가 슬라이딩 윈도우를 완전연결층(fully connected layers)의 합성곱 레이어(convolutinal layer) 및 풀링 레이어(pooling layer)로 인가하는 단계;(c-3) 후보지역 검출부가 기 설정된 축적(x1, x2, x3) 및 종횡비(1:1, 1:2, 1:3)를 포함하는 참조 세트를 구성하는 단계; 및(c-4) 후보지역 검출부가 각 슬라이딩 윈도우 위치에서 동시에 다수의 후보 지역을 검출하는 단계를 포함하고,상기 (d) 단계는,(d-1) 특징벡터 추출부가 풀링 레이어(pooling layer)를 통해 후보 지역 내의 마지막 두 개의 출력 레이어로 분기하는 단계;(d-2) 특징벡터 추출부가 첫 번째 레이어에서 상기 특징벡터로부터 음악 기호 클래스와 백그라운드 클래스를 softmax 확률 함수를 통해 인식하는 단계; 및(d-3) 특징벡터 추출부가 두 번째 레이어에서 상기 특징벡터로부터 음악 기호 각각의 위치를 계산하는 단계를포함하는 것을 특징으로 하는 심층 네트워크를 이용한 악보인식 시스템
|
5 |
5
삭제
|
6 |
6
삭제
|