1 |
1
오디오 신호를 수신하는 단계;상기 오디오 신호에서 오디오 신호의 원본 특징들을 추출하는 단계;상기 원본 특징들을 기초로 차분 특징을 추출하는 단계;상기 원본 특징들 및 상기 차분 특징을 기초로 입력 특징맵을 구성하는 단계; 및상기 입력 특징맵을 소리 이벤트 검출 모델에 입력하여 검출 결과를 출력하는 단계를 포함하는 소리 이벤트 검출 방법
|
2 |
2
제1항에 있어서,상기 원본 특징들을 추출하는 단계는,상기 오디오 신호를 샘플링하여 STFT(Short-Time Fourier Transform)를 계산하는 단계;상기 오디오 신호의 STFT값으로부터 멜-필터뱅크 값을 결정하는 단계; 및상기 멜-필터뱅크 값을 로그 변환한 로그-멜-필터뱅크 값을 상기 원본 특징들로 추출하는 단계를 포함하는 소리 이벤트 검출 방법
|
3 |
3
제1항에 있어서,상기 차분 특징을 추출하는 단계는,상기 오디오 신호의 프레임들 각각에서 추출한 원본 특징들 간의 차이를 나타내는 1차 차분 특징들을 생성하는 단계; 및상기 1차 차분 특징들 간의 차이를 나타내는 2차 차분 특징들을 생성하는 단계를 포함하는 소리 이벤트 검출 방법
|
4 |
4
제1항에 있어서,상기 소리 이벤트 검출 모델은,학습 데이터의 원본 특징들, 1차 차분 특징들 및 2차 차분 특징들로 구성된 입력 특징맵을 이용하여 학습된 모델인 소리 이벤트 검출 방법
|
5 |
5
제1항에 있어서,상기 소리 이벤트 검출 모델은,복수의 CNN 블록을 이용하여 상기 입력 특징맵에 대한 차원 축소를 수행한 후, 트랜스포머 인코더를 적용하는 베이스라인 트랜스포머;컨볼루션 블록과 결합된 트랜스포머 인코더들을 이용하여 학습 데이터의 멀티 스케일 특징을 추출하는 멀티-스케일 추출 모듈; 및상기 멀티-스케일 추출 모듈의 출력에 포함된 상기 오디오 신호의 프레임 레벨 데이터로부터 프레임 레벨 예측을 수행하여 상기 오디오 신호의 오디오 클래스를 분류하는 분류 레이어를 포함하는 소리 이벤트 검출 방법
|
6 |
6
학습 데이터를 수신하는 단계;상기 학습 데이터에서 상기 학습 데이터의 원본 특징들을 추출하는 단계;상기 원본 특징들을 기초로 차분 특징을 추출하는 단계;상기 원본 특징들 및 상기 차분 특징을 기초로 입력 특징맵을 구성하는 단계; 및상기 입력 특징맵을 이용하여 소리 이벤트 검출 모델을 학습하는 단계를 포함하는 소리 이벤트 검출 모델 학습 방법
|
7 |
7
제6항에 있어서,상기 학습 데이터는,약전사(Weak label) 레이블, 강전사(Strong label) 레이블, 및 비전사(Un-label) 레이블을 포함하는 소리 이벤트 검출 모델 학습 방법
|
8 |
8
제7항에 있어서,상기 소리 이벤트 검출 모델은,상기 입력 특징맵의 주파수 영역의 정보를 감소시키는 복수의 컨볼루션 블록들;쌍방향 GRU(Gated Recurrent Unit);상기 학습 데이터의 오디오 클래스를 분류하는 분류 레이어(Classification layer); 및 상기 분류 레이어의 출력을 클립(Clip) 전체 구간에 대하여 평균하여 출력하는 글로벌 평균 풀링 레이어(global average pooling layer)를 포함하고,상기 학습 데이터가 강전사 레이블인 경우, 상기 분류 레이어의 출력을 소리 이벤트 검출 결과로 출력하며, 상기 학습 데이터가 약전사 레이블인 경우, 상기 분류 레이어의 출력을 입력받은 글로벌 평균 풀링 레이어의 출력을 소리 이벤트 검출 결과로 출력하는 소리 이벤트 검출 모델 학습 방법
|
9 |
9
제6항에 있어서,상기 소리 이벤트 검출 모델은,복수의 CNN 블록을 이용하여 상기 입력 특징맵에 대한 차원 축소를 수행한 후, 트랜스포머 인코더를 적용하는 베이스라인 트랜스포머;컨볼루션 블록과 결합된 트랜스포머 인코더들을 이용하여 상기 학습 데이터의 멀티 스케일 특징을 추출하는 멀티-스케일 추출 모듈; 및상기 멀티-스케일 추출 모듈의 출력을 이용하여 상기 학습 데이터의 오디오 클래스를 분류하는 분류 레이어를 포함하는 소리 이벤트 검출 모델 학습 방법
|
10 |
10
제9항에 있어서,상기 분류 레이어는,상기 학습 데이터의 프레임 레벨 데이터와 클립 레벨 데이터로부터 각각 프레임 레벨 예측과 클립 레벨 예측을 수행하여 상기 학습 데이터의 오디오 클래스를 분류하는 소리 이벤트 검출 모델 학습 방법
|
11 |
11
제6항에 있어서,상기 원본 특징들을 추출하는 단계는,상기 학습 데이터를 샘플링하여 STFT(Short-Time Fourier Transform)를 계산하는 단계;상기 학습 데이터의 STFT값으로부터 멜-필터뱅크 값을 결정하는 단계; 및상기 멜-필터뱅크 값을 로그 변환한 로그-멜-필터뱅크 값을 상기 원본 특징들로 추출하는 단계를 포함하는 소리 이벤트 검출 모델 학습 방법
|
12 |
12
제6항에 있어서,상기 차분 특징을 추출하는 단계는,상기 학습 데이터의 프레임들 각각에서 추출한 원본 특징들 간의 차이를 나타내는 1차 차분 특징들을 생성하는 단계; 및상기 1차 차분 특징들 간의 차이를 나타내는 2차 차분 특징들을 생성하는 단계를 포함하는 소리 이벤트 검출 모델 학습 방법
|
13 |
13
제1항 내지 제12항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체
|
14 |
14
오디오 신호를 오디오 신호에서 오디오 신호의 원본 특징들을 추출하고,상기 원본 특징들을 기초로 차분 특징을 추출하며, 상기 원본 특징들 및 상기 차분 특징을 기초로 입력 특징맵을 구성하고, 상기 입력 특징맵을 소리 이벤트 검출 모델에 입력하여 검출 결과를 출력하는 프로세서를 포함하는 소리 이벤트 검출 장치
|
15 |
15
제14항에 있어서,상기 프로세서는,상기 오디오 신호의 프레임들 각각에서 추출한 원본 특징들 간의 차이를 나타내는 1차 차분 특징들을 생성하고, 상기 1차 차분 특징들 간의 차이를 나타내는 2차 차분 특징들을 생성하는 소리 이벤트 검출 장치
|
16 |
16
제14항에 있어서,상기 소리 이벤트 검출 모델은,학습 데이터의 원본 특징들, 1차 차분 특징들 및 2차 차분 특징들로 구성된 입력 특징맵을 이용하여 학습된 모델인 소리 이벤트 검출 장치
|
17 |
17
학습 데이터에서 상기 학습 데이터의 원본 특징들을 추출하고, 상기 원본 특징들을 기초로 차분 특징을 추출하며,상기 원본 특징들 및 상기 차분 특징을 기초로 입력 특징맵을 구성하고,상기 입력 특징맵을 이용하여 소리 이벤트 검출 모델을 학습하는 프로세서를 포함하는 소리 이벤트 검출 모델 학습 장치
|
18 |
18
제17항에 있어서,상기 학습 데이터는,약전사(Weak label) 레이블, 강전사(Strong label) 레이블, 및 비전사(Un-label) 레이블을 포함하는 소리 이벤트 검출 모델 학습 장치
|