1 |
1
학습 모델을 이용한 음향 이벤트의 결정 방법에 있어서, 음향 이벤트와 묵음 신호를 포함하는 음향 신호를 식별하는 단계;상기 음향 신호에서 묵음 신호를 추출하여 마스킹 신호를 결정하는 단계; 트레이닝된 학습 모델을 이용하여 상기 음향 신호로부터 상기 음향 이벤트가 결정된 출력 신호를 생성하는 단계; 및 상기 마스킹 신호에 기초하여, 상기 출력 신호에서 상기 묵음 신호에 대응하는 출력 신호를 제거하는 단계 를 포함하는 결정 방법
|
2 |
2
제1항에 있어서, 상기 트레이닝된 학습 모델은,상기 음향 신호에 포함된 묵음 신호를 고려하여 결정되는 손실 함수에 따라 트레이닝되는, 결정 방법
|
3 |
3
제1항에 있어서, 상기 마스킹 신호는,상기 음향 신호와 동일한 길이의 신호이고, 상기 음향 신호에 포함된 묵음 신호의 시간에 대한 정보를 포함하는, 결정 방법
|
4 |
4
음향 이벤트를 결정하는 학습 모델의 트레이닝 방법에 있어서, 상기 음향 이벤트와 묵음 신호를 포함하는 음향 신호 및 상기 음향 신호에 포함된 음향 이벤트를 나타내는 레이블을 식별하는 단계;상기 음향 신호에서 묵음 신호를 추출하여 마스킹 신호를 결정하는 단계; 및상기 음향 신호, 상기 레이블 및 상기 마스킹 신호를 이용하여 상기 학습 모델을 트레이닝하는 단계를 포함하는 트레이닝 방법
|
5 |
5
제4항에 있어서, 상기 트레이닝하는 단계는,상기 음향 신호에 대한 상기 학습 모델의 출력 신호, 상기 레이블 및 상기 마스킹 신호로 결정되는 손실 함수의 값이 최소가 되도록 상기 학습 모델을 트레이닝하는, 트레이닝 방법
|
6 |
6
제4항에 있어서, 상기 트레이닝하는 단계는,상기 음향 신호를 상기 학습 모델에 입력하여, 상기 학습 모델로부터 음향 이벤트가 결정된 출력 신호를 획득하는 단계; 상기 레이블과 상기 마스킹 신호에 기초하여 상기 출력 신호와 상기 레이블의 차이를 결정하는 단계; 및상기 결정된 차이에 따라 상기 학습 모델의 가중치들을 업데이트하는 단계를 포함하는 트레이닝 방법
|
7 |
7
제6항에 있어서, 상기 차이를 결정하는 단계는,상기 마스킹 신호를 고려하여, 상기 음향 신호에서 상기 묵음 신호가 아닌 나머지 음향 신호에 대한, 상기 출력 신호와 상기 레이블의 차이를 결정하는, 트레이닝 방법
|
8 |
8
제4항에 있어서, 상기 마스킹 신호는,상기 음향 신호와 동일한 길이의 신호이고, 상기 음향 신호에 포함된 묵음 신호의 시간에 대한 정보를 포함하는, 트레이닝 방법
|
9 |
9
결정 장치가 수행하는 음향 이벤트의 결정 방법에 있어서, 상기 결정 장치는 프로세서를 포함하고,상기 프로세서는,음향 이벤트와 묵음 신호를 포함하는 음향 신호를 식별하고, 상기 음향 신호에서 묵음 신호를 추출하여 마스킹 신호를 결정하고, 트레이닝된 학습 모델을 이용하여 상기 음향 신호로부터 상기 음향 이벤트가 결정된 출력 신호를 생성하고, 상기 마스킹 신호에 기초하여 상기 출력 신호에서 상기 묵음 신호를 제거하는묵음 신호에 대응하는 출력 신호를 제거하는,결정 장치
|
10 |
10
제9항에 있어서, 상기 트레이닝된 학습 모델은,상기 음향 신호에 포함된 묵음 신호를 고려하여 결정되는 손실 함수에 따라 트레이닝되는, 결정 장치
|
11 |
11
제9항에 있어서, 상기 마스킹 신호는,상기 음향 신호와 동일한 길이의 신호이고, 상기 음향 신호에 포함된 묵음 신호의 시간에 대한 정보를 포함하는, 결정 장치
|
12 |
12
트레이닝 장치가 수행하는 학습 모델의 트레이닝 방법에 있어서, 상기 트레이닝 장치는 프로세서를 포함하고,상기 프로세서는,음향 이벤트와 묵음 신호를 포함하는 음향 신호 및 상기 음향 신호에 포함된 음향 이벤트를 나타내는 레이블을 식별하고, 상기 음향 신호에서 묵음 신호를 추출하여 마스킹 신호를 결정하고, 상기 음향 신호, 상기 레이블 및 상기 마스킹 신호를 이용하여 상기 학습 모델을 트레이닝하는, 트레이닝 장치
|
13 |
13
제12항에 있어서, 상기 프로세서는,상기 음향 신호에 대한 상기 학습 모델의 출력 신호, 상기 레이블 및 상기 마스킹 신호로 결정되는 손실 함수의 값이 최소가 되도록 상기 학습 모델을 트레이닝하는, 트레이닝 장치
|
14 |
14
제12항에 있어서, 상기 프로세서는,상기 음향 신호를 상기 학습 모델에 입력하여, 상기 학습 모델로부터 음향 이벤트가 결정된 출력 신호를 획득하고, 상기 레이블과 상기 마스킹 신호에 기초하여 상기 출력 신호와 상기 레이블의 차이를 결정하고, 상기 결정된 차이에 따라 상기 학습 모델의 가중치들을 업데이트하는, 트레이닝 장치
|
15 |
15
제14항에 있어서, 상기 프로세서는,상기 마스킹 신호를 고려하여, 상기 음향 신호에서 상기 묵음 신호가 아닌 나머지 음향 신호에 대한, 상기 출력 신호와 상기 레이블의 차이를 결정하는, 트레이닝 장치
|
16 |
16
제12항에 있어서, 상기 마스킹 신호는,상기 음향 신호와 동일한 길이의 신호이고, 상기 음향 신호에 포함된 묵음 신호의 시간에 대한 정보를 포함하는, 트레이닝 장치
|