1 |
1
학습 모델을 이용한 음향 이벤트의 인식 방법에 있어서,복수의 음향 이벤트들을 포함하는 음향 신호를 식별하는 단계; 상기 음향 신호로부터 특징 벡터를 추출하는 단계; 및상기 학습 모델에, 상기 특징 벡터를 입력하여 상기 음향 신호에 포함된 음향 이벤트를 결정하는 단계를 포함하고,상기 학습 모델은, 상기 복수의 음향 이벤트들 중 동시에 발생하는 음향 이벤트들에 대한 통계 정보에 따라 결정되는 변형 레이블에 기초하여 트레이닝되는, 인식 방법
|
2 |
2
제1항에 있어서,상기 통계 정보는, 상기 복수의 음향 이벤트들 중 상기 음향 신호의 전체 시간 동안 동시에 발생한 음향 이벤트들의 빈도 수를 포함하는, 인식 방법
|
3 |
3
제1항에 있어서, 상기 변형 레이블은, 상기 음향 신호의 임의의 프레임에서 상기 복수의 음향 이벤트들 중 특정 음향 이벤트가 발생한 경우, 나머지 음향 이벤트들의 동시 발생 확률을 포함하는, 인식 방법
|
4 |
4
음향 이벤트의 인식 방법에 이용되는 학습 모델의 트레이닝 방법에 있어서,복수의 음향 이벤트들을 포함하는 음향 신호 및 상기 복수의 음향 이벤트들에 대한 정보를 포함하는 원본 레이블을 식별하는 단계; 상기 원본 레이블을 이용하여 상기 복수의 음향 이벤트들 중 동시에 발생하는 음향 이벤트에 대한 통계 정보를 생성하는 단계; 상기 통계 정보에 기초하여, 상기 원본 레이블로부터 변형 레이블을 결정하는 단계; 상기 학습 모델에, 상기 음향 신호로부터 추출된 특징 벡터를 입력하여 상기 음향 신호에 포함된 음향 이벤트를 결정하는 단계; 및상기 학습 모델에 의해 결정된 음향 이벤트와 상기 변형 레이블 간의 차이에 기초하여 상기 학습 모델을 트레이닝하는 단계를 포함하는 트레이닝 방법
|
5 |
5
제4항에 있어서, 상기 통계 정보는,상기 복수의 음향 이벤트들 중 상기 음향 신호의 전체 시간 동안 동시에 발생한 음향 이벤트들의 빈도 수를 포함하는, 트레이닝 방법
|
6 |
6
제4항에 있어서, 상기 원본 레이블은,상기 음향 신호의 각 프레임 마다 상기 복수의 음향 이벤트들의 발생 여부를 나타내는, 트레이닝 방법
|
7 |
7
제4항에 있어서, 상기 변형 레이블은,상기 음향 신호의 임의의 프레임에서 상기 복수의 음향 이벤트들 중 특정 음향 이벤트가 발생한 경우, 나머지 음향 이벤트들의 동시 발생 확률을 포함하는, 트레이닝 방법
|
8 |
8
제4항에 있어서, 상기 학습 모델을 트레이닝하는 단계는,상기 학습 모델에 의해 결정된 음향 이벤트와 상기 변형 레이블 간의 차이에 기초하여 손실 값을 결정하는 단계; 및상기 손실 값이 최소가 되도록 상기 학습 모델에 포함되는 가중치들을 업데이트하는 단계를 포함하는, 트레이닝 방법
|
9 |
9
학습 모델을 이용한 음향 이벤트의 인식 장치에 있어서,상기 인식 장치는, 프로세서를 포함하고,상기 프로세서는,복수의 음향 이벤트들을 포함하는 음향 신호를 식별하고, 상기 음향 신호로부터 특징 벡터를 추출하고, 상기 학습 모델에, 상기 특징 벡터를 입력하여 상기 음향 신호에 포함된 음향 이벤트를 결정하고,상기 학습 모델은, 상기 복수의 음향 이벤트들 중 동시에 발생하는 음향 이벤트들에 대한 통계 정보에 따라 결정되는 변형 레이블에 기초하여 트레이닝되는, 인식 장치
|
10 |
10
제9항에 있어서,상기 통계 정보는, 상기 복수의 음향 이벤트들 중 상기 음향 신호의 전체 시간 동안 동시에 발생한 음향 이벤트들의 빈도 수를 포함하는, 인식 장치
|
11 |
11
제9항에 있어서, 상기 변형 레이블은, 상기 음향 신호의 임의의 프레임에서 상기 복수의 음향 이벤트들 중 특정 음향 이벤트가 발생한 경우, 나머지 음향 이벤트들의 동시 발생 확률을 포함하는, 인식 장치
|
12 |
12
학습 모델의 트레이닝 방법을 수행하는 인식 장치에 있어서,상기 인식 장치는 프로세서를 포함하고,상기 프로세서는, 복수의 음향 이벤트들을 포함하는 음향 신호 및 상기 복수의 음향 이벤트들에 대한 정보를 포함하는 원본 레이블을 식별하고, 상기 원본 레이블을 이용하여 상기 복수의 음향 이벤트들 중 동시에 발생하는 음향 이벤트에 대한 통계 정보를 생성하고, 상기 통계 정보에 기초하여, 상기 원본 레이블로부터 변형 레이블을 결정하고, 상기 학습 모델에, 상기 음향 신호로부터 추출된 특징 벡터를 입력하여 상기 음향 신호에 포함된 음향 이벤트를 결정하고, 상기 학습 모델에 의해 결정된 음향 이벤트와 상기 변형 레이블 간의 차이에 기초하여 상기 학습 모델을 트레이닝하는,인식 장치
|
13 |
13
제12항에 있어서, 상기 통계 정보는,상기 복수의 음향 이벤트들 중 상기 음향 신호의 전체 시간 동안 동시에 발생한 음향 이벤트들의 빈도 수를 포함하는, 인식 장치
|
14 |
14
제12항에 있어서, 상기 원본 레이블은,상기 음향 신호의 각 프레임 마다 상기 복수의 음향 이벤트들의 발생 여부를 나타내는, 인식 장치
|
15 |
15
제12항에 있어서, 상기 변형 레이블은,상기 음향 신호의 임의의 프레임에서 상기 복수의 음향 이벤트들 중 특정 음향 이벤트가 발생한 경우, 나머지 음향 이벤트들의 동시 발생 확률을 포함하는, 인식 장치
|
16 |
16
제12항에 있어서, 상기 프로세서는,상기 학습 모델에 의해 결정된 음향 이벤트와 상기 변형 레이블 간의 차이에 기초하여 손실 값을 결정하고, 상기 손실 값이 최소가 되도록 상기 학습 모델에 포함되는 가중치들을 업데이트하는, 인식 장치
|