1 |
1
상향식 주의집중(bottom-up attention)과 하향식 주의집중(recurrent top down attention)을 적용한 인공신경망을 이용한 음성 감정 인식 방법에 있어서, 입력 받은 음성 신호를 상기 인공신경망의 컨볼루션 레이어(convolution layer)와 풀링 레이어(pooling layer)를 통과시키는 단계; 상기 음성 신호에 대해 감정에 대한 정보가 집중되어야 하는 특징(feature)의 공간적인(spatial) 정보를 유추하는 상향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산하는 단계; 상기 음성 신호에 대해 감정에 대한 정보가 집중되어야 하는 특징의 채널(channel) 정보를 유추하는 하향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산하는 단계; 및 상기 음성 신호에 상기 상향식 주의집중 및 하향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산한 후, 다음 컨볼루션 레이어를 통과시키는 단계를 포함하고, 상기 음성 신호를 상기 인공신경망에 통과시킴에 따라 음성으로부터 감정을 인식하는, 인공신경망을 이용한 음성 감정 인식 방법
|
2 |
2
제1항에 있어서, 상기 음성 신호를 멜-스펙토그램(mel-spectrogram)으로 변환하여 상기 인공신경망의 입력으로 사용하는 전처리 단계를 더 포함하는, 인공신경망을 이용한 음성 감정 인식 방법
|
3 |
3
제1항에 있어서, 상기 다음 컨볼루션 레이어를 통과시킨 후, 소프트맥스 함수에 기초하여 특징 별 손실(loss)을 계산하는 단계를 더 포함하는, 인공신경망을 이용한 음성 감정 인식 방법
|
4 |
4
제1항에 있어서,상기 인공신경망의 컨볼루션 레이어(convolution layer)와 풀링 레이어(pooling layer)를 통과시키는 단계는, 맥스 풀링 레이어(max pooling layer)의 특징(feature)은 공간적인(spatial) 방향과 채널(channel) 방향의 3 차원의 값을 갖는 것을 특징으로 하는, 인공신경망을 이용한 음성 감정 인식 방법
|
5 |
5
제1항에 있어서,상기 상향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산하는 단계는, 상기 음성 신호를 입력으로 하여 감정에 대한 정보가 집중되어야 하는 특징의 공간적인(spatial) 정보를 유추하고, 가중치를 계산하여 상기 특징에 곱하거나 더하여 주의집중시키는 것을 특징으로 하는, 인공신경망을 이용한 음성 감정 인식 방법
|
6 |
6
제1항에 있어서,상기 하향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산하는 단계는, 상기 인공신경망을 이용한 감정 분류 예측값을 입력으로 하여 감정에 대한 정보가 집중되어야 하는 특징의 채널(channel) 정보를 유추하고, 가중치를 계산하여 상기 특징에 곱하거나 더하여 특정 채널에 주의집중시키는 것을 특징으로 하는, 인공신경망을 이용한 음성 감정 인식 방법
|
7 |
7
제1항에 있어서,상기 곱셈 또는 덧셈 연산을 위한 상기 상향식 주의집중 및 하향식 주의집중을 통한 값은, 공간적인(spatial) 방향과 채널(channel) 방향으로 모두 다른 값을 가지는 것을 특징으로 하는, 인공신경망을 이용한 음성 감정 인식 방법
|
8 |
8
제1항에 있어서,상기 곱셈 또는 덧셈 연산을 위한 상기 상향식 주의집중 및 하향식 주의집중을 통한 값은, 공간적인(spatial) 방향으로 일정한 값을 가지거나 채널(channel) 방향으로 일정한 값을 가지는 것을 특징으로 하는, 인공신경망을 이용한 음성 감정 인식 방법
|
9 |
9
상향식 주의집중(bottom-up attention)과 하향식 주의집중(recurrent top down attention)을 적용한 인공신경망을 이용한 음성 감정 인식 장치에 있어서, 입력 받은 음성 신호를 상기 인공신경망의 컨볼루션 레이어(convolution layer)와 풀링 레이어(pooling layer)를 통과시키는 제1 처리부; 상기 음성 신호에 대해 감정에 대한 정보가 집중되어야 하는 특징(feature)의 공간적인(spatial) 정보를 유추하는 상향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산하는 상향식 주의집중부; 상기 음성 신호에 대해 감정에 대한 정보가 집중되어야 하는 특징의 채널(channel) 정보를 유추하는 하향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산하는 하향식 주의집중부; 및 상기 음성 신호에 상기 상향식 주의집중 및 하향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산한 후, 다음 컨볼루션 레이어를 통과시키는 제2 처리부를 포함하고, 상기 음성 신호를 상기 인공신경망에 통과시킴에 따라 음성으로부터 감정을 인식하는, 인공신경망을 이용한 음성 감정 인식 장치
|
10 |
10
제9항에 있어서, 상기 음성 신호를 멜-스펙토그램(mel-spectrogram)으로 변환하여 상기 인공신경망의 입력으로 사용하는 전처리부를 더 포함하는, 인공신경망을 이용한 음성 감정 인식 장치
|
11 |
11
제9항에 있어서, 상기 제2 처리부를 통과시킨 후, 소프트맥스 함수에 기초하여 특징 별 손실(loss)을 계산하는 분류부를 더 포함하는, 인공신경망을 이용한 음성 감정 인식 장치
|
12 |
12
제9항에 있어서,상기 제1 처리부는, 맥스 풀링 레이어(max pooling layer)의 특징(feature)은 공간적인(spatial) 방향과 채널(channel) 방향의 3 차원의 값을 갖는 것을 특징으로 하는, 인공신경망을 이용한 음성 감정 인식 장치
|
13 |
13
제9항에 있어서,상기 상향식 주의집중부는, 상기 음성 신호를 입력으로 하여 감정에 대한 정보가 집중되어야 하는 특징의 공간적인(spatial) 정보를 유추하고, 가중치를 계산하여 상기 특징에 곱하거나 더하여 주의집중시키는 것을 특징으로 하는, 인공신경망을 이용한 음성 감정 인식 장치
|
14 |
14
제9항에 있어서,상기 하향식 주의집중부는, 상기 인공신경망을 이용한 감정 분류 예측값을 입력으로 하여 감정에 대한 정보가 집중되어야 하는 특징의 채널(channel) 정보를 유추하고, 가중치를 계산하여 상기 특징에 곱하거나 더하여 특정 채널에 주의집중시키는 것을 특징으로 하는, 인공신경망을 이용한 음성 감정 인식 장치
|
15 |
15
제9항에 있어서,상기 곱셈 또는 덧셈 연산을 위한 상기 상향식 주의집중 및 하향식 주의집중을 통한 값은, 공간적인(spatial) 방향과 채널(channel) 방향으로 모두 다른 값을 가지는 것을 특징으로 하는, 인공신경망을 이용한 음성 감정 인식 장치
|