1 |
1
감정 인식 방법으로서,발화에 대응하는 오디오 데이터 및 상기 발화를 나타내는 하나 이상의 단어를 포함하는 텍스트 데이터를 획득하는 단계;상기 오디오 데이터가 상기 텍스트 데이터와 정렬되도록 상기 하나 이상의 단어의 발화 구간에 따라 상기 오디오 데이터를 하나 이상의 오디오 세그먼트로 분할하는 단계;상기 하나 이상의 단어로부터 상기 텍스트 데이터에 대한 문장 표현 데이터(HT)를 추출하는 단계;상기 하나 이상의 오디오 세그먼트로부터 상기 오디오 데이터에 대한 음성 표현 데이터(HA)를 추출하는 단계;학습 가능한 한 쌍의 가중치(αT, αA)에 기반하여 상기 문장 표현 데이터(HT) 및 상기 음성 표현 데이터(HA)에 대한 교차 어텐션 모델을 연산하는 단계; 및상기 교차 어텐션 모델의 연산의 결과로 얻은 컨텍스트 벡터(CTT, CTA, CAT, CAA)에 기반하여 감정 예측 결과()를 연산하는 단계를 포함하는,감정 인식 방법
|
2 |
2
제1항에 있어서, 상기 텍스트 데이터를 획득하는 단계는,상기 텍스트 데이터를 토큰화(tokenize)하여 상기 하나 이상의 단어를 획득하는 단계; 및단어 임베딩 기법을 기초로 상기 하나 이상의 단어의 각 단어에 대한 벡터 정보를 생성하는 단계를 포함하는감정 인식 방법
|
3 |
3
제1항에 있어서, 상기 분할하는 단계는,상기 텍스트 데이터와 상기 오디오 데이터 간의 정렬 정보에 기반하여 상기 오디오 세그먼트를 생성하는 단계를 포함하고,상기 정렬 정보는, 상기 하나 이상의 단어와 상기 하나 이상의 오디오 세그먼트가 상기 발화에서 순차적으로 서로 대응되는 시간 구간을 나타내기 위한 상기 오디오 데이터의 분할 위치 정보를 포함하는,감정 인식 방법
|
4 |
4
제1항에 있어서, 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)는 순환 신경망으로부터 출력된 일련의 은닉 상태(hidden state)를 나타내는 벡터의 집합인,감정 인식 방법
|
5 |
5
제4항에 있어서, 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)는 동일한 개수의 상기 은닉 상태를 나타내는 벡터를 포함하는,감정 인식 방법
|
6 |
6
제1항에 있어서, 상기 교차 어텐션 모델을 연산하는 단계는,한 쌍의 쿼리 벡터(qT, qA)를 이용하여 상기 문장 표현 데이터(HT) 및 상기 음성 표현 데이터(HA)에 대한 상기 한 쌍의 가중치(αT, αA)를 연산하는 단계를 포함하는,감정 인식 방법
|
7 |
7
제6항에 있어서, 상기 한 쌍의 가중치(αT, αA)는 문장 가중치(αT) 및 음성 가중치(αA)를 포함하고, 상기 한 쌍의 쿼리 벡터(qT, qA)는 문장 쿼리 벡터(qT) 및 음성 쿼리 벡터(qA)를 포함하고,상기 한 쌍의 가중치(αT, αA)를 연산하는 단계는,상기 문장 쿼리 벡터(qT) 및 상기 문장 표현 데이터(HT)에 기반하여 상기 문장 가중치(αT)를 결정하는 단계; 및상기 음성 쿼리 벡터(qA) 및 상기 음성 표현 데이터(HA)에 기반하여 상기 음성 가중치(αA)를 결정하는 단계를 포함하는,감정 인식 방법
|
8 |
8
제6항에 있어서, 상기 한 쌍의 가중치(αT, αA)는 문장 가중치(αT) 및 음성 가중치(αA)를 포함하고,상기 교차 어텐션 모델을 연산하는 단계는,상기 문장 가중치(αT)에 기반하여 상기 문장 표현 데이터(HT)를 가중합하여 제1 컨텍스트 벡터(CTT)를 연산하는 제1 연산 단계; 및상기 음성 가중치(αA)에 기반하여 상기 음성 표현 데이터(HA)를 가중합하여 제2 컨텍스트 벡터(CAA)를 연산하는 제2 연산 단계를 포함하는,감정 인식 방법
|
9 |
9
제8항에 있어서, 상기 교차 어텐션 모델을 연산하는 단계는,상기 문장 가중치(αT)에 기반하여 상기 음성 표현 데이터(HA)를 가중합하여 제3 컨텍스트 벡터(CTA)를 연산하는 제3 연산 단계; 및상기 음성 가중치(αA)에 기반하여 상기 문장 표현 데이터(HT)를 가중합하여 제4 컨텍스트 벡터(CAT)를 연산하는 제4 연산 단계를 더 포함하는,감정 인식 방법
|
10 |
10
제9항에 있어서,상기 제3 연산 단계 및 상기 제4 연산 단계는, 상기 문장 가중치(αT) 및 상기 음성 가중치(αA)에 대하여 각각 스톱-그래디언트 함수(stop gradient function; sg)를 적용하는,감정 인식 방법
|
11 |
11
제1항에 있어서,상기 감정 예측 결과()에 기반하여 정의되는 손실 함수를 이용하여 상기 교차 어텐션 모델을 훈련하는 단계를 더 포함하는,감정 인식 방법
|
12 |
12
제11항에 있어서,상기 컨텍스트 벡터(CTT, CTA, CAT, CAA)는 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)가 상기 한 쌍의 가중치(αT, αA)와 각각 정렬된 제1 컨텍스트 벡터(CTT)와 제2 컨텍스트 벡터(CAA), 및 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)가 상기 한 쌍의 가중치(αT, αA)와 각각 교차된 제3 컨텍스트 벡터(CTA)와 제4 컨텍스트 벡터(CAT) 포함하고,상기 손실 함수는,상기 제1 컨텍스트 벡터(CTT), 상기 제2 컨텍스트 벡터(CAA), 상기 제3 컨텍스트 벡터(CTA) 및 상기 제4 컨텍스트 벡터(CAT)에 기반한 제3 감정 예측 결과() 및 제1 손실 함수(Lalign)에 기반한 제2 손실 함수(Ltotal)를 포함하고,상기 제1 손실 함수(Lalign)는, 상기 제1 컨텍스트 벡터(CTT)에 기반한 제1 감정 예측 결과() 및 상기 제2 컨텍스트 벡터(CAA)에 기반한 제2 감정 예측 결과() 에 기반한 손실 함수인감정 인식 방법
|
13 |
13
제1항에 있어서,최종 감정 예측 결과()를 이용하여 발화에 내재된 감정을 예측하는 단계를 더 포함하고,상기 최종 감정 예측 결과()는, 상기 컨텍스트 벡터(CTT, CTA, CAT, CAA)에 기반하여 연산되는 상기 감정 예측 결과()에 기반하여 결정되는,감정 인식 방법
|
14 |
14
발화에 내재된 감정을 예측하기 위한 교차 어텐션 모델을 저장하는 메모리; 및 상기 메모리와 연결된 프로세서를 포함하고, 상기 프로세서는,발화에 대응하는 오디오 데이터 및 상기 발화를 나타내는 하나 이상의 단어를 포함하는 텍스트 데이터를 획득하고,상기 오디오 데이터가 상기 텍스트 데이터와 정렬되도록 상기 하나 이상의 단어의 발화 구간에 따라 상기 오디오 데이터를 하나 이상의 오디오 세그먼트로 분할하고,상기 하나 이상의 단어로부터 상기 텍스트 데이터에 대한 문장 표현 데이터(HT)를 추출하고,상기 하나 이상의 오디오 세그먼트로부터 상기 오디오 데이터에 대한 음성 표현 데이터(HA)를 추출하고,학습가능한 한 쌍의 가중치(αT, αA)에 기반하여 상기 문장 표현 데이터(HT) 및 상기 음성 표현 데이터(HA)에 대한 상기 교차 어텐션 모델을 연산하고,상기 교차 어텐션 모델의 연산의 결과로 얻은 컨텍스트 벡터(CTT, CTA, CAT, CAA)에 기반하여 감정 예측 결과()를 연산하도록 구성되는,감정 인식 장치
|
15 |
15
제14항에 있어서, 상기 프로세서는,상기 텍스트 데이터와 상기 오디오 데이터 간의 정렬 정보에 기반하여 상기 오디오 세그먼트를 생성하도록 더 구성되고,상기 정렬 정보는, 상기 하나 이상의 단어와 상기 하나 이상의 오디오 세그먼트가 상기 발화에서 순차적으로 서로 대응되는 시간 구간을 나타내도록 하는 상기 오디오 데이터의 분할 위치 정보를 포함하는,감정 인식 장치
|
16 |
16
제14항에 있어서, 상기 프로세서는,상기 교차 어텐션 모델을 연산하기 위하여,한 쌍의 쿼리 벡터(qT, qA)를 이용하여 상기 문장 표현 데이터(HT) 및 상기 음성 표현 데이터(HA)에 대한 상기 한 쌍의 가중치(αT, αA)를 연산하도록 더 구성되는,감정 인식 장치
|
17 |
17
제16항에 있어서, 상기 한 쌍의 가중치(αT, αA)는 문장 가중치(αT) 및 음성 가중치(αA)를 포함하고,상기 프로세서는,상기 교차 어텐션 모델을 연산하기 위하여,상기 문장 가중치(αT)에 기반하여 상기 문장 표현 데이터(HT)를 가중합하여 제1 컨텍스트 벡터(CTT)를 연산하는 제1 연산 단계,상기 음성 가중치(αA)에 기반하여 상기 음성 표현 데이터(HA)를 가중합하여 제2 컨텍스트 벡터(CAA)를 연산하는 제2 연산 단계,상기 문장 가중치(αT)에 기반하여 상기 음성 표현 데이터(HA)를 가중합하여 제3 컨텍스트 벡터(CTA)를 연산하는 제3 연산 단계, 및상기 음성 가중치(αA)에 기반하여 상기 문장 표현 데이터(HT)를 가중합하여 제4 컨텍스트 벡터(CAT)를 연산하는 제4 연산 단계를 수행하도록 더 구성되는,감정 인식 장치
|
18 |
18
제17항에 있어서,상기 프로세서는,상기 제3 연산 단계 및 상기 제4 연산 단계에서, 상기 문장 가중치(αT) 및 상기 음성 가중치(αA)에 대하여 각각 스톱-그래디언트 함수(stop gradient function; sg)를 적용하도록 더 구성되는,감정 인식 장치
|
19 |
19
제14항에 있어서,상기 프로세서는,상기 감정 예측 결과()에 기반하여 정의되는 손실 함수를 이용하여 상기 교차 어텐션 모델을 훈련하도록 더 구성되는,감정 인식 장치
|
20 |
20
제19항에 있어서,상기 컨텍스트 벡터(CTT, CTA, CAT, CAA)는 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)가 상기 한 쌍의 가중치(αT, αA)와 각각 정렬된 제1 컨텍스트 벡터(CTT)와 제2 컨텍스트 벡터(CAA), 및 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)가 상기 한 쌍의 가중치(αT, αA)와 각각 교차된 제3 컨텍스트 벡터(CTA)와 제4 컨텍스트 벡터(CAT) 포함하고,상기 손실 함수는,상기 제1 컨텍스트 벡터(CTT), 상기 제2 컨텍스트 벡터(CAA), 상기 제3 컨텍스트 벡터(CTA) 및 상기 제4 컨텍스트 벡터(CAT)에 기반한 제3 감정 예측 결과() 및 제1 손실 함수(Lalign)에 기반한 제2 손실 함수(Ltotal)를 포함하고,상기 제1 손실 함수(Lalign)는, 상기 제1 컨텍스트 벡터(CTT)에 기반한 제1 감정 예측 결과() 및 상기 제2 컨텍스트 벡터(CAA)에 기반한 제2 감정 예측 결과() 에 기반한 손실 함수인,감정 인식 장치
|