맞춤기술찾기

이전대상기술

교차 어텐션 모델 기반 감정 인식 방법 및 장치

  • 기술번호 : KST2022002059
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 화자의 발화에 대응하는 오디오 데이터와 발화를 나타내는 텍스트 데이터를 기초로 하여 작동하는 교차 어텐션 모델을 통해 화자의 감정을 예측하는 감정 인식 방법 및 장치를 제공한다. 이로써 감정 예측의 정확도가 제고된다.
Int. CL G10L 25/63 (2013.01.01) G10L 15/26 (2006.01.01) G10L 15/04 (2006.01.01) G10L 15/16 (2006.01.01) G10L 15/06 (2006.01.01)
CPC G10L 25/63(2013.01) G10L 15/26(2013.01) G10L 15/04(2013.01) G10L 15/16(2013.01) G10L 15/063(2013.01) G10L 2015/0635(2013.01)
출원번호/일자 1020200138372 (2020.10.23)
출원인 서울대학교산학협력단
등록번호/일자 10-2365433-0000 (2022.02.16)
공개번호/일자
공고번호/일자 (20220221) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.10.23)
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 서울대학교산학협력단 대한민국 서울특별시 관악구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 정교민 서울특별시 관악구
2 이윤형 서울특별시 관악구
3 윤승현 서울특별시 관악구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인 남앤남 대한민국 서울특별시 중구 서소문로**(서소문동, 정안빌딩*층)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 서울대학교산학협력단 서울특별시 관악구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.10.23 수리 (Accepted) 1-1-2020-1127195-80
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.11.25 수리 (Accepted) 4-1-2020-5265458-48
3 특허고객번호 정보변경(경정)신고서·정정신고서
2021.07.29 수리 (Accepted) 4-1-2021-5205564-29
4 등록결정서
Decision to grant
2022.01.14 발송처리완료 (Completion of Transmission) 9-5-2022-0040836-78
5 [출원서 등 보정]보정서
[Amendment to Patent Application, etc.] Amendment
2022.02.10 수리 (Accepted) 1-1-2022-0150337-52
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
감정 인식 방법으로서,발화에 대응하는 오디오 데이터 및 상기 발화를 나타내는 하나 이상의 단어를 포함하는 텍스트 데이터를 획득하는 단계;상기 오디오 데이터가 상기 텍스트 데이터와 정렬되도록 상기 하나 이상의 단어의 발화 구간에 따라 상기 오디오 데이터를 하나 이상의 오디오 세그먼트로 분할하는 단계;상기 하나 이상의 단어로부터 상기 텍스트 데이터에 대한 문장 표현 데이터(HT)를 추출하는 단계;상기 하나 이상의 오디오 세그먼트로부터 상기 오디오 데이터에 대한 음성 표현 데이터(HA)를 추출하는 단계;학습 가능한 한 쌍의 가중치(αT, αA)에 기반하여 상기 문장 표현 데이터(HT) 및 상기 음성 표현 데이터(HA)에 대한 교차 어텐션 모델을 연산하는 단계; 및상기 교차 어텐션 모델의 연산의 결과로 얻은 컨텍스트 벡터(CTT, CTA, CAT, CAA)에 기반하여 감정 예측 결과()를 연산하는 단계를 포함하는,감정 인식 방법
2 2
제1항에 있어서, 상기 텍스트 데이터를 획득하는 단계는,상기 텍스트 데이터를 토큰화(tokenize)하여 상기 하나 이상의 단어를 획득하는 단계; 및단어 임베딩 기법을 기초로 상기 하나 이상의 단어의 각 단어에 대한 벡터 정보를 생성하는 단계를 포함하는감정 인식 방법
3 3
제1항에 있어서, 상기 분할하는 단계는,상기 텍스트 데이터와 상기 오디오 데이터 간의 정렬 정보에 기반하여 상기 오디오 세그먼트를 생성하는 단계를 포함하고,상기 정렬 정보는, 상기 하나 이상의 단어와 상기 하나 이상의 오디오 세그먼트가 상기 발화에서 순차적으로 서로 대응되는 시간 구간을 나타내기 위한 상기 오디오 데이터의 분할 위치 정보를 포함하는,감정 인식 방법
4 4
제1항에 있어서, 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)는 순환 신경망으로부터 출력된 일련의 은닉 상태(hidden state)를 나타내는 벡터의 집합인,감정 인식 방법
5 5
제4항에 있어서, 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)는 동일한 개수의 상기 은닉 상태를 나타내는 벡터를 포함하는,감정 인식 방법
6 6
제1항에 있어서, 상기 교차 어텐션 모델을 연산하는 단계는,한 쌍의 쿼리 벡터(qT, qA)를 이용하여 상기 문장 표현 데이터(HT) 및 상기 음성 표현 데이터(HA)에 대한 상기 한 쌍의 가중치(αT, αA)를 연산하는 단계를 포함하는,감정 인식 방법
7 7
제6항에 있어서, 상기 한 쌍의 가중치(αT, αA)는 문장 가중치(αT) 및 음성 가중치(αA)를 포함하고, 상기 한 쌍의 쿼리 벡터(qT, qA)는 문장 쿼리 벡터(qT) 및 음성 쿼리 벡터(qA)를 포함하고,상기 한 쌍의 가중치(αT, αA)를 연산하는 단계는,상기 문장 쿼리 벡터(qT) 및 상기 문장 표현 데이터(HT)에 기반하여 상기 문장 가중치(αT)를 결정하는 단계; 및상기 음성 쿼리 벡터(qA) 및 상기 음성 표현 데이터(HA)에 기반하여 상기 음성 가중치(αA)를 결정하는 단계를 포함하는,감정 인식 방법
8 8
제6항에 있어서, 상기 한 쌍의 가중치(αT, αA)는 문장 가중치(αT) 및 음성 가중치(αA)를 포함하고,상기 교차 어텐션 모델을 연산하는 단계는,상기 문장 가중치(αT)에 기반하여 상기 문장 표현 데이터(HT)를 가중합하여 제1 컨텍스트 벡터(CTT)를 연산하는 제1 연산 단계; 및상기 음성 가중치(αA)에 기반하여 상기 음성 표현 데이터(HA)를 가중합하여 제2 컨텍스트 벡터(CAA)를 연산하는 제2 연산 단계를 포함하는,감정 인식 방법
9 9
제8항에 있어서, 상기 교차 어텐션 모델을 연산하는 단계는,상기 문장 가중치(αT)에 기반하여 상기 음성 표현 데이터(HA)를 가중합하여 제3 컨텍스트 벡터(CTA)를 연산하는 제3 연산 단계; 및상기 음성 가중치(αA)에 기반하여 상기 문장 표현 데이터(HT)를 가중합하여 제4 컨텍스트 벡터(CAT)를 연산하는 제4 연산 단계를 더 포함하는,감정 인식 방법
10 10
제9항에 있어서,상기 제3 연산 단계 및 상기 제4 연산 단계는, 상기 문장 가중치(αT) 및 상기 음성 가중치(αA)에 대하여 각각 스톱-그래디언트 함수(stop gradient function; sg)를 적용하는,감정 인식 방법
11 11
제1항에 있어서,상기 감정 예측 결과()에 기반하여 정의되는 손실 함수를 이용하여 상기 교차 어텐션 모델을 훈련하는 단계를 더 포함하는,감정 인식 방법
12 12
제11항에 있어서,상기 컨텍스트 벡터(CTT, CTA, CAT, CAA)는 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)가 상기 한 쌍의 가중치(αT, αA)와 각각 정렬된 제1 컨텍스트 벡터(CTT)와 제2 컨텍스트 벡터(CAA), 및 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)가 상기 한 쌍의 가중치(αT, αA)와 각각 교차된 제3 컨텍스트 벡터(CTA)와 제4 컨텍스트 벡터(CAT) 포함하고,상기 손실 함수는,상기 제1 컨텍스트 벡터(CTT), 상기 제2 컨텍스트 벡터(CAA), 상기 제3 컨텍스트 벡터(CTA) 및 상기 제4 컨텍스트 벡터(CAT)에 기반한 제3 감정 예측 결과() 및 제1 손실 함수(Lalign)에 기반한 제2 손실 함수(Ltotal)를 포함하고,상기 제1 손실 함수(Lalign)는, 상기 제1 컨텍스트 벡터(CTT)에 기반한 제1 감정 예측 결과() 및 상기 제2 컨텍스트 벡터(CAA)에 기반한 제2 감정 예측 결과() 에 기반한 손실 함수인감정 인식 방법
13 13
제1항에 있어서,최종 감정 예측 결과()를 이용하여 발화에 내재된 감정을 예측하는 단계를 더 포함하고,상기 최종 감정 예측 결과()는, 상기 컨텍스트 벡터(CTT, CTA, CAT, CAA)에 기반하여 연산되는 상기 감정 예측 결과()에 기반하여 결정되는,감정 인식 방법
14 14
발화에 내재된 감정을 예측하기 위한 교차 어텐션 모델을 저장하는 메모리; 및 상기 메모리와 연결된 프로세서를 포함하고, 상기 프로세서는,발화에 대응하는 오디오 데이터 및 상기 발화를 나타내는 하나 이상의 단어를 포함하는 텍스트 데이터를 획득하고,상기 오디오 데이터가 상기 텍스트 데이터와 정렬되도록 상기 하나 이상의 단어의 발화 구간에 따라 상기 오디오 데이터를 하나 이상의 오디오 세그먼트로 분할하고,상기 하나 이상의 단어로부터 상기 텍스트 데이터에 대한 문장 표현 데이터(HT)를 추출하고,상기 하나 이상의 오디오 세그먼트로부터 상기 오디오 데이터에 대한 음성 표현 데이터(HA)를 추출하고,학습가능한 한 쌍의 가중치(αT, αA)에 기반하여 상기 문장 표현 데이터(HT) 및 상기 음성 표현 데이터(HA)에 대한 상기 교차 어텐션 모델을 연산하고,상기 교차 어텐션 모델의 연산의 결과로 얻은 컨텍스트 벡터(CTT, CTA, CAT, CAA)에 기반하여 감정 예측 결과()를 연산하도록 구성되는,감정 인식 장치
15 15
제14항에 있어서, 상기 프로세서는,상기 텍스트 데이터와 상기 오디오 데이터 간의 정렬 정보에 기반하여 상기 오디오 세그먼트를 생성하도록 더 구성되고,상기 정렬 정보는, 상기 하나 이상의 단어와 상기 하나 이상의 오디오 세그먼트가 상기 발화에서 순차적으로 서로 대응되는 시간 구간을 나타내도록 하는 상기 오디오 데이터의 분할 위치 정보를 포함하는,감정 인식 장치
16 16
제14항에 있어서, 상기 프로세서는,상기 교차 어텐션 모델을 연산하기 위하여,한 쌍의 쿼리 벡터(qT, qA)를 이용하여 상기 문장 표현 데이터(HT) 및 상기 음성 표현 데이터(HA)에 대한 상기 한 쌍의 가중치(αT, αA)를 연산하도록 더 구성되는,감정 인식 장치
17 17
제16항에 있어서, 상기 한 쌍의 가중치(αT, αA)는 문장 가중치(αT) 및 음성 가중치(αA)를 포함하고,상기 프로세서는,상기 교차 어텐션 모델을 연산하기 위하여,상기 문장 가중치(αT)에 기반하여 상기 문장 표현 데이터(HT)를 가중합하여 제1 컨텍스트 벡터(CTT)를 연산하는 제1 연산 단계,상기 음성 가중치(αA)에 기반하여 상기 음성 표현 데이터(HA)를 가중합하여 제2 컨텍스트 벡터(CAA)를 연산하는 제2 연산 단계,상기 문장 가중치(αT)에 기반하여 상기 음성 표현 데이터(HA)를 가중합하여 제3 컨텍스트 벡터(CTA)를 연산하는 제3 연산 단계, 및상기 음성 가중치(αA)에 기반하여 상기 문장 표현 데이터(HT)를 가중합하여 제4 컨텍스트 벡터(CAT)를 연산하는 제4 연산 단계를 수행하도록 더 구성되는,감정 인식 장치
18 18
제17항에 있어서,상기 프로세서는,상기 제3 연산 단계 및 상기 제4 연산 단계에서, 상기 문장 가중치(αT) 및 상기 음성 가중치(αA)에 대하여 각각 스톱-그래디언트 함수(stop gradient function; sg)를 적용하도록 더 구성되는,감정 인식 장치
19 19
제14항에 있어서,상기 프로세서는,상기 감정 예측 결과()에 기반하여 정의되는 손실 함수를 이용하여 상기 교차 어텐션 모델을 훈련하도록 더 구성되는,감정 인식 장치
20 20
제19항에 있어서,상기 컨텍스트 벡터(CTT, CTA, CAT, CAA)는 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)가 상기 한 쌍의 가중치(αT, αA)와 각각 정렬된 제1 컨텍스트 벡터(CTT)와 제2 컨텍스트 벡터(CAA), 및 상기 문장 표현 데이터(HT)와 상기 음성 표현 데이터(HA)가 상기 한 쌍의 가중치(αT, αA)와 각각 교차된 제3 컨텍스트 벡터(CTA)와 제4 컨텍스트 벡터(CAT) 포함하고,상기 손실 함수는,상기 제1 컨텍스트 벡터(CTT), 상기 제2 컨텍스트 벡터(CAA), 상기 제3 컨텍스트 벡터(CTA) 및 상기 제4 컨텍스트 벡터(CAT)에 기반한 제3 감정 예측 결과() 및 제1 손실 함수(Lalign)에 기반한 제2 손실 함수(Ltotal)를 포함하고,상기 제1 손실 함수(Lalign)는, 상기 제1 컨텍스트 벡터(CTT)에 기반한 제1 감정 예측 결과() 및 상기 제2 컨텍스트 벡터(CAA)에 기반한 제2 감정 예측 결과() 에 기반한 손실 함수인,감정 인식 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 산업통상자원부 서울대학교 산학협력단 로봇산업융합핵심기술개발사업(R&D) 대화 상황과 감정 인지형 인공지능 대화 시스템 개발