1 |
1
음성 감정 인식 및 합성의 반복 학습 장치를 이용한 음성 감정 인식 및 합성의 반복 학습 방법에 있어서, 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 딥러닝 기반의 텍스트 음성 합성(Text-to-Speech; TTS) 모듈에 입력하는 단계; 상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계; 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(Speech-to-Text; STT) 모듈, 음성 화자 인식(Speaker Identification; SI) 모듈 및 음성 감정 인식(Speech Emotion Recognition; SER) 모듈 중 적어도 어느 하나 이상에 입력하는 단계; 및 상기 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상의 모듈을 통해 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계를 포함하는, 음성 감정 인식 및 합성의 반복 학습 방법
|
2 |
2
제1항에 있어서, 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계는, 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보와 비교하여, 반복 일관성(Cyclic Consistency)을 가지도록 손실(Loss)을 활용하여 유지시키는 것을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 방법
|
3 |
3
제1항에 있어서,상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계는, 상기 텍스트 음성 합성(TTS) 모듈을 통해 변환된 상기 음성 정보를 타겟 음성과의 차이를 손실(Loss)로 주어 텍스트 음성 합성(TTS) 모듈의 학습에 활용하는 것을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 방법
|
4 |
4
제1항에 있어서,상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환하는 단계는, 상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환함에 따라 다양한 음성 정보를 생성하여 상기 음성 인식(STT) 모듈 및 상기 음성 감정 인식(SER) 모듈의 감정을 학습시킬 음성 데이터의 양을 증강시키는 것을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 방법
|
5 |
5
제1항에 있어서,변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈 중 적어도 어느 하나 이상에 입력하는 단계는, 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈에 각각 입력하고, 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 단계는, 상기 음성 인식(STT) 모듈을 통해 텍스트(Text)에 대한 출력 정보를 생성하고, 상기 음성 화자 인식(SI) 모듈을 통해 화자(ID)에 대한 출력 정보를 생성하며, 상기 음성 감정 인식(SER) 모듈을 통해 감정(Style)에 대한 출력 정보를 생성하는 것을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 방법
|
6 |
6
제1항에 있어서,상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 단계; 및 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 단계를 더 포함하는, 음성 감정 인식 및 합성의 반복 학습 방법
|
7 |
7
제1항에 있어서,상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 단계; 및 학습된 상기 음성 화자 인식(SI) 모듈을 고정시킨 상태에서, 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 단계를 더 포함하는, 음성 감정 인식 및 합성의 반복 학습 방법
|
8 |
8
텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보를 입력 받아 딥러닝 기반의 텍스트 음성 합성(Text-to-Speech; TTS) 모듈을 통해 음성 정보로 변환하는 음성 합성부; 및 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(Speech-to-Text; STT) 모듈, 음성 화자 인식(Speaker Identification; SI) 모듈 및 음성 감정 인식(Speech Emotion Recognition; SER) 모듈 중 적어도 어느 하나 이상에서 입력 받아 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 생성하는 음성 인식부를 포함하는, 음성 감정 인식 및 합성의 반복 학습 장치
|
9 |
9
제8항에 있어서, 상기 음성 인식부는, 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 출력 정보를 상기 텍스트(Text), 화자(ID) 및 감정(Style)에 대한 입력 정보와 비교하여, 반복 일관성(Cyclic Consistency)을 가지도록 손실(Loss)을 활용하여 유지시키는 것을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 장치
|
10 |
10
제8항에 있어서,상기 음성 합성부는, 상기 텍스트 음성 합성(TTS) 모듈을 통해 변환된 상기 입력 음성은 타겟 음성과의 차이를 손실(Loss)로 주어 텍스트 음성 합성(TTS) 모듈 학습에 활용하는 것을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 장치
|
11 |
11
제8항에 있어서,상기 음성 합성부는, 상기 입력 정보를 상기 텍스트 음성 합성(TTS) 모듈을 통해 음성 정보로 변환함에 따라 다양한 음성 정보를 생성하여 상기 음성 인식(STT) 모듈 및 상기 음성 감정 인식(SER) 모듈의 감정을 학습시킬 음성 데이터의 양을 증강시키는 것을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 장치
|
12 |
12
제8항에 있어서,상기 음성 인식부는, 변환된 상기 음성 정보를 딥러닝 기반의 음성 인식(STT) 모듈, 음성 화자 인식(SI) 모듈 및 음성 감정 인식(SER) 모듈에 각각 입력하고, 상기 음성 인식(STT) 모듈을 통해 텍스트(Text)에 대한 출력 정보를 생성하고, 상기 음성 화자 인식(SI) 모듈을 통해 화자(ID)에 대한 출력 정보를 생성하며, 상기 음성 감정 인식(SER) 모듈을 통해 감정(Style)에 대한 출력 정보를 생성하는 것을 특징으로 하는, 음성 감정 인식 및 합성의 반복 학습 장치
|
13 |
13
제8항에 있어서,상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 학습부; 및 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 미세 조정부를 더 포함하는, 음성 감정 인식 및 합성의 반복 학습 장치
|
14 |
14
제8항에 있어서,상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 개별적으로 학습시키는 학습부; 및학습된 상기 음성 화자 인식(SI) 모듈을 고정시킨 상태에서, 학습된 상기 텍스트 음성 합성(TTS) 모듈, 상기 음성 인식(STT) 모듈, 상기 음성 화자 인식(SI) 모듈 및 상기 음성 감정 인식 모듈을 미세 조정(fine tuning)하는 미세 조정부를 더 포함하는, 음성 감정 인식 및 합성의 반복 학습 장치
|