1 |
1
수어 영상으로부터 수어 사용자의 표정, 시선, 수어 동작의 크기, 속도로 전달되는 감정 또는 의도를 나타내는 비언어적 수어정보를 획득하고, 상기 비언어적 수어정보를 음성의 속도, 음색, 어조, 크기로 전달되는 비언어-음성표현으로 변환하는 비언어-음성표현 변환모듈; 및 상기 수어 영상을 음성문장으로 번역하고, 상기 음성문장에 기초하여 대화형음성을 생성하여 출력하는 수어-음성 번역모듈을 포함하며,상기 비언어-음성표현 변환모듈은 얼굴 인식 및 모션 인식을 통하여 상기 수어 영상으로부터 수어 사용자의 감정 또는 의도를 추론하기 위한 수어 사용자의 표정, 시선, 수어 동작의 크기, 속도를 포함하는 정보를 추출하고, 추출한 정보에 기초하여 상기 수어 사용자의 감정 또는 의도의 종류를 라벨링하고 크기를 수치화하여 비언어적 수어정보를 획득하는 비언어적 수어정보 획득부; 및 상기 비언어적 수어정보를 음성 언어의 비언어적 표현에 해당하는 음성의 속도, 음색, 어조, 크기로 변환하되, 인식가능한 감정 또는 의도의 종류 및 크기를 전체 벡터공간으로 하고 상기 비언어적 수어정보에 포함된 감정 또는 의도의 종류 및 크기를 지시하도록 형성된 One-Hot Vector 형태의 특성벡터로 비언어-음성표현을 생성하는 비언어-음성표현 특징 변환부를 포함하고,상기 수어-음성 번역모듈은 수어 영상을 입력받아 수어를 글로스의 시퀀스로 출력하도록 학습된 제1 딥러닝 신경망 네트워크를 이용하여, 상기 수어 영상에 포함된 복수의 연속적인 동작들을 글로스의 시퀀스로 인식하는 글로스 인식부와, 수어의 문법에 따른 글로스의 시퀀스를 입력받아 음성 언어의 문법에 따른 음성문장으로 출력하도록 학습된 제2 딥러닝 신경망 네트워크를 이용하여, 상기 글로스 인식부가 인식한 글로스의 시퀀스로 이루어진 수어문장을 음성문장으로 번역하는 글로스-음성문장 번역부를 포함하는 수어-음성문장 번역부; 및 음성문장과 비언어-음성표현을 입력받아 대화형음성을 생성하도록 학습된 제3 딥러닝 신경망 네트워크를 이용하여, 상기 수어-음성문장 번역부에서 번역한 상기 음성문장과 상기 비언어-음성표현 특징 변환부가 생성한 상기 비언어-음성표현을 입력받아 상기 제3 딥러닝 신경망 네트워크에 입력하여, 상기 수어 사용자의 감정 또는 의도가 청각적으로 나타나도록 상기 비언어-음성표현이 반영되어 음성의 속도, 음색, 어조, 크기가 변형된 대화형음성을 생성하는 대화형음성 합성부를 포함하고,상기 글로스는 하나 또는 복수의 동작의 연속으로 이루어지는 수어의 의미단위이고,상기 글로스의 시퀀스는 복수의 글로스가 수어 문법에 따라 순서대로 나열되는 것이며,상기 제1 딥러닝 신경망 네트워크는 순환 신경망 구조로 이루어진 인코더와 순환 신경망 구조로 이루어진 디코더를 포함하는 시퀀스 투 시퀀스 구조를 갖고, 입력이 수어 영상에서 수어 사용자의 신체의 특징점들을 추출하고 시간의 흐름에 따라 변화하는 특징점들의 좌표값을 순서대로 나열한 데이터이고 정답이 글로스의 시퀀스인 학습데이터를 이용하여 학습되는 것이고, 상기 제2 딥러닝 신경망 네트워크는 순환 신경망 구조로 이루어진 인코더와 순환 신경망 구조로 이루어진 디코더를 포함하는 시퀀스 투 시퀀스 구조를 갖고, 입력이 글로스의 시퀀스이고 정답이 단어의 시퀀스로 이루어진 음성문장인 학습데이터를 이용하여 학습되는 것인, 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치
|
2 |
2
삭제
|
3 |
3
삭제
|
4 |
4
삭제
|
5 |
5
삭제
|
6 |
6
청구항 1에 있어서, 상기 대화형음성 합성부는 목소리의 성별을 포함하는 사용자 설정 취향을 상기 대화형음성에 더 반영하는, 사용자의 감정 또는 의도를 반영한 대화형 수어-음성 번역 장치
|
7 |
7
음성으로부터 음성 언어 사용자의 음성의 속도, 음색, 어조, 크기로 전달되는 감정 또는 의도를 나타내는 비언어적 음성정보를 획득하고, 상기 비언어적 음성정보를 표정, 시선, 수어 동작의 크기, 속도로 전달되는 비언어-수어표현으로 변환하는 비언어-수어표현 변환모듈; 및 상기 음성을 수어문장으로 변환하고, 상기 수어문장에 기초하여 대화형수어영상을 생성하여 출력하는 음성-수어 번역모듈을 포함하며, 상기 비언어-수어표현 변환모듈은 상기 음성으로부터 음성 언어 사용자의 감정 또는 의도를 추론하기 위한 음성의 속도, 음색, 어조, 크기를 포함하는 사운드-기반 비언어 정보를 추출하고, 상기 음성 이외에 음성 언어 사용자를 촬영한 영상으로부터 음성 언어 사용자의 감정 또는 의도를 추론하기 위한 표정, 시선을 포함하는 영상-기반 비언어 정보를 추출하고, 추출한 사운드-기반 비언어 정보와 영상-기반 비언어 정보에 기초하여 상기 음성 언어 사용자의 감정 또는 의도의 종류를 라벨링하고 크기를 수치화하여 비언어적 음성정보를 획득하는 비언어적 음성정보 획득부; 및 상기 비언어적 음성정보를 수어의 비언어적 표현에 해당하는 표정, 시선, 수어 동작의 크기, 속도로 변환하되, 인식가능한 감정 또는 의도의 종류 및 크기를 전체 벡터공간으로 하고 상기 비언어적 음성정보에 포함된 감정 또는 의도의 종류 및 크기를 지시하도록 형성된 One-Hot Vector 형태의 특성벡터로 비언어-수어표현을 생성하는 비언어-수어표현 특징 변환부를 포함하고,상기 음성-수어 번역모듈은 음성을 입력받아 음성 문장을 생성하도록 학습된 제4 딥러닝 신경망 네트워크를 이용하여, 음성을 음성문장으로 STT 변환하는 음성문장 인식부; 및 입력이 음성문장이고 정답이 글로스의 시퀀스로 이루어진 학습데이터로 학습된 제5 딥러닝 신경망 네트워크를 이용하여, 상기 음성문장을 입력받아 수어의 의미단위인 글로스의 시퀀스로 이루어진 수어문장으로 번역하는 음성문장-글로스 번역부와, 상기 수어문장에 상기 비언어-수어표현을 반영하여 상기 음성 언어 사용자의 감정 또는 의도가 시각적으로 나타나도록 표정, 시선, 수어 동작의 크기, 속도가 변형된 대화형수어영상을 합성하여 출력하는 대화형수어영상 합성부를 포함하는 음성문장-수어 번역부를 포함하고,상기 글로스는 하나 또는 복수의 동작의 연속으로 이루어지는 수어의 의미단위이고,상기 글로스의 시퀀스는 복수의 글로스가 수어 문법에 따라 순서대로 나열되는 것이고,상기 제4 딥러닝 신경망 네트워크는 시퀀스 투 시퀀스 기반으로, 입력이 음성이고 정답이 음성 언어 단어의 시퀀스로 이루어진 음성문장인 학습데이터로 학습되는 것인, 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치
|
8 |
8
삭제
|
9 |
9
삭제
|
10 |
10
삭제
|
11 |
11
삭제
|
12 |
12
삭제
|
13 |
13
청구항 7에 있어서,상기 대화형수어영상 합성부는 생성 모델(Generative model)에 기반하여 상기 글로스에 해당하는 미리 저장된 동작들을 상기 글로스의 시퀀스에 따라 연결하여 대화형수어영상을 합성하되, 상기 비언어-수어표현을 반영하여 표정, 시선, 수어 동작의 크기, 속도가 변형된 대화형수어영상을 합성하여 출력하는 것인, 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치
|
14 |
14
청구항 13에 있어서,상기 대화형수어영상 합성부는 사용자 설정 취향을 상기 대화형수어영상에 더 반영하는, 사용자의 감정 또는 의도를 반영한 대화형 음성-수어 번역 장치
|