1 |
1
입력영상을 수신하는 영상 입력부;미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 학습장치
|
2 |
2
제1항에 있어서,상기 영상 처리부는,상기 제1 시간간격 동안의 상기 입술영상 및 상기 패치영상의 길이를 조절하여 N개의 프레임들로 나누는 라벨 변형기를 포함하는 것을 특징으로 하는 음성인식 학습장치
|
3 |
3
제2항에 있어서,상기 라벨 변형기는, 상기 제1 시간간격 동안의 상기 입술영상 및 상기 패치영상의 길이를 조절하여 길이조절 입술영상 및 길이조절 패치영상을 제공하는 영상길이 조절기; 및 상기 길이조절 입술영상 및 상기 길이조절 패치영상을 각각 N개의 프레임들로 나누어 상기 프레임 입술영상 및 상기 프레임 패치영상을 제공하는 프레임 영상 제공기를 포함하는 것을 특징으로 하는 음성인식 학습장치
|
4 |
4
제3항에 있어서,상기 입술영상의 길이를 조절하여 상기 입술영상의 길이가 증가하는 경우, 상기 패치영상의 길이를 조절하여 상기 패치영상의 길이가 증가되는 것을 특징으로 하는 음성인식 학습장치
|
5 |
5
제3항에 있어서,상기 입술영상의 길이를 조절하여 상기 입술영상의 길이가 감소하는 경우, 상기 패치영상의 길이를 조절하여 상기 패치영상의 길이가 감소되는 것을 특징으로 하는 음성인식 학습장치
|
6 |
6
제3항에 있어서,상기 컨볼루션 뉴럴 네트워크는 제1 컨볼루션 뉴럴 네트워크 및 제2 컨볼루션 뉴럴 네트워크를 포함하는 것을 특징으로 하는 음성인식 학습장치
|
7 |
7
제6항에 있어서,상기 제1 컨볼루션 뉴럴 네트워크는 상기 프레임 입술영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 학습하는 것을 특징으로 하는 음성인식 학습장치
|
8 |
8
제6항에 있어서, 상기 제2 컨볼루션 뉴럴 네트워크는 상기 프레임 패치영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 학습하는 것을 특징으로 하는 음성인식 학습장치
|
9 |
9
입력영상을 수신하는 영상 입력부; 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 장치
|
10 |
10
제9항에 있어서, 상기 컨볼루션 뉴럴 네트워크는 제1 컨볼루션 뉴럴 네트워크 및 제2 컨볼루션 뉴럴 네트워크를 포함하는 것을 특징으로 하는 음성인식 장치
|
11 |
11
제10항에 있어서,상기 제1 컨볼루션 뉴럴 네트워크는 상기 프레임 입술영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 결정하는 것을 특징으로 하는 음성인식 장치
|
12 |
12
제11항에 있어서,상기 제2 컨볼루션 뉴럴 네트워크는 상기 프레임 패치영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 결정하는 것을 특징으로 하는 음성인식 장치
|
13 |
13
제12항에 있어서, 상기 제1 컨볼루션 뉴럴 네트워크로부터 결정되는 음성정보에 상응하는 제1 확률 및 상기 제2 컨볼루션 뉴럴 네트워크로부터 결정되는 음성정보에 상응하는 제2 확률의 합에 기초하여 음성인식 결과가 결정되는 것을 특징으로 하는 음성인식 장치
|
14 |
14
영상 입력부가 입력영상을 수신하는 단계;영상 처리부가 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 단계; 컨볼루션 뉴럴 네트워크가 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습하는 단계를 포함하는 음성인식 학습장치의 동작방법
|
15 |
15
영상 입력부가 입력영상을 수신하는 단계; 영상 처리부가 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 단계; 및 컨볼루션 뉴럴 네트워크가 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정하는 단계를 포함하는 음성인식 장치의 동작방법
|
16 |
16
입력영상을 수신하는 영상 입력부;미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 학습장치
|
17 |
17
입력영상을 수신하는 영상 입력부; 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 장치
|