1 |
1
입력 영상으로부터 립 랜드마크(lip landmark)를 감지하고, 감지된 립 랜드마크의 영상 발화 시점/종점 및 음성 발화 시점/종점을 설정하는 단계; 및 설정된 음성 발화 시점/종점 및 영상 발화 시점/종점을 딥러닝 모델에 기초하여 단어를 분류하는 단계를 포함하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 방법
|
2 |
2
제1항에 있어서,입력 영상으로부터 립 랜드마크를 감지하고, 감지된 립 랜드마크의 영상 발화 시점/종점 및 음성 발화 시점/종점을 설정하는 단계는, 립 랜드마크의 영상 발화 시점/종점을 설정하기 위해 광 흐름(Optical Flow), 입술 사이 거리 및 입술 내부 면적을 분석하여 단위 프레임 내 분산을 구하고, 발화 절정 구간을 설정하여 영상 발화 시점/종점 구간 및 신뢰도를 설정하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 방법
|
3 |
3
제1항에 있어서,입력 영상으로부터 립 랜드마크를 감지하고, 감지된 립 랜드마크의 영상 발화 시점/종점 및 음성 발화 시점/종점을 설정하는 단계는, 음성 발화 시점/종점을 설정하기 위해 서브 샘플링(Sub Sampling), 잡음제어(Denoising) 및 프리엠퍼시스(Pre Emphasis)를 수행하여 음성 발화 시점/종점 구간 및 신뢰도를 설정하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 방법
|
4 |
4
제1항에 있어서,설정된 음성 발화 시점/종점 및 영상 발화 시점/종점을 딥러닝 모델에 기초하여 단어를 분류하는 단계는, 멀티플 타워 네트워크(multiple tower network)에 배치 정규화(batch normalization) 기술을 추가로 적용하여 분류하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 방법
|
5 |
5
제1항에 있어서,설정된 음성 발화 시점/종점 및 영상 발화 시점/종점을 딥러닝 모델에 기초하여 단어를 분류하는 단계는, 프레임 단위의 데이터 증강을 위해 복수의 형태의 프레임들에 초점을 둔 데이터 증강 작업을 추가로 수행하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 방법
|
6 |
6
제1항에 있어서,설정된 음성 발화 시점/종점 및 영상 발화 시점/종점을 딥러닝 모델에 기초하여 단어를 분류하는 단계는, 프레임 설정 환경에 따라 각 입력 영상에 대해 병렬적으로 분류를 수행하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 방법
|
7 |
7
입력 영상으로부터 립 랜드마크(lip landmark)를 감지하고, 감지된 립 랜드마크의 영상 발화 시점/종점 및 음성 발화 시점/종점을 설정하는 전처리부; 및 설정된 음성 발화 시점/종점 및 영상 발화 시점/종점을 딥러닝 모델에 기초하여 단어를 분류하는 분류부를 포함하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
|
8 |
8
제7항에 있어서, 전처리부는, 립 랜드마크의 영상 발화 시점/종점을 설정하기 위해 광 흐름(Optical Flow), 입술 사이 거리 및 입술 내부 면적을 분석하여 단위 프레임 내 분산을 구하고, 발화 절정 구간을 설정하여 영상 발화 시점/종점 구간 및 신뢰도를 설정하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
|
9 |
9
제7항에 있어서, 전처리부는, 음성 발화 시점/종점을 설정하기 위해 서브 샘플링(Sub Sampling), 잡음제어(Denoising) 및 프리엠퍼시스(Pre Emphasis)를 수행하여 음성 발화 시점/종점 구간 및 신뢰도를 설정하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
|
10 |
10
제7항에 있어서, 분류부는, 멀티플 타워 네트워크(multiple tower network)에 배치 정규화(batch normalization) 기술을 추가로 적용하여 분류하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
|
11 |
11
제7항에 있어서, 분류부는, 프레임 단위의 데이터 증강을 위해 복수의 형태의 프레임들에 초점을 둔 데이터 증강 작업을 추가로 수행하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
|
12 |
12
제7항에 있어서, 분류부는, 프레임 설정 환경에 따라 각 입력 영상에 대해 병렬적으로 분류를 수행하는 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
|