맞춤기술찾기

이전대상기술

음성인식 장치 및 음성인식 장치의 동작방법

  • 기술번호 : KST2020017129
  • 담당센터 : 서울서부기술혁신센터
  • 전화번호 : 02-6124-6930
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명의 실시예에 따른 음성인식 학습장치는 영상 입력부, 영상 처리부 및 컨볼루션 뉴럴 네트워크를 포함할 수 있다. 영상 입력부는 입력영상을 수신할 수 있다. 영상 처리부는 미리 정해진 제1 시간간격 동안의 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나눌 수 있다. 컨볼루션 뉴럴 네트워크는 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 입술의 모양에 상응하는 음성정보를 학습할 수 있다. 본 발명에 따른 음성인식 장치에서는 화자의 입술영상 뿐만 아니라, 입술의 정해진 위치에 배치되는 랜드마크의 주변영상인 패치영상을 이용하여 컨볼루션 뉴럴 네트워크(Convolution Neural Network, CNN)를 학습시킴으로써 음성인식 성능을 향상시킬 수 있다.
Int. CL G10L 15/25 (2013.01.01) G06T 3/40 (2006.01.01) G06T 7/00 (2017.01.01) G06N 20/00 (2019.01.01)
CPC G10L 15/25(2013.01) G06T 3/40(2013.01) G06T 7/00(2013.01) G06N 20/00(2013.01) G06T 2207/20084(2013.01) G06T 2207/20081(2013.01)
출원번호/일자 1020190068439 (2019.06.11)
출원인 서강대학교산학협력단
등록번호/일자
공개번호/일자 10-2020-0142131 (2020.12.22) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2019.06.11)
심사청구항수 16

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 서강대학교산학협력단 대한민국 서울특별시 마포구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 박형민 서울특별시 강남구
2 박래홍 서울특별시 영등포구
3 장동원 서울특별시 강동구
4 제창수 서울특별시 서대문구
5 김홍인 경상북도 문경시

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 이준영 대한민국 서울특별시 강남구 테헤란로 *** **층 ****호(두리국제특허법률사무소)
2 성원찬 대한민국 서울특별시 강남구 테헤란로 ***, **층(역삼동, 삼성제일빌딩) ****호(두리국제특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2019.06.11 수리 (Accepted) 1-1-2019-0592579-45
2 [대리인해임]대리인(대표자)에 관한 신고서
[Dismissal of Sub-agent] Report on Agent (Representative)
2020.06.18 수리 (Accepted) 1-1-2020-0628209-70
3 의견제출통지서
Notification of reason for refusal
2020.07.30 발송처리완료 (Completion of Transmission) 9-5-2020-0517357-95
4 [거절이유 등 통지에 따른 의견]의견서·답변서·소명서
2020.09.04 수리 (Accepted) 1-1-2020-0936604-93
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2020.09.04 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2020-0936605-38
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
입력영상을 수신하는 영상 입력부;미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 학습장치
2 2
제1항에 있어서,상기 영상 처리부는,상기 제1 시간간격 동안의 상기 입술영상 및 상기 패치영상의 길이를 조절하여 N개의 프레임들로 나누는 라벨 변형기를 포함하는 것을 특징으로 하는 음성인식 학습장치
3 3
제2항에 있어서,상기 라벨 변형기는, 상기 제1 시간간격 동안의 상기 입술영상 및 상기 패치영상의 길이를 조절하여 길이조절 입술영상 및 길이조절 패치영상을 제공하는 영상길이 조절기; 및 상기 길이조절 입술영상 및 상기 길이조절 패치영상을 각각 N개의 프레임들로 나누어 상기 프레임 입술영상 및 상기 프레임 패치영상을 제공하는 프레임 영상 제공기를 포함하는 것을 특징으로 하는 음성인식 학습장치
4 4
제3항에 있어서,상기 입술영상의 길이를 조절하여 상기 입술영상의 길이가 증가하는 경우, 상기 패치영상의 길이를 조절하여 상기 패치영상의 길이가 증가되는 것을 특징으로 하는 음성인식 학습장치
5 5
제3항에 있어서,상기 입술영상의 길이를 조절하여 상기 입술영상의 길이가 감소하는 경우, 상기 패치영상의 길이를 조절하여 상기 패치영상의 길이가 감소되는 것을 특징으로 하는 음성인식 학습장치
6 6
제3항에 있어서,상기 컨볼루션 뉴럴 네트워크는 제1 컨볼루션 뉴럴 네트워크 및 제2 컨볼루션 뉴럴 네트워크를 포함하는 것을 특징으로 하는 음성인식 학습장치
7 7
제6항에 있어서,상기 제1 컨볼루션 뉴럴 네트워크는 상기 프레임 입술영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 학습하는 것을 특징으로 하는 음성인식 학습장치
8 8
제6항에 있어서, 상기 제2 컨볼루션 뉴럴 네트워크는 상기 프레임 패치영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 학습하는 것을 특징으로 하는 음성인식 학습장치
9 9
입력영상을 수신하는 영상 입력부; 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 장치
10 10
제9항에 있어서, 상기 컨볼루션 뉴럴 네트워크는 제1 컨볼루션 뉴럴 네트워크 및 제2 컨볼루션 뉴럴 네트워크를 포함하는 것을 특징으로 하는 음성인식 장치
11 11
제10항에 있어서,상기 제1 컨볼루션 뉴럴 네트워크는 상기 프레임 입술영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 결정하는 것을 특징으로 하는 음성인식 장치
12 12
제11항에 있어서,상기 제2 컨볼루션 뉴럴 네트워크는 상기 프레임 패치영상에 기초하여 상기 입술 모양에 상응하는 음성정보를 결정하는 것을 특징으로 하는 음성인식 장치
13 13
제12항에 있어서, 상기 제1 컨볼루션 뉴럴 네트워크로부터 결정되는 음성정보에 상응하는 제1 확률 및 상기 제2 컨볼루션 뉴럴 네트워크로부터 결정되는 음성정보에 상응하는 제2 확률의 합에 기초하여 음성인식 결과가 결정되는 것을 특징으로 하는 음성인식 장치
14 14
영상 입력부가 입력영상을 수신하는 단계;영상 처리부가 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 단계; 컨볼루션 뉴럴 네트워크가 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습하는 단계를 포함하는 음성인식 학습장치의 동작방법
15 15
영상 입력부가 입력영상을 수신하는 단계; 영상 처리부가 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술영상 및 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 단계; 및 컨볼루션 뉴럴 네트워크가 상기 입술영상을 N개의 프레임들로 나눈 프레임 입술영상 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정하는 단계를 포함하는 음성인식 장치의 동작방법
16 16
입력영상을 수신하는 영상 입력부;미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성정보를 학습하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 학습장치
17 17
입력영상을 수신하는 영상 입력부; 미리 정해진 제1 시간간격 동안의 상기 입력영상에 포함되는 입술의 정해진 위치에 상응하는 랜드마크의 주변영상에 해당하는 패치영상을 각각 N(N은 자연수)개의 프레임들로 나누는 영상 처리부; 및 상기 패치영상을 N개의 프레임들로 나눈 프레임 패치영상에 기초하여 상기 입술의 모양에 상응하는 음성인식 결과를 결정하는 컨볼루션 뉴럴 네트워크를 포함하는 음성인식 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 서강대학교 산학협력단 이공분야기초연구사업 시청각 정보에 대한 멀티모달 딥러닝 기반의 강인한 연속음성인식 기술 개발