기술이전플랫폼 Tech-Bridge-이전대상기술

맞춤기술찾기

홈으로 가기

맞춤기술찾기

이전대상기술

프린트하기

이전대상기술

통계적 불확실성 모델링을 활용한 음성 인식 방법 및 장치

기술번호 : KST2021012808
담당센터 : 서울동부기술혁신센터
전화번호 : 02-2155-3662

상담신청 PDF 받기

상세정보
공개전문
공고전문
등록사항
통합행정정보
기술정보
과제정보
관련기술
심판사항

서지정보
인명정보
행정처리
청구항
지정국
패밀리정보
국가R&D 연구정보

요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약	본 발명은 통계적 불확실성 모델링을 활용한 음성 인식 방법에 관한 것으로서, 보다 구체적으로는 음성 인식 방법으로서, (1) 노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-Aware Training) 모델을 구성하는 단계; 및 (2) 상기 단계 (1)에서 구성된 UAT 모델을 이용해 음성 인식을 처리하는 단계를 포함하되, 상기 단계 (1)은, (1-1) 상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하는 CUN (Clean Uncertainty Network)을 학습하여, 음성 불확실성 정보를 출력하는 단계; (1-2) 상기 입력 음성의 특징 및 상기 단계 (1-1)에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (Variational Inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하는 EUN (Environment Uncertainty Network)을 학습하여, 환경 불확실성 정보를 출력하는 단계; (1-3) 상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN(Prediction Network)를 포함하는 UAT 모델을 구성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다. 또한, 본 발명은 통계적 불확실성 모델링을 활용한 음성 인식 장치에 관한 것으로서, 보다 구체적으로는 음성 인식 장치로서, 노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-aware training) 모델을 구성하는 학습부; 및 상기 학습부에서 구성된 UAT 모델을 이용해 음성 인식을 처리하는 음성 인식부를 포함하되, 상기 UAT 모델은, 상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하며, 음성 불확실성 정보를 출력하는 CUN (Clean Uncertainty Network); 상기 입력 음성의 특징 및 상기 CUN에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (variational inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하고, 환경 불확실성 정보를 출력하는 EUN (Environment Uncertainty Network); 및 상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN (Prediction Network)을 포함하여 구성되는 것을 그 구성상의 특징으로 한다. 본 발명에서 제안하고 있는 통계적 불확실성 모델링을 활용한 음성 인식 방법 및 장치에 따르면, 노이즈에 의해 변형된 입력 음성의 불확실성을 고려하되, 깨끗한 음성 특징의 분포를 나타내는 음성 불확실성 정보와 변분 추론(Variational Inference, VI) 기반으로 잠재변수의 확률 분포를 나타내는 환경 불확실성 정보를 이용해 입력 음성이 가지는 불확실성을 직접적으로 측정하고, 이를 통해 변형된 입력 음성에 대한 불확실성을 효과적으로 반영하도록 학습된 모델을 구성함으로써, 학습 데이터에 없는 잡음이 나타나더라도 우수한 음성 인식 성능을 보일 수 있다.
Int. CL	G10L 15/16 (2006.01.01) G10L 15/14 (2006.01.01) G10L 25/30 (2013.01.01) G06N 3/08 (2006.01.01) G06N 7/00 (2006.01.01)
CPC	G10L 15/16(2013.01) G10L 15/14(2013.01) G10L 25/30(2013.01) G06N 3/08(2013.01) G06N 7/005(2013.01)
출원번호/일자	1020200052981 (2020.04.30)
출원인	서울대학교산학협력단
등록번호/일자
공개번호/일자	10-2021-0134195 (2021.11.09) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태	등록
심사진행상태	수리
심판사항
구분	국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자	Y (2020.04.30)
심사청구항수	10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호	이름	국적	주소
1	서울대학교산학협력단	대한민국	서울특별시 관악구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호	이름	주소
1	김남수	서울특별시 서초구
2	이현승	서울특별시 동작구
3	김민찬	서울특별시 관악구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호	이름	국적	주소
1	김건우	대한민국	서울특별시 구로구 경인로 * 오피스동 층 **호 (신도림동, 디큐브시티)(특허그룹덕원)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호	이름	국적	주소
최종권리자 정보가 없습니다

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서 [Patent Application] Patent Application	2020.04.30	수리 (Accepted)	1-1-2020-0448779-05
2	보정요구서 Request for Amendment	2020.05.13	발송처리완료 (Completion of Transmission)	1-5-2020-0068434-49
3	[출원서 등 보정]보정서(납부자번호) [Amendment to Patent Application, etc.] Amendment(Payer number)	2020.05.20	수리 (Accepted)	1-1-2020-0480934-26
4	출원인정보변경(경정)신고서 Notification of change of applicant's information	2020.11.25	수리 (Accepted)	4-1-2020-5265458-48
5	의견제출통지서 Notification of reason for refusal	2021.07.28	발송처리완료 (Completion of Transmission)	9-5-2021-0597019-66
6	특허고객번호 정보변경(경정)신고서·정정신고서	2021.07.29	수리 (Accepted)	4-1-2021-5205564-29
7	[명세서등 보정]보정서 [Amendment to Description, etc.] Amendment	2021.09.15	보정승인간주 (Regarded as an acceptance of amendment)	1-1-2021-1069759-15

번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호	청구항
1	1 음성 인식 방법으로서,(1) 노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-Aware Training) 모델을 구성하는 단계; 및(2) 상기 단계 (1)에서 구성된 UAT 모델(200)을 이용해 음성 인식을 처리하는 단계를 포함하되,상기 단계 (1)은,(1-1) 상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하는 CUN (Clean Uncertainty Network)(210)을 학습하여, 음성 불확실성 정보를 출력하는 단계;(1-2) 상기 입력 음성의 특징 및 상기 단계 (1-1)에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (Variational Inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하는 EUN (Environment Uncertainty Network)(220)을 학습하여, 환경 불확실성 정보를 출력하는 단계;(1-3) 상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN (Prediction Network)(230)를 포함하는 UAT 모델(200)을 구성하는 단계를 포함하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
2	2 제1항에 있어서, 상기 단계 (1-1)에서는,상기 깨끗한 음성 특징의 분포에 대한 평균 및 로그 분산을 상기 음성 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
3	3 제1항에 있어서, 상기 단계 (1-2)의 EUN(220)은,VAE (Variational Autoencoder)를 변형하여 인코더에서 출력된 잠재변수의 확률 분포를 모델링하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
4	4 제1항에 있어서, 상기 단계 (1-2)에서는,상기 잠재변수의 분포의 평균 및 분산을 상기 환경 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
5	5 제1항에 있어서, 상기 단계 (1-3)에서는,상기 CUN(210), EUN(220) 및 PN(230)을 연결 (concatenation)한 통합 모델을, 상기 입력 음성으로부터 음성 타깃을 추정하도록 학습하여 상기 UAT 모델(200)을 구성하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
6	6 제5항에 있어서, 상기 단계 (1-3)에서는,상기 PN(230)의 손실함수를 이용해 상기 통합 모델을 튜닝하여 성능이 향상된 상기 UAT 모델(200)을 구성하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
7	7 음성 인식 장치(100)로서,노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-aware training) 모델을 구성하는 학습부(110); 및상기 학습부(110)에서 구성된 UAT 모델(200)을 이용해 음성 인식을 처리하는 음성 인식부(120)를 포함하되,상기 UAT 모델(200)은,상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하며, 음성 불확실성 정보를 출력하는 CUN (Clean Uncertainty Network)(210);상기 입력 음성의 특징 및 상기 CUN(210)에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (variational inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하고, 환경 불확실성 정보를 출력하는 EUN (Environment Uncertainty Network)(220); 및상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN (Prediction Network)(230)을 포함하여 구성되는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
8	8 제7항에 있어서, 상기 CUN(210)은,상기 깨끗한 음성 특징의 분포에 대한 평균 및 로그 분산을 상기 음성 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
9	9 제7항에 있어서, 상기 EUN(220)은,VAE (variational autoencoder)를 변형하여 인코더에서 출력된 잠재변수의 확률 분포를 모델링하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
10	10 제7항에 있어서, 상기 EUN(220)은,상기 잠재변수의 분포의 평균 및 분산을 상기 환경 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
11	11 제7항에 있어서, 상기 UAT 모델(200)은,상기 CUN(210), EUN(220) 및 PN(230)을 연결 (concatenation)한 통합 모델로서, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하도록 학습하여 구성되는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
12	12 제11항에 있어서, 상기 UAT 모델(200)은,상기 PN(230)의 손실함수를 이용해 상기 통합 모델을 튜닝하여 성능이 향상된 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)

순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번	연구부처	주관기관	연구사업	연구과제
1	산업통상자원부	한국과학기술원	로봇원천기술	실내용 음성대화 로봇을 위한 원거리 음성인식 기술 및 멀티 태스크 대화처리 기술 개발

본 '원본보기 서비스'는 참고용이므로, 일부 오류 및 누락이 발생할 수 있습니다.
정확한 서류를 확인하시려면 해당 웹사이트에서 조회하시기 바랍니다. (특허로 바로가기: http://www.patent.go.kr)
해당 서비스는 점검으로 인해 매주 일요일 00:00 ~ 02:00까지 이용이 중단됩니다.

번호, 서류명, 접수/발송일자, 처리상태, 접수/발송번호의 정보를 제공하는 이전대상기술 뷰 페이지 통합행정정보 > 등록료란 표입니다.
번호	서류명	접수/발송일자	처리상태	접수/발송번호
1	[특허출원]특허출원서	2020.04.30	수리 (Accepted)	1-1-2020-0448779-05
2	보정요구서	2020.05.13	발송처리완료 (Completion of Transmission)	1-5-2020-0068434-49
3	[출원서 등 보정]보정서(납부자번호)	2020.05.20	수리 (Accepted)	1-1-2020-0480934-26
4	출원인정보변경(경정)신고서	2020.11.25	수리 (Accepted)	4-1-2020-5265458-48
5	의견제출통지서	2021.07.28	발송처리완료 (Completion of Transmission)	9-5-2021-0597019-66
6	특허고객번호 정보변경(경정)신고서·정정신고서	2021.07.29	수리 (Accepted)	4-1-2021-5205564-29
7	[명세서등 보정]보정서	2021.09.15	보정승인간주 (Regarded as an acceptance of amendment)	1-1-2021-1069759-15

중요키워드

이전대상기술 뷰 페이지 관련기술 표
[KST2020011193][서울대학교]	원단의 불량 위치 자동 검출 방법 및 이를 위한 시스템	새창보기
[KST2020017350][서울대학교]	순환형 3차원 완전 합성곱망을 활용한 초분광영상의 변화탐지 방법	새창보기
[KST2019011607][서울대학교]	멀티 모달리티 데이터 복원을 위한 심층 개념망 구축 방법 및 그 시스템	새창보기
[KST2015158890][서울대학교]	ｎｃＲＮＡ 서열의 컴퓨터적 동정 방법	새창보기
[KST2023002151][서울대학교]	뉴럴 렌더링을 위한 저정밀도 하드웨어 가속기 및 그 동작 방법	새창보기
[KST2024000097][서울대학교]	차량의 충돌안전 제어로직의 작동원인을 분석하는 시스템 및 그의 동작 방법	새창보기
[KST2022000304][서울대학교]	맞춤형 금융상품 추천 시스템 및 방법	새창보기
[KST2021010865][서울대학교]	지능형 수출시장 정보 분석 및 제공 서비스를 위한 시스템 및 방법	새창보기
[KST2015135462][서울대학교]	시공간 구조 기반의 확률 그래프 모델 학습 장치 및 방법	새창보기
[KST2024000063][서울대학교]	소화 기관의 3차원 맵을 생성하는 방법 및 상기 방법을 수행하는 3차원 맵 생성 장치	새창보기
[KST2023002025][서울대학교]	미디어 스트리밍 처리 장치 및 방법	새창보기
[KST2020007521][서울대학교]	GPU 연산 기반의 딥러닝을 이용한 선호 콘텐츠 추천 장치 및 그 방법	새창보기
[KST2015159050][서울대학교]	로봇에 지능 지수를 부여하는 방법	새창보기
[KST2019011823][서울대학교]	이미지에 포함된 객체의 상태를 분류하는 방법 및 분류 장치	새창보기
[KST2022002930][서울대학교]	소화 기관의 3차원 맵을 생성하는 방법 및 상기 방법을 수행하는 3차원 맵 생성 장치	새창보기
[KST2022007282][서울대학교]	발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법	새창보기
[KST2016012216][서울대학교]	심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치(VOICE ACTIVITY DETECTION METHOD BASED ON STATISTICAL MODEL EMPLOYING DEEP NEURAL NETWORK AND VOICE ACTIVITY DETECTION DEVICE PERFORMING THE SAME)	새창보기
[KST2021011690][서울대학교]	라이다 및 카메라 수집정보 기반 수종탐지 시스템 및 이를 이용한 수종탐지방법, 수종탐지방법을 수행하는 프로그램이 수록된 기록매체	새창보기
[KST2021010204][서울대학교]	AI를 이용한 일회박출량 산출 장치 및 방법	새창보기
[KST2020009117][서울대학교]	음성 몽타주 생성 방법 및 시스템	새창보기
[KST2020000936][서울대학교]	브이에이이 모델 기반의 반지도 학습을 이용한 음향 정보 인식 방법 및 시스템	새창보기
[KST2019021868][서울대학교]	출석 확인 시스템 및 방법	새창보기
[KST2019020950][서울대학교]	딥-러닝을 통한 무선신호 전파 채널 해석을 이용한 실내공간의 구조를 예측하는 방법	새창보기
[KST2023002161][서울대학교]	강화 학습을 사용한 UAV BS 기반의 통신 방법 및 이러한 방법을 수행하는 장치	새창보기
[KST2022007902][서울대학교]	이미지 인식 방법, 이미지 인식 장치, 이미지 전처리 장치 및 뉴럴 네트워크의 학습 방법	새창보기
[KST2020001484][서울대학교]	딥러닝 기반의 실시간 대상 추적 방법 및 시스템	새창보기
[KST2019015651][서울대학교]	화자 음성 특징 추출 방법 및 장치, 그리고 이를 위한 기록 매체	새창보기
[KST2024000128][서울대학교]	기능적 분석 장치 및 방법	새창보기
[KST2022012950][서울대학교]	사운드 기반 다중 기기 운영 모니터링 방법과 이를 위한 시스템	새창보기
[KST2023001967][서울대학교]	합성곱 신경망을 위한 부동소수점 압축이 포함된 캐시	새창보기

의뢰할 수요기술을 선택합니다

담당자명, 주소, 이메일, 연락처, 내용, 파일선택의 정보를 제공하는 도입희망기술 뷰 페이지 의뢰하기 입력표입니다.
담당자명		활동구분※필수입력항목
이메일		연락처	- -
내용
파일선택	파일선택

기술이전 상담신청 드립니다.
기업명
신청자 성명		직책
연락처	- -
이메일	@
상담희망전담센터	※ 사업장(본점) 소재지가 속한 지역의 기술혁신센터를 지정해주세요.