맞춤기술찾기

이전대상기술

통계적 불확실성 모델링을 활용한 음성 인식 방법 및 장치

  • 기술번호 : KST2021012808
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 통계적 불확실성 모델링을 활용한 음성 인식 방법에 관한 것으로서, 보다 구체적으로는 음성 인식 방법으로서, (1) 노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-Aware Training) 모델을 구성하는 단계; 및 (2) 상기 단계 (1)에서 구성된 UAT 모델을 이용해 음성 인식을 처리하는 단계를 포함하되, 상기 단계 (1)은, (1-1) 상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하는 CUN (Clean Uncertainty Network)을 학습하여, 음성 불확실성 정보를 출력하는 단계; (1-2) 상기 입력 음성의 특징 및 상기 단계 (1-1)에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (Variational Inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하는 EUN (Environment Uncertainty Network)을 학습하여, 환경 불확실성 정보를 출력하는 단계; (1-3) 상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN(Prediction Network)를 포함하는 UAT 모델을 구성하는 단계를 포함하는 것을 그 구성상의 특징으로 한다. 또한, 본 발명은 통계적 불확실성 모델링을 활용한 음성 인식 장치에 관한 것으로서, 보다 구체적으로는 음성 인식 장치로서, 노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-aware training) 모델을 구성하는 학습부; 및 상기 학습부에서 구성된 UAT 모델을 이용해 음성 인식을 처리하는 음성 인식부를 포함하되, 상기 UAT 모델은, 상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하며, 음성 불확실성 정보를 출력하는 CUN (Clean Uncertainty Network); 상기 입력 음성의 특징 및 상기 CUN에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (variational inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하고, 환경 불확실성 정보를 출력하는 EUN (Environment Uncertainty Network); 및 상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN (Prediction Network)을 포함하여 구성되는 것을 그 구성상의 특징으로 한다. 본 발명에서 제안하고 있는 통계적 불확실성 모델링을 활용한 음성 인식 방법 및 장치에 따르면, 노이즈에 의해 변형된 입력 음성의 불확실성을 고려하되, 깨끗한 음성 특징의 분포를 나타내는 음성 불확실성 정보와 변분 추론(Variational Inference, VI) 기반으로 잠재변수의 확률 분포를 나타내는 환경 불확실성 정보를 이용해 입력 음성이 가지는 불확실성을 직접적으로 측정하고, 이를 통해 변형된 입력 음성에 대한 불확실성을 효과적으로 반영하도록 학습된 모델을 구성함으로써, 학습 데이터에 없는 잡음이 나타나더라도 우수한 음성 인식 성능을 보일 수 있다.
Int. CL G10L 15/16 (2006.01.01) G10L 15/14 (2006.01.01) G10L 25/30 (2013.01.01) G06N 3/08 (2006.01.01) G06N 7/00 (2006.01.01)
CPC G10L 15/16(2013.01) G10L 15/14(2013.01) G10L 25/30(2013.01) G06N 3/08(2013.01) G06N 7/005(2013.01)
출원번호/일자 1020200052981 (2020.04.30)
출원인 서울대학교산학협력단
등록번호/일자
공개번호/일자 10-2021-0134195 (2021.11.09) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.04.30)
심사청구항수 10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 서울대학교산학협력단 대한민국 서울특별시 관악구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 김남수 서울특별시 서초구
2 이현승 서울특별시 동작구
3 김민찬 서울특별시 관악구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 김건우 대한민국 서울특별시 구로구 경인로 *** 오피스동 **층 **호 (신도림동, 디큐브시티)(특허그룹덕원)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.04.30 수리 (Accepted) 1-1-2020-0448779-05
2 보정요구서
Request for Amendment
2020.05.13 발송처리완료 (Completion of Transmission) 1-5-2020-0068434-49
3 [출원서 등 보정]보정서(납부자번호)
[Amendment to Patent Application, etc.] Amendment(Payer number)
2020.05.20 수리 (Accepted) 1-1-2020-0480934-26
4 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.11.25 수리 (Accepted) 4-1-2020-5265458-48
5 의견제출통지서
Notification of reason for refusal
2021.07.28 발송처리완료 (Completion of Transmission) 9-5-2021-0597019-66
6 특허고객번호 정보변경(경정)신고서·정정신고서
2021.07.29 수리 (Accepted) 4-1-2021-5205564-29
7 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2021.09.15 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2021-1069759-15
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
음성 인식 방법으로서,(1) 노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-Aware Training) 모델을 구성하는 단계; 및(2) 상기 단계 (1)에서 구성된 UAT 모델(200)을 이용해 음성 인식을 처리하는 단계를 포함하되,상기 단계 (1)은,(1-1) 상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하는 CUN (Clean Uncertainty Network)(210)을 학습하여, 음성 불확실성 정보를 출력하는 단계;(1-2) 상기 입력 음성의 특징 및 상기 단계 (1-1)에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (Variational Inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하는 EUN (Environment Uncertainty Network)(220)을 학습하여, 환경 불확실성 정보를 출력하는 단계;(1-3) 상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN (Prediction Network)(230)를 포함하는 UAT 모델(200)을 구성하는 단계를 포함하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
2 2
제1항에 있어서, 상기 단계 (1-1)에서는,상기 깨끗한 음성 특징의 분포에 대한 평균 및 로그 분산을 상기 음성 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
3 3
제1항에 있어서, 상기 단계 (1-2)의 EUN(220)은,VAE (Variational Autoencoder)를 변형하여 인코더에서 출력된 잠재변수의 확률 분포를 모델링하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
4 4
제1항에 있어서, 상기 단계 (1-2)에서는,상기 잠재변수의 분포의 평균 및 분산을 상기 환경 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
5 5
제1항에 있어서, 상기 단계 (1-3)에서는,상기 CUN(210), EUN(220) 및 PN(230)을 연결 (concatenation)한 통합 모델을, 상기 입력 음성으로부터 음성 타깃을 추정하도록 학습하여 상기 UAT 모델(200)을 구성하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
6 6
제5항에 있어서, 상기 단계 (1-3)에서는,상기 PN(230)의 손실함수를 이용해 상기 통합 모델을 튜닝하여 성능이 향상된 상기 UAT 모델(200)을 구성하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 방법
7 7
음성 인식 장치(100)로서,노이즈에 의해 변형된 입력 음성의 불확실성을 고려해, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하는 심층 신경망 (Deep neural network, DNN) 기반의 UAT (Uncertainty-aware training) 모델을 구성하는 학습부(110); 및상기 학습부(110)에서 구성된 UAT 모델(200)을 이용해 음성 인식을 처리하는 음성 인식부(120)를 포함하되,상기 UAT 모델(200)은,상기 입력 음성의 특징 (distorted feature, yt)을 입력받아 깨끗한 음성 특징 (clean feature, xt)의 분포를 추정하며, 음성 불확실성 정보를 출력하는 CUN (Clean Uncertainty Network)(210);상기 입력 음성의 특징 및 상기 CUN(210)에서 출력된 상기 음성 불확실성 정보를 이용해 음성 타깃을 추정하되, 변분 추론 (variational inference, VI) 방식으로, 추정 과정에서 잠재변수의 확률 분포를 모델링하고, 환경 불확실성 정보를 출력하는 EUN (Environment Uncertainty Network)(220); 및상기 음성 불확실성 정보 및 환경 불확실성 정보를 이용해 음성 타깃을 추정하는 PN (Prediction Network)(230)을 포함하여 구성되는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
8 8
제7항에 있어서, 상기 CUN(210)은,상기 깨끗한 음성 특징의 분포에 대한 평균 및 로그 분산을 상기 음성 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
9 9
제7항에 있어서, 상기 EUN(220)은,VAE (variational autoencoder)를 변형하여 인코더에서 출력된 잠재변수의 확률 분포를 모델링하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
10 10
제7항에 있어서, 상기 EUN(220)은,상기 잠재변수의 분포의 평균 및 분산을 상기 환경 불확실성 정보로 출력하는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
11 11
제7항에 있어서, 상기 UAT 모델(200)은,상기 CUN(210), EUN(220) 및 PN(230)을 연결 (concatenation)한 통합 모델로서, 상기 입력 음성으로부터 음성 타깃 (phonetic target)을 추정하도록 학습하여 구성되는 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
12 12
제11항에 있어서, 상기 UAT 모델(200)은,상기 PN(230)의 손실함수를 이용해 상기 통합 모델을 튜닝하여 성능이 향상된 것을 특징으로 하는, 통계적 불확실성 모델링을 활용한 음성 인식 장치(100)
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 산업통상자원부 한국과학기술원 로봇원천기술 실내용 음성대화 로봇을 위한 원거리 음성인식 기술 및 멀티 태스크 대화처리 기술 개발