맞춤기술찾기

이전대상기술

자연어 음성인식의 성능향상을 위한 데이터 증강방법(DATA AUGMENTATION METHOD FOR SPONTANEOUS SPEECH RECOGNITION)

  • 기술번호 : KST2017015045
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법이 개시된다. 심층신경망 기반의 음성인식 시스템에서 자연어 음성인식의 성능향상을 위한 데이터 증강방법은, 자연어 발화변이 특성 중 발화속도 변이에 대한 음성 데이터를 증강시키는 단계와, 상기 자연어 발화변이 특성 중 부정확한 발음에 대한 음성 데이터를 증강시키는 단계 및 상기 발화속도 변이와 부정확한 발음에 대하여 증강된 음성 데이터를 이용하여 심층신경망 기반의 음성인식 시스템을 학습하는 단계를 포함한다. 따라서, 음성인식 시스템의 성능을 향상시킬 수 있다.
Int. CL G10L 15/16 (2006.01.01) G10L 15/18 (2006.01.01) G10L 15/20 (2006.01.01) G10L 15/06 (2006.01.01) G10L 15/04 (2006.01.01)
CPC G10L 15/16(2013.01) G10L 15/16(2013.01) G10L 15/16(2013.01) G10L 15/16(2013.01) G10L 15/16(2013.01)
출원번호/일자 1020160031050 (2016.03.15)
출원인 한국전자통신연구원
등록번호/일자 10-2158743-0000 (2020.09.16)
공개번호/일자 10-2017-0107283 (2017.09.25) 문서열기
공고번호/일자 (20200922) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2018.07.17)
심사청구항수 6

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이성주 대한민국 대전광역시 유성구
2 강병옥 대한민국 대전광역시 유성구
3 송화전 대한민국 대전광역시 유성구
4 정호영 대한민국 대전광역시 서구
5 정훈 대한민국 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인지명 대한민국 서울특별시 강남구 남부순환로**** 차우빌딩*층

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2016.03.15 수리 (Accepted) 1-1-2016-0249541-51
2 [심사청구]심사청구(우선심사신청)서
[Request for Examination] Request for Examination (Request for Preferential Examination)
2018.07.17 수리 (Accepted) 1-1-2018-0704659-15
3 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2018.07.17 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2018-0704658-69
4 의견제출통지서
Notification of reason for refusal
2019.12.19 발송처리완료 (Completion of Transmission) 9-5-2019-0921680-24
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2020.02.19 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2020-0178652-05
6 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2020.02.19 수리 (Accepted) 1-1-2020-0178653-40
7 등록결정서
Decision to grant
2020.06.23 발송처리완료 (Completion of Transmission) 9-5-2020-0428757-89
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
입력 시간축 신호에 포함되어 있는 DC 성분을 제거하는 DC 오프셋 제거 필터링부(DC offset removal filter); 입력신호 분석을 위하여 DC 성분이 제거된 입력 시간축 신호의 백색화(pre-whitening) 필터링을 수행하는 백색화 필터부(Pre-emphasis); 입력신호를 프레임 단위로 분할하는 시그널 프레임부(Signal Framing); 분석 프레임에 윈도우 함수를 곱하는 시그널 윈도우부(Signal Windowing); 상기 윈도우 함수가 곱해진 해당 분석 프레임 신호가 음성인지 아닌지를 판별하는 음성 판별부(Voice Activity Detection); LPC(Linear Predictive Coding) 계수들로부터 켑스트럼을 추정하는 켑스트럼 추정부(Cepstrum estimation); 상기 윈도우 함수가 곱해진 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 상기 윈도우 함수가 곱해진 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별하는 천이구간 판별부(Transient Portion Detection); 상기 음성 판별부로부터 입력된 음성 판별(voice activity detection) 정보와 상기 천이구간 판별부로부터 입력된 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별하는 안정구간 판별부(Non-speech, transient and steady portion detection); 상기 윈도우 함수가 곱해진 입력신호를 성도(vocal tract) 성분과 여기신호(excitation) 성분으로 분할하는 입력신호 분할부(Linear Predictive Analysis); 상기 분할된 여기신호로부터 Fourier 변환 과정을 이용하여 파워 스펙트럼(power spectrum)을 추정하는 파워 스펙트럼 추정부(power spectrum estimation); 상기 추정된 파워 스펙트럼 정보와 상기 안정구간 판별(non-speech, transient and steady portion detection) 정보를 이용하여 음성과 배경 잡음의 power spectral density(PSD)를 추정하는 PSD 추정부(speech and noise PSD estimation);상기 추정된 음성과 배경잡음의 PSD 정보를 이용하여 시간축 위너 필터(Wiener filter) 계수들을 추정하는 위너 필터 추정부(Wiener filter estimation); 상기 추정된 시간축 위너 필터(Wiener filter) 계수를 이용하여 상기 입력신호 분할부로부터 입력되는 여기신호에 포함되어 있는 배경잡음 성분을 제거하는 위너 필터링부(Wiener filtering); 및 LPC 계수와 상기 위너 필터링부로부터 배경잡음 성분이 제거된 여기신호를 합성하여 부정확한 발음을 합성하는 성도 필터링부(Vocal Tract Filtering);를 포함하는 자연어 음성인식의 성능향상을 위한 데이터 증강장치
2 2
제 1항에 있어서, 상기 시그널 윈도우부는, 음성신호 분석을 위해서 해밍 윈도우(Hamming window)를 사용하는 것인 자연어 음성인식의 성능향상을 위한 데이터 증강장치
3 3
제 1항에 있어서, 상기 켑스트럼 추정부를 통해 추정된 켑스트럼 정보는 해당 프레임이 천이구간인지 아닌지를 판별하는 정보인 것인 자연어 음성인식의 성능향상을 위한 데이터 증강장치
4 4
제 1항에 있어서, 상기 위너 필터링부는 열화된 여기신호를 획득하는 것인 자연어 음성인식의 성능향상을 위한 데이터 증강장치
5 5
DC 오프셋 제거 필터링부(DC offset removal filtering)에서 시간축 입력신호의 DC 성분을 제거하는 단계; 백색화(pre-whitening) 필터를 이용하여 백색화 필터부(Pre-emphasis)에서 입력신호를 분석하는 단계; 시그널 프레임부(Signal Framing)에서 입력신호를 프레임 단위로 나눠주는 단계; 시그널 윈도우부(Signal Windowing)에서 분석 프레임에 윈도우 함수를 곱해주는 단계; 음성 판별부(Voice Activity Detection)에서 해당 분석 프레임 신호가 음성인지 아닌지를 판별하는 단계; 켑스트럼 추정부(Cepstrum estimation)에서 LPC 계수들로부터 켑스트럼을 추정하는 단계; 천이구간 판별부(Transient Portion Detection)에서 해당 프레임과 이웃한 주변(left and right) 프레임의 신호 혹은 켑스트럼 정보를 이용하여 해당 프레임이 천이구간인지 아니면 안정된 구간인지를 판별하는 단계; 안정구간 판별부(Non-speech, transient and steady portion detection)에서 입력된 음성 판별(voice activity detection) 정보와 천이구간 판별(transient portion detection) 정보를 이용하여 해당 음성이 음성구간인지 아닌지를 판별하고 일단 음성구간으로 판별되면 그 구간이 천이구간인지 안정된 구간인지를 판별하는 단계; 입력신호 분할부(Linear Predictive Analysis)에서 입력신호를 성도(vocal tract) 성분과 여기 신호(excitation) 성분으로 나누어 주는 단계; 시간축 변환부(Variable Rate TSM(time scale modification))에서 synchronized overlap and add(SOLA) 방법을 이용하여 상기 분할된 여기신호를 대상으로 시간축 변환을 수행하는 단계; LPC 변환부(LPC to LSF conversion)에서 LPC 계수를 LSF(line spectral frequencies or LSP(line spectral pairs))로 변환하는 단계; LSF 추정부(LSF estimation)에서 주변 프레임들의 LSF 값과 시간축 변환비율 상관관계를 이용하여 해당 프레임의 LSF 값을 추정하는 단계; LSF 변환부(LSF to LPC conversion)에서 LSF 값을 성도모델계수로 변환하는 단계; 및 성도 필터링부(Vocal Tract Filtering)에서 시간축 변환된 여기신호와 추정된 성도모델계수를 이용하여 발화속도 변이현상이 반영된 음성신호를 구하는 단계;를 포함하되, 상기 해당 프레임의 LSF 값을 추정하는 단계는, LSF 추정과정(시간축 변환비율 003c# 1
6 6
제 5항에 있어서, 상기 윈도우 함수를 곱해주는 단계는, 음성신호분석을 위해서 해밍 윈도우(Hamming window)를 사용하는 것인 자연어 음성인식의 성능향상을 위한 데이터 증강방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 미래창조과학부 한국전자통신연구원 SW컴퓨팅산업원천기술개발 언어학습을 위한 자유발화형 음성대화처리 원천기술 개발