맞춤기술찾기

이전대상기술

화자 음성 특징 추출 방법 및 장치, 그리고 이를 위한 기록 매체

  • 기술번호 : KST2019015651
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 화자 음성의 특징을 추출하는 방법 및 장치, 그리고 이를 위한 기록매체에 관한 것으로, 입력된 음성으로부터 추출된 Baum-Welch 통계 값과 입력된 음성 내에 포함되는 프레임 단위의 특징들의 분포 사이를 매개하는 랜덤 은닉 변수가 존재한다고 가정하여, 입력 음성 신호의 불확실성 및 신뢰도에 대한 척도를 추출하여, 짧거나 열화된 음성 신호에 대해서도 화자를 인식할 수 있도록 한 것이다.
Int. CL G10L 15/05 (2013.01.01) G10L 15/08 (2006.01.01) G10L 15/16 (2006.01.01) G10L 25/30 (2013.01.01)
CPC G10L 15/05(2013.01) G10L 15/05(2013.01) G10L 15/05(2013.01) G10L 15/05(2013.01) G10L 15/05(2013.01)
출원번호/일자 1020180010899 (2018.01.29)
출원인 에스케이텔레콤 주식회사, 서울대학교산학협력단
등록번호/일자
공개번호/일자 10-2019-0091837 (2019.08.07) 문서열기
공고번호/일자 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2018.01.29)
심사청구항수 10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 에스케이텔레콤 주식회사 대한민국 서울특별시 중구
2 서울대학교산학협력단 대한민국 서울특별시 관악구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 반성민 서울특별시 중구
2 김남수 서울특별시 서초구
3 강우현 서울특별시 강남구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 박종한 대한민국 서울특별시 구로구 디지털로**길 * (구로동, 에이스하이엔드타워*차) ***호(한림특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 에스케이텔레콤 주식회사 서울특별시 중구
2 서울대학교산학협력단 서울특별시 관악구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2018.01.29 수리 (Accepted) 1-1-2018-0101832-86
2 의견제출통지서
Notification of reason for refusal
2019.04.22 발송처리완료 (Completion of Transmission) 9-5-2019-0289249-11
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.05.13 수리 (Accepted) 4-1-2019-5093546-10
4 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.05.23 수리 (Accepted) 4-1-2019-5101798-31
5 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2019.06.21 수리 (Accepted) 1-1-2019-0637515-23
6 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2019.06.21 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2019-0637516-79
7 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.02 수리 (Accepted) 4-1-2019-5154561-59
8 등록결정서
Decision to grant
2019.10.25 발송처리완료 (Completion of Transmission) 9-5-2019-0776003-87
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.11.25 수리 (Accepted) 4-1-2020-5265458-48
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
화자 음성 신호에 대해 UBM(Universal Background Model) 조건 하에서 Baum-Welch 통계를 실시하여, 상기 화자 음성 신호의 특징을 추출하는 화자 음성 특징 추출 방법에 있어서,음성 신호에 대해 UBM 조건 하에서 Baum-Welch 통계를 실시하고, 입력 음성 신호에 종속적인 입력 음성의 분포적 특성을 나타내는 랜덤 은닉 변수의 분포를 추출하는 단계;화자 음성 신호에 대해 UBM조건 하에서 실시한 Baum-Welch 통계 값을 기반으로 최대 사후화 과정(maximum a posteriori)에 따른 제1 GMM 슈퍼벡터를 산출하는 단계;상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값을 추출하는 단계;상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값을 이용하여, 제2 GMM 슈퍼벡터를 산출하는 단계; 및상기 랜덤 은닉 변수의 분포와 상기 제1 GMM 슈퍼벡터의 쌍이 입력값으로 입력되면 상기 입력값이 입력 음성을 기반으로 생성된 것으로 분류하고, 상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값과 상기 제2 GMM 슈퍼벡터의 쌍이 입력값으로 입력되면 상기 입력값이 샘플링 값을 기반으로 생성된 것으로 분류하는 단계;를 포함하는 것을 특징으로 하는 화자 음성 특징 추출 방법
2 2
제1항에 있어서,상기 제2 GMM(Gaussian Mixture Model) 슈퍼벡터의 입력 음성에 대한 로그 우도(log-likelihood)는 하기 [수학식 1]을 통해 산출하는 것을 특징으로 하는 화자 음성 특징 추출 방법
3 3
제1항에 있어서,상기 제1 GMM 슈퍼벡터를 산출하는 단계는,하기 [수학식 2]를 이용하여 제1 GMM 슈퍼벡터를 산출하는 것을 특징으로 하는 화자 음성 특징 추출 방법
4 4
제1항에 있어서,상기 분류하는 단계는,시그모이드(sigmoid)함수를 이용한, 심층신경망(Deep Neural Network;DNN) 학습을 이용하는 것을 특징으로 하는 화자 음성 특징 추출 방법
5 5
제1항에 있어서,상기 분류하는 단계는,하기 [수학식 3]을 목적함수로 하여, 입력이, 상기 랜덤 은닉 변수의 분포와 제1 GMM 슈퍼벡터의 쌍 인 경우, 1을 출력하고,입력이, 상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값과 제2 GMM 슈퍼벡터의 쌍 인 경우, 0을 출력하는 것을 특징으로 하는 화자 음성 특징 추출 방법
6 6
제1항에 있어서, 제2 GMM 수퍼벡터를 산출하는 단계는,제2 GMM 수퍼벡터의 로그 우도가 최대가 되기 위해, 하기 [수학식 4]를 목적함수로 이용하는 것을 특징으로 하는 화자 음성 특징 추출 방법
7 7
화자 음성 신호에 대해 UBM(Universal Background Model) 조건 하에서 Baum-Welch 통계를 실시하고, 입력 음성 신호에 종속적인 입력 음성의 분포적 특성을 나타내는 랜덤 은닉 변수(random latent variable)의 분포를 추출하는 인코더;상기 화자 음성 신호에 대해 UBM 조건 하에서 실시한 Baum-Welch 통계 값을 이용하여 최대 사후화 과정(maximum a posteriori)에 따른 제1 GMM(Gaussian Mixture Model) 슈퍼벡터를 산출하는 GMM 생성부;상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값을 추출하고, 이를 이용하여 제2 GMM(Gaussian Mixture Model) 슈퍼벡터 산출하는 디코더; 및상기 랜덤 은닉 변수의 분포와 상기 제1 GMM 슈퍼벡터의 쌍이 입력값으로 입력되면 상기 입력값이 입력 음성을 기반으로 생성된 것으로 분류하고, 상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값과 상기 제2 GMM 슈퍼벡터의 쌍이 입력값으로 입력되면 상기 입력값이 샘플링 값을 기반으로 생성된 것으로 분류하는 디스크리미네이터;를 포함하는 것을 특징으로 하는 화자 음성 특징 추출 장치
8 8
제7항에 있어서,상기 디스크리미네이터는, 상기 디스크리미네이터의 출력값인 를 시그모이드(sigmoid)함수를 이용한, 심층신경망(Deep Neural Network;DNN) 학습을 이용하여 계산하는 것을 특징으로 하는 화자 음성 특징 추출 장치
9 9
제8항에 있어서,상기 디스크리미네이터(discriminator)는,하기 [수학식 3]을 목적함수로 하여, 입력이, 랜덤 은닉 변수의 분포와 제1 GMM 슈퍼벡터의 쌍 경우, 1을 출력하고,입력이, 상기 랜덤 은닉 변수의 사전 확률 분포에 대한 샘플링 값과 제2 GMM 슈퍼벡터의 쌍 인 경우, 0을 출력하며,상기 제2 GMM 슈퍼벡터의 로그 우도가 최대가 되도록 하기 [수학식 4]를 목적함수로 이용하는 것을 특징으로 하는 화자 음성 특징 추출 장치
10 10
제1항 내지 제6항 중 어느 한 항에 기재된 화자 음성 특징 추출 방법을 실행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.