맞춤기술찾기

이전대상기술

고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법

  • 기술번호 : KST2015079342
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식 시스템 및 방법에 관한 것으로, 입력된 화자 음성을 1차 인식하고, 상기 1차 인식된 음성결과를 이용하여 비교사(Unsupervised Adaptation)방법으로 고유음성(EigenVoice) 화자적응을 수행한 후, 상기 화자적응 된 음향모델을 이용하여 화자 음성을 2차 적으로 인식함으로써 인식률을 더욱 향상시킬 수 있다. 본 발명은 입력된 음성신호로부터 음성인식에 사용되는 특징벡터를 추출하는 음성특징 추출부와, 상기 추출된 특징벡터와 이미 훈련되어 있는 화자독립 음향모델을 이용하여 상기 음성신호의 어휘를 인식하는 1차 인식부와, 상기 1차 인식부의 인식결과인 레이블 정보와 상기 음성특징 추출부의 특징벡터인 관측 데이터를 참조하여 화자적응을 수행하는 화자 적응부 및 상기 화자 적응부에서 제공하는 화자종속 음향모델을 이용하여 상기 음성신호의 인식결과를 출력하는 2차 인식부로 구성된다. 음성인식 시스템, 화자적응, 고유음성(EigenVoice), 비교사 방식
Int. CL G10L 15/07 (2013.01)
CPC G10L 15/07(2013.01) G10L 15/07(2013.01) G10L 15/07(2013.01)
출원번호/일자 1020030078383 (2003.11.06)
출원인 한국전자통신연구원
등록번호/일자 10-0586045-0000 (2006.05.25)
공개번호/일자 10-2005-0043472 (2005.05.11) 문서열기
공고번호/일자 (20060607) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2003.11.06)
심사청구항수 6

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 전형배 대한민국 서울특별시성북구
2 김동국 대한민국 경기도과천시

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 권태복 대한민국 서울시 강남구 테헤란로*길 **, *층 (역삼동, 청원빌딩)(아리특허법률사무소)
2 이화익 대한민국 서울시 강남구 테헤란로*길** (역삼동,청원빌딩) *층,***,***호(영인국제특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
2003.11.06 수리 (Accepted) 1-1-2003-0419510-85
2 의견제출통지서
Notification of reason for refusal
2005.09.15 발송처리완료 (Completion of Transmission) 9-5-2005-0455251-14
3 지정기간연장신청서
Request for Extension of Designated Period
2005.11.15 수리 (Accepted) 1-1-2005-0654889-32
4 지정기간연장신청서
Request for Extension of Designated Period
2005.12.15 수리 (Accepted) 1-1-2005-0734673-32
5 지정기간연장신청서
Request for Extension of Designated Period
2006.01.16 수리 (Accepted) 1-1-2006-0030403-44
6 명세서등보정서
Amendment to Description, etc.
2006.02.14 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2006-0108405-97
7 의견서
Written Opinion
2006.02.14 수리 (Accepted) 1-1-2006-0108407-88
8 등록결정서
Decision to grant
2006.05.17 발송처리완료 (Completion of Transmission) 9-5-2006-0280351-56
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
입력된 음성신호로부터 음성인식에 사용되는 특징벡터를 추출하는 음성특징 추출부;상기 추출된 특징벡터와 이미 훈련되어 있는 화자독립 음향모델을 이용하여 상기 음성신호의 어휘를 인식하는 1차 인식부;상기 1차 인식부의 인식결과인 상기 레이블 정보로부터 얻은 트라이폰 얼라인먼트 정보와 상기 음성특징 추출부로부터 얻은 특징벡터인 관측 데이터를 참조하여 각 프레임에서의 특징데이터가 해당 트라이폰에 맞을 신뢰도를 계산하는 신뢰도 계산부를 포함하여 구성되어 화자적응을 수행하는 화자 적응부; 및상기 화자 적응부에서 제공하는 화자종속 음향모델을 이용하여 상기 음성신호의 인식결과를 출력하는 2차 인식부로 구성되는 것을 특징으로 하는 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식 시스템
2 2
삭제
3 3
(a)입력된 음성신호가 화자 교체에 의한 입력신호인가를 판단하여, 화자 교체에 의한 신호일 경우, 입력된 음성신호로부터 음성인식에 사용되는 특징벡터를 추출하고, 상기 추출된 특징벡터와 이미 훈련되어 있는 화자독립 음향모델을 이용하여 상기 음성신호의 1차 인식결과를 추출하고, 입력된 음성신호가 이전 화자가 연속적으로 발성하여 화자 교체에 의한 입력신호가 아닐 경우, 입력된 음성신호로부터 음성인식에 사용되는 특징벡터를 추출하고, 상기 추출된 특징벡터와 이전 음성신호를 이용하여 화자적응된 화자종속 음향모델로 상기 음성신호의 1차 인식결과를 추출하는 단계;(b)상기 1차 인식결과를 음성신호의 레이블 정보로 참조하고, 상기 음성 특징벡터를 관측 데이터로 참조하여 화자적응을 수행하는 단계;(c)상기 화자적응단계에서 획득한 화자종속 음향모델을 이용하여 상기 음성신호의 2차 인식결과를 추출하는 단계로 이루어지는 것을 특징으로 하는 고유음성 화자적응을 이용한 재귀적 화자적응 방법
4 4
제 3항에 있어서, 상기 (c)단계는(d)상기 (a)단계에서 추출된 1차 인식결과의 레이블 정보로부터 음성인식의 단위가 되는 트라이폰의 음성신호에 대한 얼라인먼트 정보를 찾는 단계;(e)상기 트라이폰 얼라인먼트 정보와 음성특징 추출부에서 얻은 특징벡터를 이용하여 각 프레임에서의 특징데이터가 해당 트라이폰에 맞을 신뢰도를 계산하는 단계;(f)상기 신뢰도 척도로 사용되는 LLR(Log Likelihood Ratio) 값과 문턱 값을 비교하여, 상기 LLR 값이 상기 문턱 값보다 클 경우, 해당정보를 화자적응 계산에 필요한 관측정보로 누적하는 단계; 및(g)상기 누적된 관측정보를 이용하여 고유음성(EigenVoice)들의 계수를 예측하고, 상기 예측한 고유음성(EigenVoice)들의 계수와 미리 다수의 화자종속 HMM 음향모델로 구한 고유음성(EigenVoice)들로부터 HMM 음향모델을 생성하는 단계로 이루어지는 것을 특징으로 하는 고유음성 화자적응을 이용한 재귀적 화자적응 방법
5 5
제 4항에 있어서, 상기 (e)단계는상기 화자독립 음향모델 훈련시 모노폰으로 생성된 반 모델(Antimodel)의 LLR을 이용하는 것을 특징으로 하는 고유음성 화자적응을 이용한 재귀적 화자적응 방법
6 6
제 4항에 있어서, 상기 (g)단계는 (h)상기 관측정보로 누적된 관측정보의 양이 적을 경우, 실제 사용자의 음성에 의해 구해진 고유음성(EigenVoice)계수 값에 대해서 훈련 화자의 고유음성(EigenVoice)계수 분포들과의 거리를 고유음성 계수 분포들의 가우시안 평균과 표준편차를 이용하여 계산하는 단계; (i)상기 (h)단계에서 계산된 이전 고유음성(Prior EigenVoice)계수 분포와의 거리가 가장 가까운 분포를 선택하는 단계; (j)상기 선택된 이전 고유음성(Prior EigenVoice)계수 분포에서 가우시안 분포함수의 평균과 표준편차를 사용하여, 상기 고유음성(EigenVoice)계수의 값을 MAP(Maximum a posterior)방법에 의해 보정하는 단계; 및 (k)상기 (j)단계에서 보정된 고유음성(EigenVoice)계수 값을 수학식 1에 적용하여 음향모델을 생성하는 단계로 이루어지는 것을 특징으로 하는 고유음성 화자적응을 이용한 재귀적 화자적응 방법
7 7
제 6항에 있어서, 상기 (k)단계의 수학식 1은 인 것을 특징으로 하는 고유음성 화자적응을 이용한 재귀적 화자적응 방법
8 8
삭제
9 8
삭제
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.