맞춤기술찾기

이전대상기술

음성 화자 인식 장치 및 그 방법

  • 기술번호 : KST2019018804
  • 담당센터 : 서울서부기술혁신센터
  • 전화번호 : 02-6124-6930
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 음성 화자 인식 장치 및 그 방법이 개시된다. 본 발명의 음성 화자 인식 장치는, 마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및 음성특징 추출부에서 추출된 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하는 것을 특징으로 한다.
Int. CL G10L 17/12 (2013.01.01) G10L 17/02 (2013.01.01) G10L 17/04 (2013.01.01) G10L 17/18 (2013.01.01)
CPC G10L 17/12(2013.01) G10L 17/12(2013.01) G10L 17/12(2013.01) G10L 17/12(2013.01)
출원번호/일자 1020180032533 (2018.03.21)
출원인 현대모비스 주식회사, 한양대학교 산학협력단
등록번호/일자
공개번호/일자 10-2019-0110728 (2019.10.01) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 N
심사청구항수 16

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 현대모비스 주식회사 대한민국 서울특별시 강남구
2 한양대학교 산학협력단 대한민국 서울특별시 성동구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 정유진 경기도 의왕
2 박기희 서울특별시 동작구
3 이창원 경기도 의왕
4 김도현 경기도 성남시 분당구
5 김태경 경기도 의왕
6 손태윤 경기도 용인시 수지구
7 장준혁 서울특별시 강남구
8 양준영 경기 안양시 동안구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인아주 대한민국 서울특별시 강남구 강남대로 ***, **,**층(역삼동, 동희빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2018.03.21 수리 (Accepted) 1-1-2018-0281561-84
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.05 수리 (Accepted) 4-1-2019-5155816-75
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.06 수리 (Accepted) 4-1-2019-5156285-09
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
마이크를 통해 입력되는 음성신호로부터 특징 벡터를 추출하는 음성특징 추출부; 및 상기 음성특징 추출부에서 추출된 상기 특징 벡터를 기반으로 다수의 잔향환경 학습 데이터 세트로부터 잔향환경을 선택하여 화자인식 점수를 산출하고, 상기 화자인식 점수에 선택된 잔향환경에 따른 가중치를 부여하여 화자를 인식하는 화자인식부;를 포함하는 것을 특징으로 하는 음성 화자 인식 장치
2 2
제 1항에 있어서, 상기 음성특징 추출부는, 상기 음성신호로부터 특징신호를 추출하고 필요하지 않은 신호는 배제시켜 신호를 축약하여 상기 특징 벡터를 추출하는 것을 특징으로 하는 음성 화자 인식 장치
3 3
제 1항에 있어서, 상기 화자인식부는, 상기 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 잔향환경 확률 추정부; 상기 잔향환경 확률 추정부에서 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 화자인식 모델 선택부; 상기 화자인식 모델 선택부에서 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 화자인식 점수 계산부; 및 상기 화자인식 점수 계산부에서 계산한 상기 화자인식 점수와 상기 잔향환경 확률 추정부에서 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하고, 상기 최종 화자인식 점수를 통해 화자를 인식하는 화자인식 점수 가중결합부;를 포함하는 것을 특징으로 하는 음성 화자 인식 장치
4 4
제 3항에 있어서, 상기 잔향환경 확률 추정부는, 잔향효과가 첨가된 학습 데이터를 저장하는 음성학습 DB; 상기 음성학습 DB에 저장된 상기 학습 데이터를 RT60값의 범위에 따라 다수의 학습 데이터 세트로 분류하는 학습 데이터 분류부; 및 상기 특징 벡터가 상기 학습 데이터 분류부에서 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 확률을 추정하는 심화신경망 학습부;를 포함하는 것을 특징으로 하는 음성 화자 인식 장치
5 5
제 3항에 있어서, 상기 학습 데이터는 RT60값을 기준으로 0
6 6
제 3항에 있어서, 상기 심화신경망 학습부는, 아래식 1과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 장치
7 7
제 3항에 있어서, 상기 화자인식 모델 선택부에서 화자를 인식하기 위한 모델은 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 장치
8 8
제 7항에 있어서, 상기 화자인식 점수 계산부는, 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 장치
9 9
제 3항에 있어서, 상기 화자인식 점수 가중결합부는, 아래식 2를 통해 상기 최종 화자인식 점수(s)를 계산하는 것을 특징으로 하는 음성 화자 인식 장치
10 10
음성특징 추출부가 마이크를 통해 음성신호를 입력받는 단계; 상기 음성특징 추출부가 상기 음성신호로부터 특징신호를 추출하여 특징 벡터를 추출하는 단계; 상기 화자인식부가 다수의 잔향환경 학습 데이터 세트에서 상기 특징 벡터와 유사확률이 높은 잔향환경을 추정하는 단계; 상기 화자인식부가 추정한 잔향환경으로부터 화자를 인식하기 위한 모델을 선택하는 단계; 상기 화자인식부가 선택된 잔향환경 모델을 이용하여 화자인식 점수를 계산하는 단계; 및 상기 화자인식부가 계산한 상기 화자인식 점수와 추정된 잔향환경 확률을 가중 결합하여 최종 화자인식 점수를 계산하는 단계를 포함하는 것을 특징으로 하는 음성 화자 인식 방법
11 11
제 10항에 있어서, 상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는, 상기 화자인식부가 음성학습 DB에 저장된 학습 데이터를 RT60값의 범위에 따라 상기 다수의 학습 데이터 세트로 분류하고, 분류된 상기 다수의 학습 데이터 세트의 잔향환경에 속하게 될 추정 확률값을 심화신경망 학습을 통해 추정하는 것을 특징으로 하는 음성 화자 인식 방법
12 12
제 11항에 있어서, 상기 학습 데이터는, RT60값을 기준으로 0
13 13
제 10항에 있어서, 상기 특징 벡터와 상기 유사확률이 높은 잔향환경을 추정하는 단계는, 상기 화자인식부가 아래식 3과 같이 잔향환경에 속하게 될 추정 확률값과 실제 정답에 해당하는 잔향환경을 나타내는 정답 레이블(label) 사이의 cross-entropy를 목적함수로 하여 이를 최소화하는 방향으로 진행하는 것을 특징으로 하는 음성 화자 인식 방법
14 14
제 10항에 있어서, 상기 화자를 인식하기 위한 모델을 선택하는 단계는 배경화자모델, i-vector 추출 모델, PLDA 모델을 포함하는 것을 특징으로 하는 음성 화자 인식 방법
15 15
제 14항에 있어서, 상기 화자인식 점수를 계산하는 단계는, 상기 화자인식부가 상기 배경화자모델과 상기 i-vector 추출 모델을 이용하여 비교하고자 하는 두 화자의 데이터에 대해 각각 상기 i-vector를 추출하고, 추출한 두 상기 i-vector와 상기 PLDA 모델을 이용하여 점수를 계산하는 것을 특징으로 하는 음성 화자 인식 방법
16 16
제 10항에 있어서, 상기 최종 화자인식 점수를 계산하는 단계는, 상기 화자인식부가 아래식 4를 통해 상기 최종 화자인식 점수(s)를 계산하는 것을 특징으로 하는 음성 화자 인식 방법
지정국 정보가 없습니다
순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - 패밀리정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 CN110299143 CN 중국 FAMILY
2 US20190295553 US 미국 FAMILY

DOCDB 패밀리 정보

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - DOCDB 패밀리 정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 CN110299143 CN 중국 DOCDBFAMILY
2 US2019295553 US 미국 DOCDBFAMILY
국가 R&D 정보가 없습니다.