맞춤기술찾기

이전대상기술

심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치(VOICE ACTIVITY DETECTION METHOD BASED ON STATISTICAL MODEL EMPLOYING DEEP NEURAL NETWORK AND VOICE ACTIVITY DETECTION DEVICE PERFORMING THE SAME)

  • 기술번호 : KST2016012216
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하기 위한 음성 검출 장치에 관한 것으로서, 보다 구체적으로는 음성 검출 장치가, (1) 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비(SNR) 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하는 단계; (2) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키는 단계; (3) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키는 단계; 및 (4) 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.본 발명에서 제안하고 있는 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치에 따르면, 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비(SNR) 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하며, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키고, 상기 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키며, 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류함으로써, 다수의 비선형 은닉 층을 이용하여 음성이 존재하는 경우와 존재하지 않는 경우에 대한 우도비의 분포를 보다 효과적으로 모델링할 수 있고, 음성 검출 성능을 향상시킬 수 있으며, 계산 소요시간을 감소시킬 수 있다.
Int. CL G10L 25/30 (2013.01) G10L 25/78 (2013.01)
CPC G10L 25/78(2013.01) G10L 25/78(2013.01)
출원번호/일자 1020140182736 (2014.12.17)
출원인 서울대학교산학협력단, 한양대학교 산학협력단
등록번호/일자 10-1640188-0000 (2016.07.11)
공개번호/일자 10-2016-0073874 (2016.06.27) 문서열기
공고번호/일자 (20160715) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2014.12.17)
심사청구항수 4

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 서울대학교산학협력단 대한민국 서울특별시 관악구
2 한양대학교 산학협력단 대한민국 서울특별시 성동구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 장준혁 대한민국 서울특별시 강남구
2 황인영 대한민국 경기도 김포시 통진
3 김남수 대한민국 서울특별시 서초구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 김건우 대한민국 서울특별시 금천구 가산디지털*로 ***, 에이동 ***호 특허그룹덕원 (가산동, 우림 라이온스밸리)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 서울대학교산학협력단 대한민국 서울특별시 관악구
2 한양대학교 산학협력단 대한민국 서울특별시 성동구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2014.12.17 수리 (Accepted) 1-1-2014-1229120-39
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.16 수리 (Accepted) 4-1-2015-5022074-70
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.03.17 수리 (Accepted) 4-1-2015-5033829-92
4 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.05.13 수리 (Accepted) 4-1-2015-5062924-01
5 의견제출통지서
Notification of reason for refusal
2016.01.08 발송처리완료 (Completion of Transmission) 9-5-2016-0020651-63
6 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2016.03.07 수리 (Accepted) 1-1-2016-0221087-89
7 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2016.03.07 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2016-0221084-42
8 등록결정서
Decision to grant
2016.05.17 발송처리완료 (Completion of Transmission) 9-5-2016-0354689-86
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.05.13 수리 (Accepted) 4-1-2019-5093546-10
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.05.23 수리 (Accepted) 4-1-2019-5101798-31
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.02 수리 (Accepted) 4-1-2019-5154561-59
12 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.05 수리 (Accepted) 4-1-2019-5155816-75
13 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.06 수리 (Accepted) 4-1-2019-5156285-09
14 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.11.25 수리 (Accepted) 4-1-2020-5265458-48
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
음성 검출 장치에서 수행되는 통계모델 기반의 음성 검출 방법으로서, 음성 검출 장치가,(1) 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비(SNR) 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하는 단계;(2) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키는 단계;(3) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키는 단계; 및(4) 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 단계를 포함하되,상기 단계 (1)은,(1-1) 상기 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환하는 단계;(1-2) 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출하는 단계;(1-3) 산출된 주파수 대역의 분산을 이용하여 사후 신호 대 잡음비 및 사전신호 대 잡음비를 산출하는 단계; 및(1-4) 사전 신호 대 잡음비 및 사후 신호 대 잡음비를 이용하여 주파수 대역의 우도비를 산출하는 단계를 포함하며,상기 심화 신경망은 딥 빌리프 네트워크(deep belief network, DBN)에 기초한 신경망이고,상기 단계 (2)는,(2-1) 상기 선행 학습을 위하여, 각각의 제한 볼츠만 기계(restricted Boltzmann machine, RBM)를 순차적으로 초기화하는 단계를 포함하며,상기 단계 (2)에서는,상기 선행 학습에 의해, 하기의 [수학식 1]과 같이 에너지 함수 E(v,h)가 최소화되되,[수학식 1]v는 가시 층의 노드 벡터를 나타내고, h는 은닉 층의 노드 벡터를 나타내며, a와 b는 각각 바이어스 벡터를 나타내며, w는 은닉 층의 가중치 매트릭스를 나타내고,상기 단계 (2)에서는,하기의 [수학식 2]에 따른 학습 규칙을 갖되,[수학식 2]i 및 j는 각각 가시 노드 및 은닉 노드의 인덱스를 나타내고, ε은 학습률을 나타내며, 연산 003c#·003e#는 각 분포의 기대치를 나타내며,상기 학습 규칙은,하기의 [수학식 3]에 따른 확률 p의 로그 확률 미분으로부터 유도되고,[수학식 3]상기 확률 p는 가시 층 및 은닉 층 사이의 확률로서, 하기의 [수학식 4]과 같이 상기 에너지 함수를 이용해 나타내어지는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법
2 2
삭제
3 3
삭제
4 4
삭제
5 5
제1항에 있어서, 상기 단계 (3)에서,상기 역전이 알고리즘을 위한 비용 함수는 하기의 [수학식 5]와 같이 정의되되,[수학식 5]M은 학습에 사용되는 데이터의 개수를 나타내고, K는 출력 노드의 개수를 나타내며, yij 및 tij는 각각, i번째 데이터의 j번째 출력 노드의 음성 신호 및 결과 값을 나타내며,상기 단계 (4)에서는,특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과가 하기의 [수학식 6]과 같이 나타나되,[수학식 6]w는 은닉 층의 가중치 매트릭스를 나타내고, b는 바이어스 벡터를 나타내며, 아래첨자 숫자는 은닉 층의 인덱스를 나타내고, g는 활성 함수로서 시그모이드(sigmoid) 함수를 나타내며, y는 결과 값을 나타내고,특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과는 하기의 [수학식 7]과 같이 단순화되되,[수학식 7]yout은 단순화된 결과 값을 나타내며,상기 단계 (4)에서,상기 결정 함수는, 상기 단순화된 결과 값을 미리 설정된 문턱 값과 비교하여, 상기 단순화된 결과 값이 상기 문턱 값보다 큰 경우 상기 음성 구간으로 분류하고, 상기 단순화된 결과 값이 상기 문턱 값보다 작은 경우, 상기 잡음 구간으로 분류하는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법
6 6
통계모델 기반의 음성 검출 장치로서,학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하며, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키고, 상기 추출된 특징 벡터의 결과를 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키며, 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 제어부를 포함하되,상기 특징 벡터는,(1-1) 상기 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환하는 단계;(1-2) 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출하는 단계;(1-3) 산출된 주파수 대역의 분산을 이용하여 사후 신호 대 잡음비 및 사전신호 대 잡음비를 산출하는 단계; 및(1-4) 사전 신호 대 잡음비 및 사후 신호 대 잡음비를 이용하여 주파수 대역의 우도비를 산출하는 단계를 통해 추출되고,상기 심화 신경망은 딥 빌리프 네트워크(deep belief network, DBN)에 기초한 신경망이고, 상기 선행 학습에서는 각각의 제한 볼츠만 기계(restricted Boltzmann machine, RBM)가 순차적으로 초기화되며, 상기 선행 학습에 의해, 가시 층 및 은닉 층의 노드 벡터에 의해 표현되는 에너지 함수가 최소화되며,상기 에너지 함수는, 하기의 [수학식 1]과 같이 정의되되,[수학식 1]v는 가시 층의 노드 벡터를 나타내고, h는 은닉 층의 노드 벡터를 나타내고, a와 b는 각각 바이어스 벡터를 나타내며, w는 은닉 층의 가중치 매트릭스를 나타내며,상기 선행 학습에서는 하기의 [수학식 2]에 따른 학습 규칙을 갖되,[수학식 2]i 및 j는 각각 가시 노드 및 은닉 노드의 인덱스를 나타내고, ε은 학습률을 나타내며, 연산 003c#·003e#는 각 분포의 기대치를 나타내고,상기 학습 규칙은,하기의 [수학식 3]에 따른 확률 p의 로그 확률 미분으로부터 유도되며,[수학식 3]상기 확률 p는 가시 층 및 은닉 층 사이의 확률로서, 하기의 [수학식 4]와 같이 상기 에너지 함수를 이용해 나타내어지는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치
7 7
삭제
8 8
삭제
9 9
삭제
10 10
제6항에 있어서,상기 심화 신경망의 최적화에 사용되는 상기 역전이 알고리즘을 위한 비용 함수는 하기의 [수학식 5]와 같이 정의되되,[수학식 5]M은 학습에 사용되는 데이터의 개수를 나타내고, K는 출력 노드의 개수를 나타내며, yij 및 tij는 각각, i번째 데이터의 j번째 출력 노드의 음성 신호 및 결과 값을 나타내고,특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과는 하기의 [수학식 6]과 같이 나타나되,[수학식 6]w는 은닉 층의 가중치 매트릭스를 나타내고, b는 바이어스 벡터를 나타내며, 아래첨자 숫자는 은닉 층의 인덱스를 나타내고, g는 활성 함수로서 시그모이드(sigmoid) 함수를 나타내며, y는 결과 값을 나타내고,특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 벡터의 결과는 하기의 [수학식 7]과 같이 단순화되되,[수학식 7]yout은 단순화된 결과 값으로서,상기 결정 함수는, 상기 단순화된 결과 값을 미리 설정된 문턱 값과 비교하여, 상기 단순화된 결과 값이 상기 문턱 값보다 큰 경우 상기 음성 구간으로 분류하고, 상기 단순화된 결과 값이 상기 문턱 값보다 작은 경우, 상기 잡음 구간으로 분류하는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 미래창조과학부 서울대학교 산학협력단 대학 IT 연구센터 육성지원사업(ITRC) 실감 오케스트라 서비스를 위한 입체음향 취득/재현 기술 개발