맞춤기술찾기

이전대상기술

심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 방법(Dual-Microphone Voice Activity Detection Based on Deep Neural Network and Method thereof)

  • 기술번호 : KST2017018353
  • 담당센터 : 서울서부기술혁신센터
  • 전화번호 : 02-6124-6930
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 방법이 제시된다. 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법에 있어서, 분류 단계에서, 잡음환경에 의해 오염된 음성 신호인 입력 신호로부터 기초벡터들을 추출하는 단계; 및 상기 분류 단계에서, 상기 기초벡터들을 미리 학습된 심화신경망을 통과시켜 음성존재확률을 결정하고, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계를 포함하고, 상기 입력 신호는 복수의 마이크로부터 입력되며, 상기 입력 신호들 사이에 상대적인 공간 정보를 포함할 수 있다.
Int. CL G10L 15/16 (2016.06.16) G10L 15/02 (2016.06.16) G06N 3/02 (2016.06.16) G10L 15/30 (2016.06.16)
CPC G10L 15/16(2013.01) G10L 15/16(2013.01) G10L 15/16(2013.01) G10L 15/16(2013.01) G10L 15/16(2013.01)
출원번호/일자 1020160060214 (2016.05.17)
출원인 한양대학교 산학협력단
등록번호/일자 10-1811524-0000 (2017.12.15)
공개번호/일자 10-2017-0129477 (2017.11.27) 문서열기
공고번호/일자 (20180125) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2016.05.17)
심사청구항수 10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한양대학교 산학협력단 대한민국 서울특별시 성동구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 황승현 대한민국 서울특별시 관악구
2 장준혁 대한민국 서울특별시 강남구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 양성보 대한민국 서울특별시 강남구 선릉로***길 ** (논현동) 삼성빌딩 *층(피앤티특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한양대학교 산학협력단 대한민국 서울특별시 성동구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2016.05.17 수리 (Accepted) 1-1-2016-0470949-04
2 의견제출통지서
Notification of reason for refusal
2017.05.23 발송처리완료 (Completion of Transmission) 9-5-2017-0358251-20
3 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2017.07.24 수리 (Accepted) 1-1-2017-0709447-69
4 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2017.07.24 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2017-0709448-15
5 등록결정서
Decision to grant
2017.12.07 발송처리완료 (Completion of Transmission) 9-5-2017-0858805-19
6 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.05 수리 (Accepted) 4-1-2019-5155816-75
7 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.06 수리 (Accepted) 4-1-2019-5156285-09
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
심화신경망(DNN, Deep Neural Network)을 이용한 2 채널 마이크 기반의 음성 검출 방법에 있어서, 분류 단계에서, 잡음환경에 의해 오염된 음성 신호인 입력 신호로부터 기초벡터들을 추출하는 단계; 및 상기 분류 단계에서, 상기 기초벡터들을 미리 학습된 심화신경망을 통과시켜 음성존재확률을 결정하고, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계를 포함하고, 상기 입력 신호는 복수의 마이크로부터 입력되며, 상기 입력 신호들 사이에 상대적인 공간 정보를 포함하며, 상기 입력 신호로부터 기초벡터들을 추출하는 단계는, 두 개의 마이크를 통해 입력된 상기 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하는 단계; 및 고유 분해된 고유벡터 행렬을 정규화하여 위상벡터를 산출하는 단계를 포함하고, 상기 기초벡터는, 롱텀 전력레벨 차이비율(Long-term Power Level Difference Ratio, LT-PLDR), 숏텀 전력레벨 차이비율(Short-term Power Level Difference Ratio, ST-PLDR), 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 어느 하나인 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
2 2
제1항에 있어서, 상기 심화신경망을 학습시키는 단계를 더 포함하고, 상기 심화신경망(DNN, deep neural network)을 학습시키는 단계는, 상기 학습 단계에서, 주변 잡음환경에 의해 오염된 음성 신호를 입력 받고 이산 푸리에 변환(Discrete Fourier Transform, DFT) 후, 기초벡터들을 추출하는 단계; 및 상기 학습 단계에서, 각 상기 잡음환경에서 추출된 상기 기초벡터들을 이용하여 선행 학습(pre-training) 과정과 미세 조정(fine-tuning) 과정을 통해서 상기 심화신경망을 학습시키는 단계를 포함하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
3 3
삭제
4 4
심화신경망(DNN, Deep Neural Network)을 이용한 2 채널 마이크 기반의 음성 검출 방법에 있어서, 분류 단계에서, 잡음환경에 의해 오염된 음성 신호인 입력 신호로부터 기초벡터들을 추출하는 단계; 및 상기 분류 단계에서, 상기 기초벡터들을 미리 학습된 심화신경망을 통과시켜 음성존재확률을 결정하고, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계를 포함하고, 상기 입력 신호는 복수의 마이크로부터 입력되며, 상기 입력 신호들 사이에 상대적인 공간 정보를 포함하며, 상기 입력 신호로부터 기초벡터들을 추출하는 단계는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하는 단계; 및 상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율(LT-PLDR)을 산출하는 단계를 포함하고, 상기 입력 신호로부터 기초벡터들을 추출하는 단계는, 상기 두 개의 마이크로 입력된 상기 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 상기 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여 코히어런스(Coherence) 함수를 구하며, 상기 기초벡터는, 롱텀 전력레벨 차이비율(Long-term Power Level Difference Ratio, LT-PLDR), 숏텀 전력레벨 차이비율(Short-term Power Level Difference Ratio, ST-PLDR), 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 어느 하나인 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
5 5
제1항 또는 제4항에 있어서, 상기 입력 신호로부터 기초벡터들을 추출하는 단계는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 숏텀 전력레벨 차이(Short-term Power Level Difference, ST-PLD)를 산정하는 단계; 및 상기 숏텀 전력레벨 차이(ST-PLD)로부터 상기 숏텀 전력레벨 차이비율(ST-PLDR)을 산출하는 단계를 포함하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
6 6
삭제
7 7
삭제
8 8
제1항 또는 제4항에 있어서, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계는, 상기 기초벡터들은 학습된 상기 심화신경망으로 입력되어 다수의 은닉층을 통하여 변별력을 가지는 기초벡터들로 재표현되고, 최종적으로 상기 음성존재확률로 나타나 상기 음성 구간 또는 상기 비음성 구간으로 분류되는 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
9 9
제8항에 있어서, 상기 음성존재확률의 값이 미리 설정된 문턱값보다 클 경우 상기 입력 신호는 상기 음성 신호로 판단되며, 상기 미리 설정된 문턱값보다 작을 경우 상기 입력 신호는 상기 비음성 신호로 판단되는 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 방법
10 10
심화신경망(DNN, Deep Neural Network)을 이용한 2 채널 마이크 기반의 음성 검출 장치에 있어서, 잡음환경에 의해 오염된 음성 신호인 입력 신호를 입력 받는 입력부; 상기 입력 신호로부터 기초벡터들을 추출하는 기초벡터 추출부; 및 상기 기초벡터들을 미리 학습된 심화신경망을 통과시키는 심화신경망 적용부; 및 상기 기초벡터들의 음성존재확률을 결정하고, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 음성존재확률 결정부를 포함하고, 상기 입력 신호는 복수의 마이크로부터 입력되며, 상기 입력 신호들 사이에 상대적인 공간 정보를 포함하며, 상기 기초벡터 추출부는, 두 개의 마이크를 통해 입력된 상기 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하고, 고유 분해된 고유벡터 행렬을 정규화하여 위상벡터를 산출하며, 상기 기초벡터는, 롱텀 전력레벨 차이비율(Long-term Power Level Difference Ratio, LT-PLDR), 숏텀 전력레벨 차이비율(Short-term Power Level Difference Ratio, ST-PLDR), 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 어느 하나인 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치
11 11
제10항에 있어서, 상기 심화신경망(DNN, deep neural network)을 학습시키는 학습부를 더 포함하고, 상기 학습부는, 학습 단계에서, 주변 잡음환경에 의해 오염된 음성 신호를 입력 받는 학습부의 입력부; 입력 받은 상기 오염된 음성 신호를 이산 푸리에 변환(Discrete Fourier Transform, DFT)하는 이산 푸리에 변환부; 이산 푸리에 변환 후, 기초벡터들을 추출하는 학습부의 기초벡터 추출부; 및 각 상기 잡음환경에서 추출된 상기 기초벡터들을 이용하여 선행 학습(pre-training) 과정과 미세 조정(fine-tuning) 과정을 통해서 상기 심화신경망을 학습시키는 선행 학습부 및 미세 조정부를 포함하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치
12 12
삭제
13 13
심화신경망(DNN, Deep Neural Network)을 이용한 2 채널 마이크 기반의 음성 검출 장치에 있어서, 잡음환경에 의해 오염된 음성 신호인 입력 신호를 입력 받는 입력부; 상기 입력 신호로부터 기초벡터들을 추출하는 기초벡터 추출부; 및 상기 기초벡터들을 미리 학습된 심화신경망을 통과시키는 심화신경망 적용부; 및 상기 기초벡터들의 음성존재확률을 결정하고, 상기 입력 신호를 음성 구간 또는 비음성 구간으로 분류하는 음성존재확률 결정부를 포함하고, 상기 입력 신호는 복수의 마이크로부터 입력되며, 상기 입력 신호들 사이에 상대적인 공간 정보를 포함하며, 상기 기초벡터 추출부는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하고, 상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율(LT-PLDR)을 산출하며, 상기 두 개의 마이크로 입력된 상기 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 상기 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여 코히어런스(Coherence) 함수를 구하고, 상기 기초벡터는, 롱텀 전력레벨 차이비율(Long-term Power Level Difference Ratio, LT-PLDR), 숏텀 전력레벨 차이비율(Short-term Power Level Difference Ratio, ST-PLDR), 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 어느 하나인 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치
14 14
삭제
15 15
제10항 또는 제13항에 있어서, 상기 음성존재확률 결정부는, 상기 기초벡터들은 학습된 상기 심화신경망으로 입력되어 다수의 은닉층을 통하여 변별력을 가지는 기초벡터들로 재표현되고, 최종적으로 상기 음성존재확률로 나타나 상기 음성 구간 또는 상기 비음성 구간으로 분류되는 것을 특징으로 하는 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 미래창조과학부 한양대학교 산학협력단 이공분야 기초연구사업 / 중견연구자지원사업 / 도약연구(전략-연구분야지정) 미래 웨어러블기기용 고성능 음성신호처리 핵심기술개발