맞춤기술찾기

이전대상기술

합성곱 신경망 기반 환경음 인식 방법 및 시스템

  • 기술번호 : KST2019018684
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 외부로부터 오디오 신호를 입력받아 분석하고 합성곱 신경망을 통해 학습하여 주변 환경에 적합한 환경음으로 출력할 수 있도록 하는 합성곱 신경망 기반 환경음 인식 방법 및 시스템에 관한 것이다. 본 발명에 따른 합성곱 신경망 기반 환경음 인식 시스템은, 오디오 신호를 입력받아 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)과 멜프리퀀시 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜스펙트로그램을 획득하는 멀티레졸루션 분석부; 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산 및 풀링 연산을 실행하여 환경음 라벨 데이터를 출력하는 합성곱 신경망 모듈부를 포함할 수 있다.
Int. CL G10L 15/16 (2006.01.01) G10L 15/06 (2006.01.01) G10L 13/02 (2006.01.01)
CPC
출원번호/일자 1020190032038 (2019.03.20)
출원인 한국과학기술원
등록번호/일자
공개번호/일자 10-2019-0110939 (2019.10.01) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보 대한민국  |   1020180032526   |   2018.03.21
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2019.03.20)
심사청구항수 10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국과학기술원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 유창동 대전광역시 유성구
2 박현신 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인위더피플 대한민국 서울특별시 서대문구 경기대로 **, 진양빌딩 *층(충정로*가)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2019.03.20 수리 (Accepted) 1-1-2019-0288358-64
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.04.24 수리 (Accepted) 4-1-2019-5081392-49
3 [대리인선임]대리인(대표자)에 관한 신고서
[Appointment of Agent] Report on Agent (Representative)
2019.09.11 수리 (Accepted) 1-1-2019-0936132-20
4 선행기술조사의뢰서
Request for Prior Art Search
2020.03.13 수리 (Accepted) 9-1-9999-9999999-89
5 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.05.15 수리 (Accepted) 4-1-2020-5108396-12
6 선행기술조사보고서
Report of Prior Art Search
2020.05.28 발송처리완료 (Completion of Transmission) 9-6-2020-0066483-51
7 의견제출통지서
Notification of reason for refusal
2020.05.29 발송처리완료 (Completion of Transmission) 9-5-2020-0372566-18
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.06.12 수리 (Accepted) 4-1-2020-5131486-63
9 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2020.07.29 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2020-0795619-58
10 [거절이유 등 통지에 따른 의견]의견서·답변서·소명서
2020.07.29 수리 (Accepted) 1-1-2020-0795618-13
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
오디오 신호를 입력받아 멀티레졸루션 단시간 푸리에 변환(Multi-resolution Short-Time Fourier Transform)과 멜프리퀀시 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜스펙트로그램을 획득하는 멀티레졸루션 분석부;상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산 및 풀링 연산을 실행하여 환경음 라벨 데이터를 출력하는 합성곱 신경망 모듈부;를 포함하는 합성곱 신경망 기반 환경음 인식 시스템
2 2
제1 항에 있어서,상기 멀티레졸루션 분석부는, 상기 입력된 오디오 신호를 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)을 통해 멀티레졸루션 스펙트로그램(Multi-resolution Spectrogram)으로 변환하고, 상기 멀티레졸루션 스펙트로그램을 비선형 주파수 변환인 멜프리퀀시(mel-frequency)와 삼각 필터뱅크에 기반한 멜프리퀀시 필터뱅크를 통해 멀티레졸루션 멜스펙트로그램(Multi-resolution mel-spectrogram)으로 변환하며, 상기 멀티레졸루션 멜스펙트로그램을 로그 변환해 멀티레졸루션 로그 멜스펙트로그램(Multi-resolution log mel-spectrogram)을 획득하여 상기 합성곱 신경망 모듈부에 출력하는 합성곱 신경망 기반 환경음 인식 시스템
3 3
제1 항에 있어서,상기 오디오 신호를 학습하기 위해 적어도 하나 이상 학습 데이터를 저장하고 있는 학습 데이터 저장부;를 더 포함하는 합성곱 신경망 기반 환경음 인식 시스템
4 4
제1 항에 있어서,상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산 및 풀링 연산을 실행하여 획득한 환경음 라벨 데이터를 학습하는 합성곱 신경망 학습 모듈부;를 더 포함하는 합성곱 신경망 기반 환경음 인식 시스템
5 5
제1 항에 있어서,상기 합성곱 신경망 모듈부는, 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산을 수행하는 적어도 하나 이상의 컨볼루션 레이어(Convolution Layer);상기 컨볼루션 레이어에서 출력된 합성곱 연산 데이터를 풀링 연산하는 적어도 하나 이상의 풀링 레이어(Pooling Layer); 상기 적어도 하나 이상의 풀링 레이어에서 출력된 풀링 연산 데이터를 병합하는 병합 레이어(Merging Layer); 및상기 병합 레이어에서 출력되는 데이터를 입력받아 각 환경음에 대한 확률을 출력하는 연결 레이어(fully connected layer);를 포함하는 합성곱 신경망 기반 환경음 인식 시스템
6 6
제5 항에 있어서,상기 컨볼루션 레이어는, 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 각 주파수(f) 별로 레이어의 출력을 제곱하고 시간축으로 평균하여 에너지(e_f)를 산출하며, 산출된 에너지(e_f)를 기반으로 각 주파수마다 드랍 아웃(dropout) 확률(p_f)을 결정하는 합성곱 신경망 기반 환경음 인식 시스템
7 7
제5 항에 있어서,상기 연결 레이어는, 상기 병합 레이어에서 출력되는 데이터를 입력받아 신경망(neural network)을 통해 환경음의 각 클래스에 대한 스코어를 계산하고, softmax 함수를 이용하여 각 환경음에 대한 확률을 출력하는 합성곱 신경망 기반 환경음 인식 시스템
8 8
제7 항에 있어서,상기 드랍 아웃(dropout) 확률(p_f)은, 다음 수학식에 따라 산출되는,(a, b는 hyper-parameter)합성곱 신경망 기반 환경음 인식 시스템
9 9
(a) 멀티레졸루션 분석부에서 오디오 신호를 입력받는 단계;(b) 멀티레졸루션 분석부에서 상기 오디오 신호를 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)과 멜프리퀀시(mel-frequency) 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜스펙트로그램을 획득하는 단계;(c) 합성곱 신경망 모듈부에서 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받는 단계;(d) 컨볼루션 레이어에서 상기 멀티레졸루션 로그 멜스펙트로그램을 합성곱 연산하는 단계;(e) 풀링 레이어에서 상기 합성곱 연산 데이터를 풀링 연산하는 단계;(f) 병합 레이어에서 상기 풀링 연산 데이터를 병합하는 단계; 및(g) 연결 레이어에서 상기 병합 데이터를 입력받아 각 환경음에 대한 확률을 출력하는 단계;를 포함하는 합성곱 신경망 기반 환경음 인식 방법
10 10
제9 항에 있어서,상기 (b) 단계에서 상기 멀티레졸루션 분석부는, 상기 입력된 오디오 신호를 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)을 통해 멀티레졸루션 스펙트로그램(Multi-resolution Spectrogram)으로 변환하고, 상기 멀티레졸루션 스펙트로그램을 비선형 주파수 변환인 멜프리퀀시(mel-frequency)와 삼각 필터뱅크에 기반한 멜프리퀀시 필터뱅크를 통해 멀티레졸루션 멜스펙트로그램(Multi-resolution mel-spectrogram)으로 변환하며, 상기 멀티레졸루션 멜스펙트로그램을 로그 변환해 멀티레졸루션 로그 멜스펙트로그램(Multi-resolution log mel-spectrogram)을 획득하여 상기 합성곱 신경망 모듈부에 출력하는 합성곱 신경망 기반 환경음 인식 방법
11 11
제9 항에 있어서,상기 (d) 단계에서 상기 컨볼루션 레이어는, 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 각 주파수(f) 별로 레이어의 출력을 제곱하고 시간축으로 평균하여 에너지(e_f)를 산출하며, 산출된 에너지(e_f)를 기반으로 각 주파수마다 드랍 아웃(dropout) 확률(p_f)을 결정하는 합성곱 신경망 기반 환경음 인식 방법
12 12
제11 항에 있어서,상기 드랍 아웃(dropout) 확률(p_f)은, 다음 수학식에 따라 산출되는,(a, b는 하이퍼 파라미터(hyper-parameter)를 나타냄)합성곱 신경망 기반 환경음 인식 방법
13 13
제9 항에 있어서,상기 (g) 단계에서 상기 연결 레이어는, 상기 병합 레이어에서 출력되는 데이터를 입력받아 신경망(neural network)을 통해 환경음의 각 클래스에 대한 스코어를 계산하고, softmax 함수를 이용하여 각 환경음에 대한 확률을 출력하는 합성곱 신경망 기반 환경음 인식 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.