맞춤기술찾기

이전대상기술

차분 특징을 이용한 소리 이벤트 검출 모델 기반의 소리 이벤트 검출 방법 및 장치

  • 기술번호 : KST2023010252
  • 담당센터 : 대구기술혁신센터
  • 전화번호 : 053-550-1450
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 차분 특징을 이용한 소리 이벤트 검출 모델 기반의 소리 이벤트 검출 방법 및 장치가 개시된다. 소리 이벤트 검출 방법은 오디오 신호를 수신하는 단계; 상기 오디오 신호에서 오디오 신호의 원본 특징들을 추출하는 단계; 상기 원본 특징들을 기초로 차분 특징을 추출하는 단계; 상기 원본 특징들 및 상기 차분 특징을 기초로 입력 특징맵을 구성하는 단계; 및 상기 입력 특징맵을 소리 이벤트 검출 모델에 입력하여 검출 결과를 출력하는 단계를 포함할 수 있다.
Int. CL G10L 17/26 (2013.01.01) G10L 25/24 (2013.01.01) G06N 20/00 (2019.01.01)
CPC G10L 17/26(2013.01) G10L 25/24(2013.01) G06N 20/00(2013.01)
출원번호/일자 1020220054210 (2022.05.02)
출원인 계명대학교 산학협력단
등록번호/일자
공개번호/일자 10-2023-0154597 (2023.11.09) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2022.05.02)
심사청구항수 18

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 계명대학교 산학협력단 대한민국 대구광역시 달서구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 정용주 대구광역시 수성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인 무한 대한민국 서울특별시 강남구 언주로 ***, *층(역삼동,화물재단빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2022.05.02 수리 (Accepted) 1-1-2022-0468721-06
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
오디오 신호를 수신하는 단계;상기 오디오 신호에서 오디오 신호의 원본 특징들을 추출하는 단계;상기 원본 특징들을 기초로 차분 특징을 추출하는 단계;상기 원본 특징들 및 상기 차분 특징을 기초로 입력 특징맵을 구성하는 단계; 및상기 입력 특징맵을 소리 이벤트 검출 모델에 입력하여 검출 결과를 출력하는 단계를 포함하는 소리 이벤트 검출 방법
2 2
제1항에 있어서,상기 원본 특징들을 추출하는 단계는,상기 오디오 신호를 샘플링하여 STFT(Short-Time Fourier Transform)를 계산하는 단계;상기 오디오 신호의 STFT값으로부터 멜-필터뱅크 값을 결정하는 단계; 및상기 멜-필터뱅크 값을 로그 변환한 로그-멜-필터뱅크 값을 상기 원본 특징들로 추출하는 단계를 포함하는 소리 이벤트 검출 방법
3 3
제1항에 있어서,상기 차분 특징을 추출하는 단계는,상기 오디오 신호의 프레임들 각각에서 추출한 원본 특징들 간의 차이를 나타내는 1차 차분 특징들을 생성하는 단계; 및상기 1차 차분 특징들 간의 차이를 나타내는 2차 차분 특징들을 생성하는 단계를 포함하는 소리 이벤트 검출 방법
4 4
제1항에 있어서,상기 소리 이벤트 검출 모델은,학습 데이터의 원본 특징들, 1차 차분 특징들 및 2차 차분 특징들로 구성된 입력 특징맵을 이용하여 학습된 모델인 소리 이벤트 검출 방법
5 5
제1항에 있어서,상기 소리 이벤트 검출 모델은,복수의 CNN 블록을 이용하여 상기 입력 특징맵에 대한 차원 축소를 수행한 후, 트랜스포머 인코더를 적용하는 베이스라인 트랜스포머;컨볼루션 블록과 결합된 트랜스포머 인코더들을 이용하여 학습 데이터의 멀티 스케일 특징을 추출하는 멀티-스케일 추출 모듈; 및상기 멀티-스케일 추출 모듈의 출력에 포함된 상기 오디오 신호의 프레임 레벨 데이터로부터 프레임 레벨 예측을 수행하여 상기 오디오 신호의 오디오 클래스를 분류하는 분류 레이어를 포함하는 소리 이벤트 검출 방법
6 6
학습 데이터를 수신하는 단계;상기 학습 데이터에서 상기 학습 데이터의 원본 특징들을 추출하는 단계;상기 원본 특징들을 기초로 차분 특징을 추출하는 단계;상기 원본 특징들 및 상기 차분 특징을 기초로 입력 특징맵을 구성하는 단계; 및상기 입력 특징맵을 이용하여 소리 이벤트 검출 모델을 학습하는 단계를 포함하는 소리 이벤트 검출 모델 학습 방법
7 7
제6항에 있어서,상기 학습 데이터는,약전사(Weak label) 레이블, 강전사(Strong label) 레이블, 및 비전사(Un-label) 레이블을 포함하는 소리 이벤트 검출 모델 학습 방법
8 8
제7항에 있어서,상기 소리 이벤트 검출 모델은,상기 입력 특징맵의 주파수 영역의 정보를 감소시키는 복수의 컨볼루션 블록들;쌍방향 GRU(Gated Recurrent Unit);상기 학습 데이터의 오디오 클래스를 분류하는 분류 레이어(Classification layer); 및 상기 분류 레이어의 출력을 클립(Clip) 전체 구간에 대하여 평균하여 출력하는 글로벌 평균 풀링 레이어(global average pooling layer)를 포함하고,상기 학습 데이터가 강전사 레이블인 경우, 상기 분류 레이어의 출력을 소리 이벤트 검출 결과로 출력하며, 상기 학습 데이터가 약전사 레이블인 경우, 상기 분류 레이어의 출력을 입력받은 글로벌 평균 풀링 레이어의 출력을 소리 이벤트 검출 결과로 출력하는 소리 이벤트 검출 모델 학습 방법
9 9
제6항에 있어서,상기 소리 이벤트 검출 모델은,복수의 CNN 블록을 이용하여 상기 입력 특징맵에 대한 차원 축소를 수행한 후, 트랜스포머 인코더를 적용하는 베이스라인 트랜스포머;컨볼루션 블록과 결합된 트랜스포머 인코더들을 이용하여 상기 학습 데이터의 멀티 스케일 특징을 추출하는 멀티-스케일 추출 모듈; 및상기 멀티-스케일 추출 모듈의 출력을 이용하여 상기 학습 데이터의 오디오 클래스를 분류하는 분류 레이어를 포함하는 소리 이벤트 검출 모델 학습 방법
10 10
제9항에 있어서,상기 분류 레이어는,상기 학습 데이터의 프레임 레벨 데이터와 클립 레벨 데이터로부터 각각 프레임 레벨 예측과 클립 레벨 예측을 수행하여 상기 학습 데이터의 오디오 클래스를 분류하는 소리 이벤트 검출 모델 학습 방법
11 11
제6항에 있어서,상기 원본 특징들을 추출하는 단계는,상기 학습 데이터를 샘플링하여 STFT(Short-Time Fourier Transform)를 계산하는 단계;상기 학습 데이터의 STFT값으로부터 멜-필터뱅크 값을 결정하는 단계; 및상기 멜-필터뱅크 값을 로그 변환한 로그-멜-필터뱅크 값을 상기 원본 특징들로 추출하는 단계를 포함하는 소리 이벤트 검출 모델 학습 방법
12 12
제6항에 있어서,상기 차분 특징을 추출하는 단계는,상기 학습 데이터의 프레임들 각각에서 추출한 원본 특징들 간의 차이를 나타내는 1차 차분 특징들을 생성하는 단계; 및상기 1차 차분 특징들 간의 차이를 나타내는 2차 차분 특징들을 생성하는 단계를 포함하는 소리 이벤트 검출 모델 학습 방법
13 13
제1항 내지 제12항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체
14 14
오디오 신호를 오디오 신호에서 오디오 신호의 원본 특징들을 추출하고,상기 원본 특징들을 기초로 차분 특징을 추출하며, 상기 원본 특징들 및 상기 차분 특징을 기초로 입력 특징맵을 구성하고, 상기 입력 특징맵을 소리 이벤트 검출 모델에 입력하여 검출 결과를 출력하는 프로세서를 포함하는 소리 이벤트 검출 장치
15 15
제14항에 있어서,상기 프로세서는,상기 오디오 신호의 프레임들 각각에서 추출한 원본 특징들 간의 차이를 나타내는 1차 차분 특징들을 생성하고, 상기 1차 차분 특징들 간의 차이를 나타내는 2차 차분 특징들을 생성하는 소리 이벤트 검출 장치
16 16
제14항에 있어서,상기 소리 이벤트 검출 모델은,학습 데이터의 원본 특징들, 1차 차분 특징들 및 2차 차분 특징들로 구성된 입력 특징맵을 이용하여 학습된 모델인 소리 이벤트 검출 장치
17 17
학습 데이터에서 상기 학습 데이터의 원본 특징들을 추출하고, 상기 원본 특징들을 기초로 차분 특징을 추출하며,상기 원본 특징들 및 상기 차분 특징을 기초로 입력 특징맵을 구성하고,상기 입력 특징맵을 이용하여 소리 이벤트 검출 모델을 학습하는 프로세서를 포함하는 소리 이벤트 검출 모델 학습 장치
18 18
제17항에 있어서,상기 학습 데이터는,약전사(Weak label) 레이블, 강전사(Strong label) 레이블, 및 비전사(Un-label) 레이블을 포함하는 소리 이벤트 검출 모델 학습 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.