맞춤기술찾기

이전대상기술

오디오 신호의 처리 방법 및 장치

  • 기술번호 : KST2021009899
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 오디오 신호의 처리 방법 및 장치가 개시된다. 본 발명의 일실시예에 따른 오디오 신호의 처리 방법은 입력 오디오 신호을 인코딩 및 디코딩하여 출력 오디오 신호를 생성하는 복수의 신경망 모델을 이용하여 초기 오디오 신호에 대한 최종 오디오 신호를 획득하는 단계; 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 시간 도메인에서 계산하는 단계; 상기 초기 오디오 신호와 상기 최종 오디오 신호를 멜 스펙트럼(mel spectrum)으로 변환하는 단계; 상기 초기 오디오 신호와 상기 최종 오디오 신호의 멜 스펙트럼 간의 차이를 주파수 도메인에서 계산하는 단계; 상기 시간 도메인 및 주파수 도메인에서 계산된 결과에 기초하여 상기 복수의 신경망 모델을 트레이닝하는 단계; 및 상기 트레이닝된 신경망 모델들을 이용하여 상기 초기 오디오 신호로부터 상기 최종 오디오 신호와 구별되는 새로운 최종 오디오 신호를 생성하는 단계를 포함할 수 있다.
Int. CL G10L 19/02 (2006.01.01) G10L 21/0216 (2013.01.01) G10L 25/30 (2013.01.01) G10L 25/18 (2013.01.01) G06N 3/08 (2006.01.01)
CPC G10L 19/02(2013.01) G10L 21/0216(2013.01) G10L 25/30(2013.01) G10L 25/18(2013.01) G06N 3/08(2013.01)
출원번호/일자 1020200056492 (2020.05.12)
출원인 한국전자통신연구원, 더 트러스티즈 오브 인디애나 유니버시티
등록번호/일자
공개번호/일자 10-2021-0096542 (2021.08.05) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보 미국  |   62/966,917   |   2020.01.28
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.11.05)
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구
2 더 트러스티즈 오브 인디애나 유니버시티 미국 미국 인디애나 ***** 인디애나폴리스 인디애나 애비뉴

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이미숙 대전광역시 유성구
2 백승권 대전광역시 유성구
3 성종모 대전광역시 유성구
4 이태진 대전광역시 유성구
5 최진수 대전광역시 유성구
6 김민제 미국 ***** 인디애나
7 카이 젠 미국 ***** 인디애나주

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인 무한 대한민국 서울특별시 강남구 언주로 ***, *층(역삼동,화물재단빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.05.12 수리 (Accepted) 1-1-2020-0477993-38
2 우선권주장증명서류제출서(USPTO)
Submission of Priority Certificate(USPTO)
2020.05.14 수리 (Accepted) 9-1-2020-9004316-12
3 [심사청구]심사청구서·우선심사신청서
2020.11.05 수리 (Accepted) 1-1-2020-1182585-17
4 선행기술조사의뢰서
Request for Prior Art Search
2021.02.18 수리 (Accepted) 9-1-9999-9999999-89
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
입력 오디오 신호을 인코딩 및 디코딩하여 출력 오디오 신호를 생성하는 복수의 신경망 모델을 이용하여 초기 오디오 신호에 대한 최종 오디오 신호를 획득하는 단계;상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 시간 도메인에서 계산하는 단계; 상기 초기 오디오 신호와 상기 최종 오디오 신호를 멜 스펙트럼(mel spectrum)으로 변환하는 단계; 상기 초기 오디오 신호와 상기 최종 오디오 신호의 멜 스펙트럼 간의 차이를 주파수 도메인에서 계산하는 단계; 상기 시간 도메인 및 주파수 도메인에서 계산된 결과에 기초하여 상기 복수의 신경망 모델을 트레이닝하는 단계; 및 상기 트레이닝된 신경망 모델들을 이용하여 상기 초기 오디오 신호로부터 상기 최종 오디오 신호와 구별되는 새로운 최종 오디오 신호를 생성하는 단계를 포함하는 처리 방법
2 2
제1항에 있어서, 상기 신경망 모델들을 트레이닝하는 단계는,상기 시간 도메인에서 계산된 결과와 상기 주파수 도메인에서 계산된 결과를 합한 결과가 최소가 되도록 상기 신경망 모델에 포함되는 파라미터들을 업데이트하는, 처리 방법
3 3
제1항에 있어서,상기 복수의 신경망은,연속적인 관계로서 i번째 신경망 모델은 i-1번째 신경망 모델의 출력 오디오 신호와 i-1번째 신경망 모델의 입력 오디오 신호 간의 차이를 입력 오디오 신호로 하여 출력 오디오 신호를 생성하는, 처리 방법
4 4
제3항에 있어서, 상기 최종 오디오 신호는,상기 복수의 신경망 각각의 출력 오디오 신호를 합한 결과 오디오 신호인, 처리 방법
5 5
입력 오디오 신호을 인코딩 및 디코딩하여 출력 오디오 신호를 생성하는 복수의 신경망 모델을 이용하여 초기 오디오 신호에 대한 최종 오디오 신호를 획득하는 단계;심리 음향 모델을 통해 상기 초기 오디오 신호에 대한 전력 스펙트럼 밀도와 마스킹 임계치를 획득하는 단계; 주파수 별로 상기 마스킹 임계치와 상기 전력 스펙트럼 밀도의 관계에 따라 가중치를 결정하는 단계; 상기 결정된 가중치에 기초하여 주파수 별로 상기 초기 오디오 신호의 전력 스펙트럼 밀도와 상기 최종 오디오 신호의 전력 스펙트럼 밀도 간의 차이를 계산하는 단계; 상기 계산한 결과에 따라 상기 신경망 모델들을 트레이닝하는 단계; 및상기 트레이닝된 신경망 모델들을 이용하여 상기 초기 오디오 신호로부터 상기 최종 오디오 신호와 구별되는 새로운 최종 오디오 신호를 생성하는 단계를 포함하는 처리 방법
6 6
제5항에 있어서, 상기 신경망 모델들을 트레이닝하는 단계는,상기 계산한 결과가 최소가 되도록 상기 신경망 모델에 포함되는 파라미터들을 업데이트하는, 처리 방법
7 7
제5항에 있어서,상기 마스킹 임계치는,상기 심리 음향 모델로 결정되는 상기 초기 오디오 신호의 음압을 고려하여 상기 신경망 모델들의 인코딩 및 디코딩 과정에서 발생하는 노이즈(noise)를 마스킹하는 기준인, 처리 방법
8 8
제5항에 있어서,상기 가중치를 결정하는 단계는,상기 마스킹 임계치에 대한 상기 초기 오디오 신호의 전력 스펙트럼 밀도가 클수록 특정 주파수에서 상기 가중치를 높게 결정하고, 상기 초기 오디오 신호의 전력 스펙트럼 밀도에 대해 상기 마스킹 임계치가 클수록 상기 특정 주파수에서 상기 가중치를 낮게 결정하는, 처리 방법
9 9
입력 오디오 신호을 인코딩 및 디코딩하여 출력 오디오 신호를 생성하는 복수의 신경망 모델을 이용하여 초기 오디오 신호에 대한 최종 오디오 신호를 획득하는 단계;심리 음향 모델을 통해 상기 초기 오디오 신호에 대한 마스킹 임계치를 획득하는 단계;상기 초기 오디오 신호의 인코딩 및 디코딩 과정에서 발생한 노이즈를 상기 최종 오디오 신호에서 식별하는 단계; 주파수 별로 상기 마스킹 임계치와 상기 최종 오디오 신호에 포함되는 노이즈 간의 차이를 계산하는 단계; 상기 계산한 결과에 따라 상기 신경망 모델들을 트레이닝하는 단계; 및상기 트레이닝된 신경망 모델들을 이용하여 상기 초기 오디오 신호로부터 상기 최종 오디오 신호와 구별되는 새로운 최종 오디오 신호를 생성하는 단계를 포함하는 처리 방법
10 10
제9항에 있어서, 상기 신경망 모델들을 트레이닝하는 단계는,상기 계산한 결과가 최소가 되도록 상기 신경망 모델에 포함되는 파라미터들을 업데이트하는, 처리 방법
11 11
제9항에 있어서,상기 마스킹 임계치는,상기 심리 음향 모델로 결정되는 상기 초기 오디오 신호의 음압을 고려하여 상기 신경망 모델들의 인코딩 및 디코딩 과정에서 발생하는 노이즈를 마스킹하는 기준인, 처리 방법
12 12
입력 오디오 신호을 인코딩 및 디코딩하여 출력 오디오 신호를 생성하는 복수의 신경망 모델을 이용하여 초기 오디오 신호에 대한 최종 오디오 신호를 획득하는 단계; 심리 음향 모델을 이용하여 상기 초기 오디오 신호의 전력 스펙트럼 밀도 및 마스킹 임계치를 결정하는 단계; i) 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 시간 도메인에서 계산하는 제1 손실 함수 및 ii) 상기 초기 오디오 신호와 상기 최종 오디오 신호 간에 멜 스펙트럼(mel spectrum)의 차이를 주파수 도메인에서 계산하는 제2 손실 함수 및 iii) 상기 초기 오디오 신호의 전력 스펙트럼 밀도와 상기 마스킹 임계치의 관계에 기초하여 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 주파수 도메인에서 계산하는 제3 손실 함수를 통해 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 계산하는 단계;상기 제1 내지 3 손실 함수를 통해 계산된 결과에 기초하여 상기 복수의 신경망 모델에 포함되는 파라미터들을 업데이트하는 단계; 및 상기 파라미터들이 업데이트된 신경망 모델들을 이용하여 상기 초기 오디오 신호로부터 상기 최종 오디오 신호와 구별되는 새로운 최종 오디오 신호를 생성하는 단계를 포함하는 처리 방법
13 13
제12항에 있어서,상기 마스킹 임계치는,상기 심리 음향 모델로 결정되는 상기 초기 오디오 신호의 음압을 고려하여 상기 신경망 모델들의 인코딩 및 디코딩 과정에서 발생하는 노이즈(noise)를 마스킹하는 기준인, 처리 방법
14 14
제12항에 있어서,상기 제3 손실 함수를 통해 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 계산하는 단계는,주파수 별로 상기 마스킹 임계치와 상기 전력 스펙트럼 밀도의 관계에 따라 가중치를 결정하는 단계; 및상기 결정된 가중치에 기초하여 상기 제3 손실 함수를 통해 주파수 별로 상기 초기 오디오 신호의 전력 스펙트럼 밀도와 상기 최종 오디오 신호의 전력 스펙트럼 밀도 간의 차이를 계산하는 단계를 포함하는, 처리 방법
15 15
제14항에 있어서,상기 가중치를 결정하는 단계는,상기 마스킹 임계치에 대한 상기 초기 오디오 신호의 전력 스펙트럼 밀도가 클수록 특정 주파수에서 상기 가중치를 높게 결정하고, 상기 초기 오디오 신호의 전력 스펙트럼 밀도에 대해 상기 마스킹 임계치가 클수록 상기 특정 주파수에서 상기 가중치를 낮게 결정하는, 처리 방법
16 16
a) 입력 오디오 신호을 인코딩 및 디코딩하여 출력 오디오 신호를 생성하는 복수의 신경망 모델을 이용하여 초기 오디오 신호에 대한 최종 오디오 신호를 획득하는 단계; b) 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 시간 도메인에서 계산하는 단계; c) 상기 초기 오디오 신호와 상기 최종 오디오 신호 간에 멜 스펙트럼(mel spectrum)의 차이를 주파수 도메인에서 계산하는 단계;d) 심리 음향 모델을 이용하여 마스킹 임계치를 결정하는 단계; e) 상기 심리 음향 모델을 통해 결정되는 상기 최종 오디오 신호의 노이즈와 상기 초기 오디오 신호의 마스킹 임계치 간의 차이를 주파수 도메인에서 계산하는 단계;상기 b), c) 및 d) 단계에서 계산된 결과들에 기초하여 상기 복수의 신경망 모델에 포함되는 파라미터들을 업데이트하는 단계; 및상기 파라미터들이 업데이트된 신경망 모델들을 이용하여 상기 초기 오디오 신호로부터 새로운 최종 오디오 신호를 생성하는 단계를 포함하는 처리 방법
17 17
제16항에 있어서,상기 마스킹 임계치는,상기 심리 음향 모델로 결정되는 상기 초기 오디오 신호의 음압을 고려하여 상기 신경망 모델들의 인코딩 및 디코딩 과정에서 발생하는 노이즈를 마스킹하는 기준인, 처리 방법
18 18
입력 오디오 신호을 인코딩 및 디코딩하여 출력 오디오 신호를 생성하는 복수의 신경망 모델을 이용하여 초기 오디오 신호에 대한 최종 오디오 신호를 획득하는 단계; i) 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 시간 도메인에서 계산하는 제1 손실 함수, ii) 상기 초기 오디오 신호와 상기 최종 오디오 신호 간에 멜 스펙트럼(mel spectrum)의 차이를 주파수 도메인에서 계산하는 제2 손실 함수, iii) 심리 음향 모델을 통해 결정되는 상기 초기 오디오 신호의 전력 스펙트럼 밀도와 마스킹 임계치의 관계에 기초하여 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 주파수 대역에서 계산하는 제3 손실 함수 및 iv) 상기 심리 음향 모델을 통해 결정되는 상기 최종 오디오 신호에 포함된 노이즈와 상기 초기 오디오 신호의 마스킹 임계치 간의 차이를 주파수 대역에서 계산하는 제4 손실 함수를 이용하여 상기 복수의 신경망 모델들을 트레이닝하는 단계; 및상기 트레이닝된 신경망 모델들을 이용하여 상기 초기 오디오 신호로부터 상기 최종 오디오 신호와 구별되는 새로운 최종 오디오 신호를 생성하는 단계를 포함하는 처리 방법
19 19
오디오 신호의 처리 장치에 있어서,상기 처리 장치는 프로세서를 포함하고,상기 프로세서는,입력 오디오 신호을 인코딩 및 디코딩하여 출력 오디오 신호를 생성하는 복수의 신경망 모델을 이용하여 초기 오디오 신호에 대한 최종 오디오 신호를 획득하고, i) 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 시간 도메인에서 계산하는 제1 손실 함수, ii) 상기 초기 오디오 신호와 상기 최종 오디오 신호 간에 멜 스펙트럼(mel spectrum)의 차이를 주파수 도메인에서 계산하는 제2 손실 함수, iii) 심리 음향 모델을 통해 결정되는 상기 초기 오디오 신호의 전력 스펙트럼 밀도와 마스킹 임계치의 관계에 기초하여 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 주파수 대역에서 계산하는 제3 손실 함수 및 iv) 상기 심리 음향 모델을 통해 결정되는 상기 최종 오디오 신호에 포함된 노이즈와 상기 초기 오디오 신호의 마스킹 임계치 간의 차이를 주파수 대역에서 계산하는 제4 손실 함수를 이용하여 상기 복수의 신경망 모델들을 트레이닝하고, 상기 트레이닝된 신경망 모델들을 이용하여 상기 초기 오디오 신호로부터 상기 최종 오디오 신호와 구별되는 새로운 최종 오디오 신호를 생성하는,처리 장치
20 20
오디오 신호의 처리 장치에 있어서,상기 처리 장치는 프로세서를 포함하고,상기 프로세서는,입력 오디오 신호을 인코딩 및 디코딩하여 출력 오디오 신호를 생성하는 복수의 신경망 모델을 이용하여 초기 오디오 신호에 대한 최종 오디오 신호를 획득하고, i) 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 시간 도메인에서 계산하는 제1 손실 함수, ii) 상기 초기 오디오 신호와 상기 최종 오디오 신호 간에 멜 스펙트럼(mel spectrum)의 차이를 주파수 도메인에서 계산하는 제2 손실 함수, iii) 심리 음향 모델을 통해 결정되는 상기 초기 오디오 신호의 전력 스펙트럼 밀도와 마스킹 임계치의 관계에 기초하여 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 주파수 대역에서 계산하는 제3 손실 함수 및 iv) 상기 심리 음향 모델을 통해 결정되는 상기 최종 오디오 신호에 포함된 노이즈와 상기 초기 오디오 신호의 마스킹 임계치 간의 차이를 주파수 대역에서 계산하는 제4 손실 함수 중 적어도 하나 이상의 손실 함수를 이용하여 상기 초기 오디오 신호와 상기 최종 오디오 신호의 차이를 계산하고, 상기 계산된 결과에 기초하여 상기 복수의 신경망 모델들을 트레이닝하고, 상기 트레이닝된 신경망 모델들을 이용하여 상기 초기 오디오 신호로부터 상기 최종 오디오 신호와 구별되는 새로운 최종 오디오 신호를 생성하는,처리 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 한국전자통신연구원 ETRI 연구개발지원사업 초실감 테라미디어를 위한 AV부호화 및 LF미디어 원천기술 개발