1 |
1
신경망 모델을 이용한 오디오 신호의 부호화 방법에 있어서, 입력 신호를 식별하는 단계; 상기 입력 신호를 부호화하는 신경망 모델에 상기 입력 신호를 입력함으로써 양자화된 잠재 벡터들을 생성하는 단계; 및 상기 양자화된 잠재 벡터에 대응하는 비트스트림을 생성하는 단계를 포함하고,상기 신경망 모델은, i) 상기 입력 신호의 특징을 추출하여 잠재 벡터를 생성하는 특징 추출 계층, ii) 상기 잠재 벡터를 다운 샘플링하는 복수의 다운 샘플링 블록, iii) 다운 샘플링된 잠재 벡터의 양자화를 수행하는 복수의 양자화 블록을 포함하는,부호화 방법
|
2 |
2
제1항에 있어서, 상기 복수의 양자화 블록 각각은, 상기 복수의 다운 샘플링 블록에 의하여 서로 다른 시간 해상도로 다운 샘플링된 잠재 벡터들을 양자화하는, 부호화 방법
|
3 |
3
제2항에 있어서, 상기 복수의 양자화 블록 각각은, 상기 다운 샘플링된 잠재 벡터를 변환하는 변환 계층, 코드북(codebook)에 기초하여 상기 변환 계층에서 변환된 잠재 벡터를 벡터 양자화(vector quantization)를 수행하는 벡터 양자화 계층을 포함하는, 부호화 방법
|
4 |
4
제3항에 있어서, 상기 벡터 양자화 계층은, 상기 코드북에서 상기 변환된 잠재 벡터와 거리가 가장 가까운 코드를 결정함으로써 상기 잠재 벡터의 벡터 양자화를 수행하는, 부호화 방법
|
5 |
5
제1항에 있어서, 상기 다운 샘플링 블록은, 합성곱 연산을 수행하는 합성곱 계층, 상기 합성곱 계층의 연산 결과에 맥스 풀링(max-pooling) 연산을 처리하는 맥스풀 계층을 포함하는, 부호화 방법
|
6 |
6
제5항에 있어서, 상기 다운 샘플링 블록은, 상기 잠재 벡터의 비선형성을 높이는 잔차 블록을 더 포함하고, 상기 잔차 블록은,합성곱 연산을 수행하는 합성곱 계층, 배치 정규화(batch normalization)를 수행하는 배치 정규화 계층 및 활성화 계층을 포함하는, 부호화 방법
|
7 |
7
신경망 모델을 이용한 오디오 신호의 복호화 방법에 있어서,부호화기로부터 생성된 비트스트림을 식별하는 단계; 및상기 비트스트림으로부터 출력 신호를 생성하는 신경망 모델에 상기 비트스트림을 입력함으로써 출력 신호를 생성하는 단계를 포함하고,상기 신경망 모델은, 상기 비트스트림으로부터 서로 다른 해상도를 가지는 양자화된 잠재 벡터들을 추출하는 복수의 역-양자화 블록, 역-양자화된 잠재 벡터들을 업샘플링하는 복수의 업샘플링 블록, 상기 업샘플링된 잠재 벡터들로부터 출력 신호를 생성하는 복원 계층을 포함하는, 복호화 방법
|
8 |
8
제7항에 있어서, 상기 복수의 업샘플링 블록은,시간 해상도가 낮은 순으로 상기 잠재 벡터들을 업샘플링하고, 상기 복수의 업샘플링 블록 중 현재 업샘플링 블록은,i) 상기 잠재 벡터들 중 이전 업샘플링 블록에 의해 업샘플링된 잠재 벡터와 시간 해상도가 동일한 잠재 벡터 및 ii) 상기 이전 업샘플링 블록에 의해 업샘플링된 잠재 벡터가 결합된 잠재 벡터를 업샘플링하는, 복호화 방법
|
9 |
9
제7항에 있어서, 상기 역-양자화 블록은, 상기 잠재 벡터의 비선형성을 높이는 잔차 블록, 합성곱 연산을 수행하는 합성곱 계층을 포함하는, 복호화 방법
|
10 |
10
신경망 모델을 이용한 오디오 신호의 부호화 방법을 수행하는 부호화기에 있어서, 상기 부호화기는, 프로세서를 포함하고,상기 프로세서는, 입력 신호를 식별하고, 상기 입력 신호를 부호화하는 신경망 모델에 상기 입력 신호를 입력함으로써 양자화된 잠재 벡터들을 생성하고, 상기 양자화된 잠재 벡터에 대응하는 비트스트림을 생성하고, 상기 신경망 모델은, i) 상기 입력 신호의 특징을 추출하여 잠재 벡터를 생성하는 특징 추출 계층, ii) 상기 잠재 벡터를 다운 샘플링하는 복수의 다운 샘플링 블록, iii) 다운 샘플링된 잠재 벡터의 양자화를 수행하는 복수의 양자화 블록을 포함하는,부호화기
|
11 |
11
제10항에 있어서, 상기 복수의 양자화 블록 각각은, 상기 복수의 다운 샘플링 블록에 의하여 서로 다른 시간 해상도로 다운 샘플링된 잠재 벡터들을 양자화하는, 부호화기
|
12 |
12
제11항에 있어서, 상기 복수의 양자화 블록 각각은, 상기 다운 샘플링된 잠재 벡터를 변환하는 변환 계층, 코드북(codebook)에 기초하여 상기 변환 계층에서 변환된 잠재 벡터를 벡터 양자화(vector quantization)를 수행하는 벡터 양자화 계층을 포함하는, 부호화기
|
13 |
13
제12항에 있어서, 상기 벡터 양자화 계층은, 상기 코드북에서 상기 변환된 잠재 벡터와 거리가 가장 가까운 코드를 결정함으로써 상기 잠재 벡터의 벡터 양자화를 수행하는, 부호화기
|
14 |
14
제10항에 있어서, 상기 다운 샘플링 블록은, 합성곱 연산을 수행하는 합성곱 계층, 상기 합성곱 계층의 연산 결과에 맥스 풀링(max-pooling) 연산을 처리하는 맥스풀 계층을 포함하는, 부호화기
|
15 |
15
제14항에 있어서, 상기 다운 샘플링 블록은, 상기 잠재 벡터의 비선형성을 높이는 잔차 블록을 더 포함하고, 상기 잔차 블록은,합성곱 연산을 수행하는 합성곱 계층, 배치 정규화(batch normalization)를 수행하는 배치 정규화 계층 및 활성화 계층을 포함하는, 부호화기
|
16 |
16
신경망 모델을 이용한 오디오 신호의 복호화 방법을 수행하는 복호화기에 있어서,상기 복호화기는, 프로세서를 포함하고,상기 프로세서는, 부호화기로부터 생성된 비트스트림을 식별하고, 상기 비트스트림으로부터 출력 신호를 생성하는 신경망 모델에 상기 비트스트림을 입력함으로써 출력 신호를 생성하고, 상기 신경망 모델은, 상기 비트스트림으로부터 서로 다른 해상도를 가지는 양자화된 잠재 벡터들을 추출하는 복수의 역-양자화 블록, 역-양자화된 잠재 벡터들을 업샘플링하는 복수의 업샘플링 블록, 상기 업샘플링된 잠재 벡터들로부터 출력 신호를 생성하는 복원 계층을 포함하는, 복호화기
|
17 |
17
제16항에 있어서, 상기 복수의 업샘플링 블록은,시간 해상도가 낮은 순으로 상기 잠재 벡터들을 업샘플링하고, 상기 복수의 업샘플링 블록 중 현재 업샘플링 블록은,i) 상기 잠재 벡터들 중 이전 업샘플링 블록에 의해 업샘플링된 잠재 벡터와 시간 해상도가 동일한 잠재 벡터 및 ii) 상기 이전 업샘플링 블록에 의해 업샘플링된 잠재 벡터가 결합된 잠재 벡터를 업샘플링하는, 복호화기
|
18 |
18
제16항에 있어서, 상기 역-양자화 블록은, 상기 잠재 벡터의 비선형성을 높이는 잔차 블록, 합성곱 연산을 수행하는 합성곱 계층을 포함하는, 복호화기
|