1 |
1
복수의 소리 샘플을 획득하는 송수신부;각 소리 샘플을 전처리하여 스펙트로그램(Spectrogram)으로 변환하는 전처리부; 및상기 각 소리 샘플의 스펙트로그램을 음색에 대한 정보가 최대화되는 잠재코드를 출력하도록 기 학습된 인공신경망의 인코더에 입력하여 복수의 잠재코드(Latent Code)를 생성하고, 상기 각 소리 샘플에 기 설정된 가중치를 기초로, 상기 복수의 잠재코드를 합성하여 하나의 합성 잠재코드를 생성하며, 상기 합성 잠재코드를 상기 기 학습된 인공신경망의 디코더에 입력하여 합성 음을 생성하는 제어부를 포함하는음 합성 장치
|
2 |
2
제 1 항에 있어서,상기 전처리부는,STFT(Shot-Time Fourier Transform)를 이용하여 상기 각 소리 샘플을 상기 스펙트로그램으로 변환하는음 합성 장치
|
3 |
3
제 1 항에 있어서,상기 전처리부는,상기 각 소리 샘플이 단일 프레임인지 여부를 판단하고, 상기 각 소리 샘플이 단일 프레임인 경우, 상기 각 소리 샘플을 전처리한 상기 단일 프레임에 대응하는 단일 시간 단계의 스펙트로그램을 상기 스펙트로그램으로서 획득하며, 상기 복수의 소리 샘플이 단일 프레임이 아닌 경우, 상기 각 소리 샘플을 전처리한 전체 스펙트로그램을 상기 스펙트로그램으로서 획득하는,음 합성 장치
|
4 |
4
제 3 항에 있어서,상기 인공신경망의 인코더는,상기 각 소리 샘플이 단일 프레임인 경우, 완전 연결 신경망(Fully Connected Layer)을 포함하고, 상기 각 소리 샘플이 단일 프레임이 아닌 경우, 합성 곱 신경망(Convolutional Neural Layer)을 포함하는,음 합성 장치
|
5 |
5
제 1 항에 있어서,상기 기 학습된 인공신경망은,복수의 학습용 소리 샘플 및 상기 복수의 학습용 소리 샘플의 학습용 정답 음높이 데이터를 획득하는 송수신부;각 소리 샘플을 전처리하여 학습용 스펙트로그램(Spectrogram)을 획득하는 전처리부; 및상기 학습용 스펙트로그램을 입력하여, 학습용 잠재코드를 생성하는 인코더부;상기 학습용 잠재코드를 입력하여 각 학습용 소리 샘플의 음색을 분류하는 제1 인공신경망; 상기 학습용 잠재코드를 입력하여 각 학습용 소리 샘플의 음높이를 분류하는 제2 인공신경망; 및 상기 학습용 잠재코드에 각 학습용 소리 샘플의 학습용 정답 음높이 데이터를 이어붙여, 학습용 결과 스펙트로그램으로 변환하는 디코더부을 포함하되,상기 인코더부는 상기 제1 인공신경망이 분류한 음높이를 기초로 분류된 음높이 분류의 오류가 최대화 되고, 상기 제2 인공신경망이 분류한 음색을 기초로 분류된 음색 분류의 오류가 최소화 되도록 상기 학습용 잠재코드를 생성하도록 학습되는,음 합성 장치
|
6 |
6
제 1 항에 있어서,상기 제어부는 기 설정된 음높이에 대응되는 데이터를 원 핫 임베딩(One-Hot embedding)으로 상기 합성 잠재코드에 더하여 음높이 합성 잠재코드를 생성하고, 상기 음높이 합성 잠재코드를 상기 기 학습된 인공신경망의 디코더에 입력하여 합성 음을 생성하는,음 합성 장치
|
7 |
7
제 1 항에 있어서,상기 복수의 소리 샘플은,음악적 소리 샘플 및 비 음악적 소리 샘플 중 적어도 하나를 포함하는,음 합성 장치
|
8 |
8
제 1 항에 있어서,상기 제어부는,상기 합성 잠재코드를 기 학습된 인공신경망의 디코더에 입력하여 합성 스펙트로그램을 획득하고, 상기 획득된 합성 스펙트로그램을 그리핀-림(Griffin-Lim) 알고리즘을 이용하여 소리 데이터로 변환하는,음 합성 장치
|
9 |
9
복수의 학습용 소리 샘플 및 상기 복수의 학습용 소리 샘플의 학습용 정답 음높이 데이터를 획득하는 송수신부;각 소리 샘플을 전처리하여 학습용 스펙트로그램(Spectrogram)을 획득하는 전처리부; 상기 학습용 스펙트로그램을 입력하여, 학습용 잠재코드를 생성하는 인코더부;상기 학습용 잠재코드를 입력하여 각 학습용 소리 샘플의 음색을 분류하는 제1 인공신경망; 상기 학습용 잠재코드를 입력하여 각 학습용 소리 샘플의 음높이를 분류하는 제2 인공신경망; 및 상기 학습용 잠재코드에 각 학습용 소리 샘플의 학습용 정답 음높이 데이터를 이어붙여, 학습용 결과 스펙트로그램으로 변환하는 디코더부을 포함하되,상기 인코더부는 상기 제1 인공신경망이 분류한 음높이를 기초로 분류된 음높이 분류의 오류가 최대화 되고, 상기 제2 인공신경망이 분류한 음색을 기초로 분류된 음색 분류의 오류가 최소화 되도록 상기 학습용 잠재코드를 생성하도록 학습되는,음 합성 학습 장치
|
10 |
10
음 합성 장치에 의해 수행되는 음의 합성 방법에 있어서,복수의 소리 샘플을 획득하는 단계;각 소리 샘플을 전처리하여 스펙트로그램(Spectrogram)으로 변환하는 단계;상기 각 소리 샘플의 스펙트로그램을 음색에 대한 정보가 최대화되는 잠재코드를 출력하도록 기 학습된 인공신경망의 인코더에 입력하여 복수의 잠재코드(Latent Code)를 생성하는 단계;상기 각 소리 샘플에 기 설정된 가중치를 기초로, 상기 복수의 잠재코드를 합성하여 하나의 합성 잠재코드를 생성하는 단계; 및상기 합성 잠재코드를 상기 기 학습된 인공신경망의 디코더에 입력하여 합성 음을 생성하는 단계를 포함하는음 합성 학습 방법
|
11 |
11
음 합성 학습 장치에 의해 수행되는 음의 합성 학습 방법에 있어서,복수의 학습용 소리 샘플 및 상기 복수의 학습용 소리 샘플의 학습용 정답 음높이 데이터를 획득하는 단계;각 소리 샘플을 전처리하여 학습용 스펙트로그램(Spectrogram)으로 변환하는 단계;상기 학습용 스펙트로그램을 인코더에 입력하여 학습용 잠재코드를 생성하는 단계;상기 학습용 잠재코드를 제1 인공신경망에 입력하여 학습용 소리 샘플의 음색을 분류하는 단계; 상기 학습용 잠재코드를 제2 인공신경망에 입력하여 학습용 소리 샘플의 음높이를 분류하는 단계; 및 상기 학습용 잠재코드에 각 학습용 소리 샘플의 학습용 정답 음높이 데이터를 이어붙여, 학습용 결과 스펙트로그램으로 변환하는 단계를 포함하되,상기 인코더는 상기 제1 인공신경망이 분류한 음높이를 기초로, 분류된 음높이 분류의 오류가 최대화 되고, 상기 제2 인공신경망이 분류한 음색을 기초로, 분류된 음색 분류의 오류가 최소화 되도록 상기 학습용 잠재코드를 생성하도록 학습되는음 합성 학습 방법
|
12 |
12
컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,복수의 소리 샘플을 획득하는 단계;각 소리 샘플을 전처리하여 스펙트로그램(Spectrogram)으로 변환하는 단계;상기 각 소리 샘플의 스펙트로그램을 음색에 대한 정보가 최대화되는 잠재코드를 출력하도록 기 학습된 인공신경망의 인코더에 입력하여 복수의 잠재코드(Latent Code)를 생성하는 단계;상기 각 소리 샘플에 기 설정된 가중치를 기초로, 상기 복수의 잠재코드를 합성하여 하나의 합성 잠재코드를 생성하는 단계; 및상기 합성 잠재코드를 상기 기 학습된 인공신경망의 디코더에 입력하여 합성 음을 생성하는 단계를 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는, 컴퓨터 프로그램
|
13 |
13
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,복수의 소리 샘플을 획득하는 단계;각 소리 샘플을 전처리하여 스펙트로그램(Spectrogram)으로 변환하는 단계;상기 각 소리 샘플의 스펙트로그램을 음색에 대한 정보가 최대화되는 잠재코드를 출력하도록 기 학습된 인공신경망의 인코더에 입력하여 복수의 잠재코드(Latent Code)를 생성하는 단계;상기 각 소리 샘플에 기 설정된 가중치를 기초로, 상기 복수의 잠재코드를 합성하여 하나의 합성 잠재코드를 생성하는 단계; 및상기 합성 잠재코드를 상기 기 학습된 인공신경망의 디코더에 입력하여 합성 음을 생성하는 단계를 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는, 컴퓨터 판독 가능한 기록매체
|