1 |
1
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은 서버의 하나 이상의 프로세서에서 실행되는 경우 음성 변환을 위한 이하의 동작들을 수행하도록 하며 상기 동작들은,음성 정보 추출 모델을 이용하여 음성 데이터로부터 음성 정보를 추출하는 동작;화자 정보 추출 모델을 이용하여 화자 데이터로부터 화자 정보를 추출하는 동작; 및상기 음성 정보 및 상기 화자 정보를 음성 변환 모델의 입력으로 연산하여 화자와 관련된 변환 음성 데이터를 생성하는 동작;을 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
2 |
2
제 1 항에 있어서,상기 음성 정보는:상기 음성 데이터에 포함된 언어적 의미를 나타내는 언어 정보; 및상기 음성 데이터에 포함된 발화 특성과 관련된 음향 정보;를 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
3 |
3
제 1 항에 있어서,상기 음성 정보 추출 모델을 이용하여 음성 데이터로부터 음성 정보를 추출하는 동작은:상기 음성 데이터를 사전 결정된 시간 단위로 분할하는 동작;상기 분할된 음성 데이터들을 각각 주파수 성분으로 변환하는 동작; 및상기 변환된 주파수 성분을 상기 음성 정보 추출 모델의 입력으로 연산하여 상기 음성 정보를 추출하는 동작;을 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
4 |
4
제 3 항에 있어서,상기 변환된 주파수 성분을 상기 음성 정보 추출 모델의 입력으로 연산하여 상기 음성 정보를 추출하는 동작은:상기 변환된 주파수 성분을 상기 음성 정보 추출 모델에 포함된 언어 정보 추출 모델의 입력으로 연산하여, 상기 음성 데이터의 시간 구간에 대응되는 언어 정보를 출력하는 동작; 및상기 변환된 주파수 성분을 상기 음성 정보 추출 모델에 포함된 음성 부가 정보 추출 모델의 입력으로 연산하여, 음향 정보를 출력하는 동작;을 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
5 |
5
제 4 항에 있어서,상기 변환된 주파수 성분을 상기 음성 정보 추출 모델에 포함된 음성 부가 정보 추출 모델의 입력으로 연산하여, 상기 음향 정보를 출력하는 동작은:상기 사전 결정된 시간 단위로 분할된, 음성 데이터의 둘 이상의 시간 구간 별 주파수 성분을 각각 상기 음성 부가 정보 추출 모델의 입력으로 하여 연산하는 동작;상기 음성 부가 정보 추출 모델을 이용하여 상기 둘 이상의 시간 구간 별 주파수 성분들의 분포를 각각 상이한 방법으로 나타내는 둘 이상의 음향 벡터를 출력하는 동작; 및상기 둘 이상의 음향 벡터를 샘플링 하여 음향 정보를 출력하는 동작;을 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
6 |
6
제 1 항에 있어서,상기 음성 정보 추출 모델을 이용하여 음성 데이터로부터 음성 정보를 추출하는 동작은,상기 음성 정보에 포함된 음향 정보를 조정하여, 조정된 음향 정보를 생성하는 동작;을 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
7 |
7
제 6 항에 있어서,상기 음향 정보는 음성의 세기, 속도 또는 피치 중 적어도 하나에 관한 벡터 값이고, 그리고상기 조정된 음향 정보는 상기 음향 정보의 음성의 세기, 속도 또는 피치 중 적어도 하나가 조정된 벡터 값인,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
8 |
8
제 1 항에 있어서,상기 화자 정보 추출 모델을 이용하여 화자 데이터로부터 화자 정보를 추출하는 동작은:상기 화자 데이터에 포함된 화자 외형 데이터 또는 화자 동작 데이터 중 적어도 하나에 관한 하나 이상의 항목 값을 벡터화 하는 동작; 및상기 벡터화 된 하나 이상의 항목 값을 상기 화자 정보 추출 모델의 입력으로 연산하여 상기 화자 정보를 출력하는 동작;을 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
9 |
9
제 8 항에 있어서,상기 화자 데이터에 포함된 화자 외형 데이터 또는 화자 동작 데이터 중 적어도 하나에 관한 항목 값을 벡터화 하는 동작은:상기 화자 동작 데이터에 포함된 동작 항목 값들이 시간 구간 별로 변경되는 정도를 연산하는 동작; 및상기 변경되는 정도에 따라 화자 동작 정보를 연산하여, 벡터화 된 동작 항목 값을 결정하는 동작;을 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
10 |
10
제 1 항에 있어서,상기 음성 정보 및 상기 화자 정보를 음성 변환 모델의 입력으로 연산하여 화자와 관련된 변환 음성 데이터를 생성하는 동작은:상기 음성 정보에 포함된 언어 정보, 상기 음성 정보에 포함된 음향 정보 및 상기 화자 정보를 결합하여 상기 음성 변환 모델의 입력으로 연산하는 동작;상기 음성 변환 모델로부터 출력된 시간 단위 별 주파수 성분을 각각 변환하는 동작; 및상기 변환된 주파수 성분을 결합하여 상기 변환 음성 데이터를 생성하는 동작;을 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
11 |
11
제 2 항에 있어서,상기 음성 정보 및 상기 화자 정보를 음성 변환 모델의 입력으로 연산하여 화자와 관련된 변환 음성 데이터를 생성하는 동작은:상기 언어 정보의 둘 이상의 시간 구간 각각에 상기 음향 정보 및 상기 화자 정보를 매칭하여 상기 음성 변환 모델의 입력으로 연산하는 동작;을 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
12 |
12
제 1 항에 있어서,상기 음성 정보 추출 모델 및 상기 화자 정보 추출 모델은 각각 하나 이상의 차원 축소 레이어를 포함하고, 그리고상기 음성 변환 모델은 하나 이상의 차원 확장 레이어를 포함하는,컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램
|
13 |
13
음성 변환 방법에 있어서,음성 정보 추출 모델을 이용하여 음성 데이터로부터 음성 정보를 추출하는 단계;화자 정보 추출 모델을 이용하여 화자 데이터로부터 화자 정보를 추출하는 단계; 및상기 음성 정보 및 상기 화자 정보를 음성 변환 모델의 입력으로 연산하여 화자와 관련된 변환 음성 데이터를 생성하는 단계;를 포함하는,음성 변환 방법
|
14 |
14
음성 변환을 위한 서버로서,하나 이상의 코어를 포함하는 프로세서;네트워크부; 및메모리; 를 포함하고,상기 프로세서는,음성 정보 추출 모델을 이용하여 음성 데이터로부터 음성 정보를 추출하고,화자 정보 추출 모델을 이용하여 화자 데이터로부터 화자 정보를 추출하고, 그리고상기 음성 정보 및 상기 화자 정보를 음성 변환 모델의 입력으로 연산하여 화자와 관련된 변환 음성 데이터를 생성하는,음성 변환을 위한 서버
|
15 |
15
학습 과정에서 적어도 일부가 업데이트 되는 뉴럴 네트워크의 파라미터에 대응하는 데이터 구조가 저장된 컴퓨터 판독가능한 기록 매체로서, 상기 뉴럴 네트워크의 동작은 상기 파라미터에 적어도 부분적으로 기초하고, 상기 학습 과정은:음성 정보 추출 모델을 이용하여 음성 데이터로부터 음성 정보를 추출하는 단계;화자 정보 추출 모델을 이용하여 화자 데이터로부터 화자 정보를 추출하는 단계; 및상기 음성 정보 및 상기 화자 정보를 음성 변환 모델의 입력으로 연산하여 화자와 관련된 변환 음성 데이터를 생성하는 단계;를 포함하는,데이터 구조가 저장된 컴퓨터 판독가능한 기록 매체
|