1 |
1
목소리 데이터를 포함하는 화자가 정의되고, 주변 잡음 데이터를 포함하는 환경이 정의되며, 상기 화자와 상기 환경이 포함된 발성이 정의될 때,제1 화자와 제1 환경을 갖는 제1 발성을 획득하고, 제2 화자와 제2 환경을 갖는 제2 발성을 획득하는 획득 유니트;상기 제2 화자와 상기 제1 환경을 갖는 제3 발성을 생성하는 합성 유니트를 포함하고,상기 합성 유니트에는 생성부 및 판별부가 마련되며,상기 생성부는 실제의 상기 제1 발성, 실제의 상기 제2 발성 및 랜덤 노이즈를 기초로 상기 제3 발성을 생성하고,상기 판별부는 상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하며,상기 생성부는 상기 제2 발성의 상기 제2 화자에 상기 제1 발성의 상기 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,상기 획득 유니트는 상기 제1 발성에 복수의 환경을 부가하며,상기 획득 유니트에 의해 서로 다른 환경이 부가된 상기 제1 발성에 해당하는 복수의 가공 발성이 마련되고,상기 판별부는 상기 제3 발성을 거짓으로 판별하도록 학습되며,상기 생성부는 상기 판별부에 의해 상기 제3 발성이 참으로 판별되도록, 상기 가공 발성을 이용하여 상기 제3 발성을 생성하는 음성 합성 장치
|
2 |
2
제1항에 있어서,상기 제1 발성과 상기 제3 발성을 비교하는 식별부가 마련되고,상기 식별부는 비교 결과를 이용해서 상기 제1 발성이 등록된 복수의 사용자 중에서 상기 제2 발성에 가장 유사한 사용자를 검색하는 음성 합성 장치
|
3 |
3
제1항에 있어서,상기 제1 발성과 상기 제3 발성을 비교하는 확인부가 마련되고,상기 확인부는 비교 결과를 이용해서 상기 제2 발성의 사용자가 기등록된 상기 제1 발성의 사용자와 일치하는지 여부를 판단하는 음성 합성 장치
|
4 |
4
제1항에 있어서,상기 합성 유니트에는 추출부 및 합성부가 마련되고,상기 추출부는 상기 제1 발성으로부터 상기 제1 환경을 추출하고, 상기 제2 발성으로부터 상기 제2 화자를 추출하며,상기 합성부는 상기 추출부에 의해 추출된 상기 제1 환경과 상기 제2 화자가 합성된 상기 제3 발성을 생성하는 음성 합성 장치
|
5 |
5
제1항에 있어서,상기 제1 발성과 상기 제2 발성을 기초로 상기 제3 발성을 생성하는 cGAN(conditional Generative Adversarial Network) 모듈이 마련된 음성 합성 장치
|
6 |
6
제5항에 있어서,상기 제1 발성이 기등록된 상태에서 상기 제1 발성과 비교 대상이 되는 상기 제2 발성이 입력되면, 상기 cGAN 모듈은 상기 제2 발성을 대체할 수 있는 상기 제3 발성을 생성하는 음성 합성 장치
|
7 |
7
삭제
|
8 |
8
삭제
|
9 |
9
삭제
|
10 |
10
실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,상기 제1 발성을 획득하는 획득 유니트가 마련되고,상기 획득 유니트는 상기 제1 발성에 복수의 환경을 부가하며,상기 획득 유니트에 의해 서로 다른 환경이 부가된 상기 제1 발성에 해당하는 복수의 가공 발성이 마련되고,상기 판별부는 상기 제3 발성을 거짓으로 판별하도록 학습되며,상기 생성부는 상기 판별부에 의해 상기 제3 발성이 참으로 판별되도록, 상기 가공 발성을 이용하여 상기 제3 발성을 생성하는 음성 합성 장치
|
11 |
11
실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,상기 제1 발성을 획득하는 획득 유니트가 마련되고,상기 획득 유니트는 상기 제1 발성을 후처리하며, 후처리된 상기 제1 발성을 상기 생성부에 제공하고,상기 후처리는 제1 처리, 제2 처리 및 제3 처리 중 적어도 하나를 포함하며,상기 제1 처리는 상기 제1 발성을 다운 샘플링 후 업 샘플링하는 것이고,상기 제2 처리는 상기 제1 발성에 배경 잡음을 추가하는 것이며,상기 제3 처리는 상기 제1 발성에 손실 압축 코덱을 적용하는 것인 음성 합성 장치
|
12 |
12
실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,상기 판별부는 제1 조건, 제2 조건 및 제3 조건이 모두 만족되는 경우에 한해 상기 제3 발성을 참으로 판별하도록 학습되고,상기 제1 조건은 상기 제3 발성이 상기 생성부에 의해 생성된 가짜 데이터가 아니라 진짜 데이터로 판별되는 것이며,상기 제2 조건은 상기 제3 발성의 화자가 상기 제2 발성의 제2 화자와 동일한 것이고,상기 제3 조건은 상기 제3 발성의 환경이 상기 제2 발성의 제2 환경과 동일한 것인 음성 합성 장치
|
13 |
13
실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,상기 판별부는 첫번째 발성과 두번째 발성 간의 비교를 통해 학습하고,상기 첫번째 발성은 상기 제1 발성 또는 상기 제2 발성이며,상기 두번째 발성은 상기 제1 발성, 상기 제2 발성, 상기 제3 발성 중 하나이고,상기 판별부는 상기 제3 발성을 거짓으로 판별하도록 학습되고,상기 생성부는 상기 판별부에 의해서 참으로 판별되는 상기 제3 발성을 생성하도록 학습되며,상기 판별부의 학습을 실행하고, 상기 생성부의 학습을 실행하는 실행부가 마련되고,상기 실행부는 상기 생성부가 상기 판별부를 속이는 속임 성공값이 설정값을 만족할 때까지 상기 판별부의 학습과 상기 생성부의 학습을 번갈아 실행하며,상기 실행부는 상기 판별부의 학습 중에는 상기 생성부의 학습을 중단시키고,상기 실행부는 상기 생성부의 학습 중에는 상기 판별부의 학습을 중단시키는 음성 합성 장치
|
14 |
14
삭제
|
15 |
15
실제의 제1 발성, 실제의 제2 발성 및 랜덤 노이즈를 기초로 제3 발성을 생성하는 생성부;상기 제2 발성에 대한 상기 제3 발성의 진위를 판별하는 판별부;를 포함하고,상기 생성부는 상기 제2 발성의 제2 화자에 상기 제1 발성의 제1 환경이 함께 포함되는 방향으로 상기 제3 발성을 생성하며,상기 제1 환경 하에서 실제로 녹음된 상기 제2 화자를 갖는 가상의 발성이 목표 발성으로 정의될 때,상기 생성부와 상기 판별부는 상기 제3 발성이 상기 목표 발성을 추종하도록, GAN(Generative Adversarial Network) 기법에 따라 상호 적대적으로 반복 학습하고,상기 제1 환경 하에서 실제로 녹음된 상기 제1 화자를 갖는 상기 제1 발성을 상기 제3 발성과 비교하는 인식 유니트가 마련되며,상기 인식 유니트는 상기 생성부와 상기 판별부의 반복 학습의 결과로 도출된 상기 제3 발성을 이용해서, 서로 동일한 상기 제1 환경 하에서 상기 제1 화자와 상기 제2 화자를 비교하는 음성 합성 장치
|