맞춤기술찾기

이전대상기술

감정 토큰을 이용한 감정 음성 합성 방법 및 장치

  • 기술번호 : KST2020016705
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 데이터베이스에 저장된 음성 데이터를 이용하여 어텐션 메커니즘을 바탕으로 복수의 감정 토큰을 트레이닝하는 단계, 텍스트를 인코딩하는 단계, 복수의 감정 토큰의 트레이닝 결과를 바탕으로 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계, 그리고 감정 임베딩 벡터 및 인코딩된 텍스트를 합성하는 단계를 통해 텍스트에 감정 음성을 합성하는 방법 및 장치가 제공된다.
Int. CL G10L 13/02 (2006.01.01) G10L 13/08 (2006.01.01) G10L 25/63 (2013.01.01) G10L 15/06 (2006.01.01)
CPC G10L 13/02(2013.01) G10L 13/02(2013.01) G10L 13/02(2013.01) G10L 13/02(2013.01)
출원번호/일자 1020190065463 (2019.06.03)
출원인 한국전자통신연구원, 연세대학교 산학협력단
등록번호/일자
공개번호/일자 10-2020-0138993 (2020.12.11) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 N
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구
2 연세대학교 산학협력단 대한민국 서울특별시 서대문구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 장인선 대전광역시 유성구
2 강홍구 서울특별시 서대문구
3 권오성 서울특별시 동대문구
4 안충현 대전광역시 유성구
5 서정일 대전광역시 유성구
6 양승준 대전광역시 유성구
7 최지훈 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 팬코리아특허법인 대한민국 서울특별시 강남구 논현로**길 **, 역삼***빌딩 (역삼동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2019.06.03 수리 (Accepted) 1-1-2019-0569195-87
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
텍스트에 감정 음성을 합성하는 방법으로서,데이터베이스에 저장된 음성 데이터를 이용하여 어텐션 메커니즘을 바탕으로 복수의 감정 토큰을 트레이닝하는 단계,텍스트를 인코딩하는 단계,상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계, 그리고상기 감정 임베딩 벡터 및 상기 인코딩된 텍스트를 합성하는 단계를 포함하는 감정 음성 합성 방법
2 2
제1항에서,상기 복수의 감정 토큰을 트레이닝하는 단계는,상기 음성 데이터로부터 생성된 프로조디 임베딩 벡터 및 상기 복수의 감정 토큰을 사용하여 후보 감정 임베딩 벡터를 생성하는 단계, 상기 음성 데이터의 텍스트에 상기 후보 감정 임베딩 벡터를 합성하여 합성 음성 데이터를 출력하는 단계, 그리고상기 합성 음성 데이터가 상기 음성 데이터와 동일한지 여부를 결정하는 단계를 포함하는, 감정 음성 합성 방법
3 3
제2항에서,상기 데이터베이스에는 복수의 음성 데이터가 감정별로 카테고리화되어 있고,상기 후보 감정 임베딩 벡터를 생성하는 단계는,상기 데이터베이스의 제1 감정 카테고리에 속한 제1 음성 데이터를 프로조디 임베딩 벡터로 인코딩하는 단계,상기 어텐션 메커니즘을 바탕으로 상기 프로조디 임베딩 벡터 및 상기 복수의 감정 토큰 사이의 유사도를 학습하는 단계, 상기 프로조디 임베딩 벡터에 대한 상기 복수의 감정 토큰의 가중치를 결정하는 단계, 그리고상기 가중치의 가중치 행렬 및 상기 복수의 감정 토큰의 감정 토큰 행렬을 바탕으로 상기 후보 감정 임베딩 벡터를 생성하는 단계를 포함하는, 감정 음성 합성 방법
4 4
제3항에서,상기 합성 음성 데이터가 상기 음성 데이터와 동일하면, 상기 제1 감정 카테고리에 속한 다른 음성 데이터를 사용하여 상기 어텐션 메커니즘을 바탕으로 상기 복수의 감정 토큰을 트레이닝하는 단계를 더 포함하는 감정 음성 합성 방법
5 5
제3항에서,상기 합성 음성 데이터가 상기 음성 데이터와 동일하면, 상기 제1 감정 카테고리와 다른 감정에 대응하는 제2 감정 카테고리에 속한 제2 음성 데이터를 사용하여 상기 어텐션 메커니즘을 바탕으로 상기 복수의 감정 토큰을 트레이닝하는 단계를 더 포함하는 감정 음성 합성 방법
6 6
제2항에서,상기 합성 음성 데이터가 상기 음성 데이터와 동일하지 않으면, 트레이닝 프로세스를 업데이트하고, 상기 음성 데이터로부터 프로조디 임베딩 벡터를 다시 생성하여 상기 트레이닝 프로세스를 다시 수행하는 단계를 더 포함하는 감정 음성 합성 방법
7 7
제1항에서,상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계는,상기 텍스트에 합성하려는 감정으로 발성된 참조 음성 데이터를 사용하여 상기 감정 임베딩 벡터를 생성하는 단계를 포함하는, 감정 음성 합성 방법
8 8
제2항에서,상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계는,상기 데이터베이스에서 상기 텍스트에 합성하려는 감정에 대응하는, 감정 토큰의 가중치 행렬을 결정하는 단계, 그리고결정된 가중치 행렬 및 상기 복수의 감정 토큰의 감정 토큰 행렬을 바탕으로 감정 임베딩 벡터를 생성하는 단계를 포함하는, 감정 음성 합성 방법
9 9
제8항에서,상기 텍스트에 합성하려는 감정에 대응하는, 감정 토큰의 가중치 행렬을 결정하는 단계는,텍스트에 합성하려는 감정에 대응하는, 상기 데이터베이스의 가중치 행렬 집합의 통계치를 바탕으로 상기 가중치 행렬을 결정하는 단계를 포함하는, 감정 음성 합성 방법
10 10
제1항에서,상기 감정 임베딩 벡터 및 상기 인코딩된 텍스트를 합성하는 단계는,상기 감정 임베딩 벡터를 컨디셔닝 벡터로서 사용하여 상기 인코딩된 텍스트에 상기 감정 임베딩 벡터를 합성하는 단계를 포함하는, 감정 음성 합성 방법
11 11
텍스트에 감정 음성을 합성하는 장치로서,프로세서, 메모리, 데이터베이스, 및 입출력 인터페이스를 포함하고, 상기 프로세서는 상기 메모리에 저장된 프로그램을 실행하여,상기 데이터베이스에 저장된 음성 데이터를 이용하여 어텐션 메커니즘을 바탕으로 복수의 감정 토큰을 트레이닝하는 단계,상기 입출력 인터페이스로 입력된 텍스트를 인코딩하는 단계,상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계, 그리고인코딩된 텍스트에 상기 감정 임베딩 벡터를 합성하는 단계를 수행하는 감정 음성 합성 장치
12 12
제11항에서,상기 프로세서는 상기 복수의 감정 토큰을 트레이닝하는 단계를 수행할 때,상기 음성 데이터로부터 생성된 프로조디 임베딩 벡터 및 상기 복수의 감정 토큰을 사용하여 후보 감정 임베딩 벡터를 생성하는 단계, 상기 음성 데이터의 텍스트에 상기 후보 감정 임베딩 벡터를 합성하여 합성 음성 데이터를 출력하는 단계, 그리고상기 합성 음성 데이터가 상기 음성 데이터와 동일한지 여부를 결정하는 단계를 수행하는, 감정 음성 합성 장치
13 13
제12항에서,상기 데이터베이스에는 복수의 음성 데이터가 감정별로 카테고리화되어 있고,상기 프로세서는 상기 후보 감정 임베딩 벡터를 생성하는 단계를 수행할 때,상기 데이터베이스의 제1 감정 카테고리에 속한 제1 음성 데이터를 프로조디 임베딩 벡터로 인코딩하는 단계,상기 어텐션 메커니즘을 바탕으로 상기 프로조디 임베딩 벡터 및 상기 복수의 감정 토큰 사이의 유사도를 학습하는 단계, 상기 프로조디 임베딩 벡터에 대한 상기 복수의 감정 토큰의 가중치를 결정하는 단계, 그리고상기 가중치의 가중치 행렬 및 상기 복수의 감정 토큰의 감정 토큰 행렬을 바탕으로 상기 후보 감정 임베딩 벡터를 생성하는 단계를 수행하는, 감정 음성 합성 장치
14 14
제13항에서,상기 프로세서는 상기 프로그램을 실행하여,상기 합성 음성 데이터가 상기 음성 데이터와 동일하면, 상기 제1 감정 카테고리에 속한 다른 음성 데이터를 사용하여 상기 어텐션 메커니즘을 바탕으로 상기 복수의 감정 토큰을 트레이닝하는 단계를 더 수행하는, 감정 음성 합성 장치
15 15
제13항에서,상기 프로세서는 상기 프로그램을 실행하여,상기 합성 음성 데이터가 상기 음성 데이터와 동일하면, 상기 제1 감정 카테고리와 다른 감정에 대응하는 제2 감정 카테고리에 속한 제2 음성 데이터를 사용하여 상기 어텐션 메커니즘을 바탕으로 상기 복수의 감정 토큰을 트레이닝하는 단계를 더 수행하는, 감정 음성 합성 장치
16 16
제12항에서,상기 프로세서는 상기 프로그램을 실행하여,상기 합성 음성 데이터가 상기 음성 데이터와 동일하지 않으면, 상기 감정 음성 합성 장치를 업데이트하고, 상기 음성 데이터로부터 프로조디 임베딩 벡터를 다시 생성하여 트레이닝 프로세스를 다시 수행하는 단계를 수행하는, 감정 음성 합성 장치
17 17
제11항에서,상기 프로그램은 상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계를 수행할 때,상기 텍스트에 합성하려는 감정으로 발성된 참조 음성 데이터를 사용하여 상기 감정 임베딩 벡터를 생성하는 단계를 수행하는, 감정 음성 합성 장치
18 18
제12항에서,상기 프로세서는 상기 복수의 감정 토큰의 트레이닝 결과를 바탕으로 상기 텍스트에 합성하려는 감정에 대응하는 감정 임베딩 벡터를 결정하는 단계를 수행할 때,상기 텍스트에 합성하려는 감정에 대응하는, 감정 토큰의 가중치 행렬을 결정하는 단계, 그리고결정된 가중치 행렬 및 상기 복수의 감정 토큰의 감정 토큰 행렬을 바탕으로 감정 임베딩 벡터를 생성하는 단계를 수행하는, 감정 음성 합성 장치
19 19
제18항에서,상기 프로세서는 상기 텍스트에 합성하려는 감정에 대응하는, 감정 토큰의 가중치 행렬을 결정하는 단계를 수행할 때,텍스트에 합성하려는 감정에 대응하는, 상기 데이터베이스의 가중치 행렬 집합의 통계치를 바탕으로 상기 가중치 행렬을 결정하는 단계를 수행하는, 감정 음성 합성 장치
20 20
제11항에서,상기 프로세서는 상기 감정 임베딩 벡터 및 상기 인코딩된 텍스트를 합성하는 단계를 수행할 때,상기 감정 임베딩 벡터를 컨디셔닝 벡터로서 사용하여 상기 인코딩된 텍스트에 상기 감정 임베딩 벡터를 합성하는 단계를 수행하는, 감정 음성 합성 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 한국전자통신연구원 ETRI연구개발지원사업 시청각장애인 방송접근권 향상을 위한 디지털자막·음성해설 서비스 기술 개발