1 |
1
화자 유사도 판단 장치의 프로세서에 의해 수행되는 화자 유사도를 판단하기 위한 방법으로서,화자 정보 및 테스트 음성 데이터를 수신하는 단계;상기 화자 정보에 따라 미리 등록된 화자의 등록 음성 데이터를 검색하는 단계;상기 테스트 음성 데이터로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 추출하고, 상기 등록 음성 데이터로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하는 단계;상기 제1 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 화자 특징 유사도 행렬을 도출하는 단계;상기 제1 화자 특징 벡터 및 상기 제1 보조 특징 벡터에 기초하여 제1 종합 특징 벡터를 생성하고, 상기 제2 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 제2 종합 특징 벡터를 생성하는 단계;상기 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터를 이용하여 교차 집중도를 계산하는 단계; 및 상기 화자 특징 유사도 행렬 및 상기 교차 집중도에 기초하여 상기 테스트 음성과 상기 화자의 음성의 유사도를 산출하는 단계를 포함하는,화자 유사도 판단 방법
|
2 |
2
제 1 항에 있어서,상기 교차 집중도를 계산하는 단계는,상기 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터에 기초하여 상기 테스트 음성 데이터에 대한 제1 시간별 음성 집중도 벡터 및 상기 등록 음성 데이터에 대한 제2 시간별 음성 집중도 벡터를 생성하는 단계;상기 제1 보조 특징 벡터와 상기 제2 보조 특징 벡터에 기초하여 보조 특징 유사도 행렬을 도출하는 단계; 및상기 보조 특징 유사도 행렬, 상기 제1 시간별 음성 집중도 벡터 및 상기 제2 시간별 음성 집중도 벡터에 기초하여 교차 집중도를 계산하는 단계를 포함하는,화자 유사도 판단 방법
|
3 |
3
제 2 항에 있어서,상기 음성 집중도 벡터를 생성하는 단계는 하기 식1에 따라 신경망 모델을 통하여 수행되며,식1: 여기서, 는 시간별 음성 집중도 벡터이고 W1 및 W2는 상기 신경망 모델의 파라미터이고, 는 활성화 함수이며, 는 종합 특징 벡터인, 화자 유사도 판단 방법
|
4 |
4
제 3 항에 있어서,상기 교차 집중도를 계산하는 단계는,상기 제1 시간별 음성 집중도 벡터에 대한 제1 교차 집중도 및 상기 제2 시간별 음성 집중도 벡터에 대한 제2 교차 집중도를 계산하는 단계를 포함하고,상기 제1 교차 집중도는 하기 식2에 따라 계산되고, 상기 제2 교차 집중도는 하기 식3에 따라 계산되며,식2: 식3: 여기서, RC는 상기 보조 특징 유사도 행렬이고, 는 상기 제1 시간별 음성 집중도 벡터이고, 는 상기 제2 시간별 음성 집중도 벡터인,화자 유사도 판단 방법
|
5 |
5
제 4 항에 있어서,상기 화자의 음성의 유사도를 산출하는 단계는 하기 식4에 따라 수행되며,식4: 여기서, s는 유사도이고, Rh는 상기 화자 특징 유사도 행렬이고, s의 크기가 클수록 유사도가 높음을 의미하는,화자 유사도 판단 방법
|
6 |
6
제 1 항에 있어서,상기 등록 음성 데이터를 검색하는 단계 이후 및 상기 추출하는 단계 이전에,상기 등록 음성 데이터 및 상기 테스트 음성 데이터 각각에서 적어도 하나의 프레임을 선택하는 단계를 더 포함하고,상기 추출하는 단계는, 상기 테스트 음성 데이터의 적어도 하나의 프레임로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 도출하고, 상기 등록 음성 데이터의 적어도 하나의 프레임으로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하는 단계를 포함하는,화자 유사도 판단 방법
|
7 |
7
제 1 항 내지 제 6 항 중 어느 한 항에 기재된 방법을 실행하도록 구성된 하나 이상의 명령어를 포함하는 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능한 기록 매체
|
8 |
8
화자 유사도를 판단하기 위한 장치로서,명령어 및 신경망 모델을 저장하는 메모리; 및상기 메모리와 전기적으로 연결된 적어도 하나의 프로세서를 포함하고,상기 프로세서는,화자 정보 및 테스트 음성 데이터를 수신하는 동작,상기 화자 정보에 따라 미리 등록된 화자의 등록 음성 데이터를 검색하는 동작,상기 테스트 음성 데이터로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 추출하고, 상기 등록 음성 데이터로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하는 동작,상기 제1 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 화자 특징 유사도 행렬을 도출하는 동작,상기 제1 화자 특징 벡터 및 상기 제1 보조 특징 벡터에 기초하여 제1 종합 특징 벡터를 생성하고, 상기 제2 화자 특징 벡터 및 상기 제2 화자 특징 벡터에 기초하여 제2 종합 특징 벡터를 생성하는 동작,상기 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터를 이용하여 교차 집중도를 계산하는 동작, 및 상기 화자 특징 유사도 행렬 및 상기 교차 집중도에 기초하여 상기 테스트 음성과 상기 화자의 음성의 유사도를 산출하는 동작을 수행하도록 구성되는,화자 유사도 판단 장치
|
9 |
9
제 8 항에 있어서,상기 교차 집중도를 계산하는 동작은,상기 제1 종합 특징 벡터 및 상기 제2 종합 특징 벡터에 기초하여 상기 테스트 음성 데이터에 대한 제1 시간별 음성 집중도 벡터 및 상기 등록 음성 데이터에 대한 제2 시간별 음성 집중도 벡터를 생성하는 동작,상기 제1 보조 특징 벡터와 상기 제2 보조 특징 벡터에 기초하여 보조 특징 유사도 행렬을 도출하는 동작, 및 상기 보조 특징 유사도 행렬, 상기 제1 시간별 음성 집중도 벡터 및 상기 제2 시간별 음성 집중도 벡터에 기초하여 교차 집중도를 계산하는 동작을 포함하는,화자 유사도 판단 장치
|
10 |
10
제 9 항에 있어서,상기 음성 집중도 벡터를 생성하는 동작은 하기 식1에 따라 신경망 모델을 통하여 수행되며,식1: 여기서, 는 시간별 음성 집중도 벡터이고 W1 및 W2는 상기 신경망 모델의 파라미터이고, 는 활성화 함수이며, 는 종합 특징 벡터인, 화자 유사도 판단 장치
|
11 |
11
제 10 항에 있어서,상기 교차 집중도를 계산하는 동작은,상기 제1 시간별 음성 집중도 벡터에 대한 제1 교차 집중도 및 상기 제2 시간별 음성 집중도 벡터에 대한 제2 교차 집중도를 계산하는 동작을 포함하고,상기 제1 교차 집중도는 하기 식2에 따라 계산되고, 상기 제2 교차 집중도는 하기 식3에 따라 계산되며,식2: 식3: 여기서, RC는 상기 보조 특징 유사도 행렬이고, 는 상기 제1 시간별 음성 집중도 벡터이고, 는 상기 제2 시간별 음성 집중도 벡터인,화자 유사도 판단 장치
|
12 |
12
제 11 항에 있어서,상기 화자의 음성의 유사도를 산출하는 동작은 하기 식4에 따라 수행되며,식4: 여기서, s는 유사도이고, Rh는 상기 화자 특징 유사도 행렬이고, s의 크기가 클수록 유사도가 높음을 의미하는,화자 유사도 판단 장치
|
13 |
13
제 8 항에 있어서,상기 프로세서는,상기 등록 음성 데이터를 검색하는 동작 이후 및 상기 추출하는 동작 이전에,상기 등록 음성 데이터 및 상기 테스트 음성 데이터 각각에서 적어도 하나의 프레임을 선택하는 동작을 더 수행하도록 구성되고,상기 추출하는 동작은, 상기 테스트 음성 데이터의 적어도 하나의 프레임로부터 제1 화자 특징 벡터 및 제1 보조 특징 벡터를 도출하고, 상기 등록 음성 데이터의 적어도 하나의 프레임으로부터 제2 화자 특징 벡터 및 제2 보조 특징 벡터를 추출하는 동작을 포함하는,화자 유사도 판단 방법
|