1 |
1
전자 장치의 화자 인식 방법에 있어서,음성 신호로부터 생성된 제1 정보 및 상기 음성 신호로부터 생성된 제2 정보를 획득하는 단계;상기 제1 정보가 입력된 제1 뉴럴 네트워크의 출력을 기초로 상기 음성 신호의 화자를 확인하기 위한 제1 확인 정보를 확인하고, 상기 제2 정보가 입력된 제2 뉴럴 네트워크의 출력을 기초로 상기 음성 신호의 화자를 확인하기 위한 제2 확인 정보를 확인하는 단계; 및상기 제1 확인 정보 및 상기 제2 확인 정보를 기초로 상기 음성 신호의 화자를 확인하는 단계를 포함하되,상기 제1 정보는,상기 음성 신호로부터 생성된 스펙트로그램(spectrogram)에 관한 정보, 및 상기 스펙트로그램으로부터 X-vector 기법, D-vector 기법, 및 I-vector 기법 중 어느 하나로 생성된 제1 특징 벡터에 관한 정보를 포함하고,상기 제2 정보는,상기 스펙트로그램에 관한 정보, 및 상기 스펙트로그램으로부터 X-vector 기법, D-vector 기법, 및 I-vector 기법 중 다른 하나로 생성된 제2 특징 벡터에 관한 정보를 포함하고,상기 제1 확인 정보는,상기 음성 신호의 화자를 확인하기 위한 제1 화자 식별 값 및 제1 성별 값을 포함하고,상기 제2 확인 정보는,상기 음성 신호의 화자를 확인하기 위한 제2 화자 식별 값 및 제2 성별 값을 포함하고,상기 음성 신호의 화자를 확인하는 단계는,상기 제1 화자 식별 값 및 상기 제2 화자 식별 값으로부터 최종 화자 식별 값을 결정하고, 상기 제1 성별 값 및 상기 제2 성별 값으로부터 최종 성별 값을 결정하는 단계; 및기 등록된 적어도 하나의 화자의 화자 식별 값과 상기 최종 화자 식별 값을 비교하고, 상기 기 등록된 적어도 하나의 화자의 성별 값과 상기 최종 성별 값을 비교하여 상기 음성 신호의 화자를 확인하는 단계를 포함하는, 방법
|
2 |
2
삭제
|
3 |
3
제1항에 있어서,상기 음성 신호의 화자를 확인하는 단계는,상기 제1 확인 정보와 상기 제2 확인 정보를 기초로 최종 확인 정보를 생성하는 단계; 및기 등록된 적어도 하나의 화자의 확인 정보와 상기 최종 확인 정보를 비교하여 상기 적어도 하나의 화자 중 어느 하나의 화자를 상기 음성 신호의 화자로 확인하는 단계를 포함하는, 방법
|
4 |
4
제1항에 있어서,상기 제1 확인 정보는,상기 음성 신호의 화자를 확인하기 위한 제3 화자 식별 값을 포함하고,상기 제2 확인 정보는,상기 음성 신호의 화자를 확인하기 위한 제4 화자 식별 값을 포함하고,상기 음성 신호의 화자를 확인하는 단계는,상기 제3 화자 식별 값 및 상기 제4 화자 식별 값으로부터 제1 최종 화자 식별 값을 결정하는 단계; 및기 등록된 적어도 하나의 화자의 화자 식별 값과 상기 제1 최종 화자 식별 값을 비교하여 상기 음성 신호의 화자를 확인하는 단계를 포함하는, 방법
|
5 |
5
삭제
|
6 |
6
제1항에 있어서,상기 제1 확인 정보 및 제2 확인 정보를 확인하는 단계는,상기 제1 정보가 입력된 상기 제1 뉴럴 네트워크의 출력을 기초로 제1 신뢰도, 제3 화자 식별 값, 및 제3 성별 값을 확인하고, 상기 제2 정보가 입력된 상기 제2 뉴럴 네트워크의 출력을 기초로 제2 신뢰도, 제4 화자 식별 값, 및 제4 성별 값을 확인하는 단계를 포함하고,상기 음성 신호의 화자를 확인하는 단계는,상기 제1 신뢰도 및 상기 제2 신뢰도에 기초하여, 상기 제3 화자 식별 값 및 상기 제4 화자 식별 값으로부터 제1 최종 화자 식별 값을 결정하고, 상기 제3 성별 값 및 상기 제4 성별 값으로부터 제1 최종 성별 값을 결정하는 단계; 및기 등록된 적어도 하나의 화자의 화자 식별 값과 상기 제1 최종 화자 식별 값을 비교하고, 상기 기 등록된 적어도 하나의 화자의 성별 값과 상기 제1 최종 성별 값을 비교하여 상기 음성 신호의 화자를 확인하는 단계를 포함하는, 방법
|
7 |
7
제6항에 있어서,상기 제1 신뢰도는,상기 제1 뉴럴 네트워크의 소프트맥스 레이어(softmax layer)의 출력들에 기초하여 계산되고,상기 제2 신뢰도는,상기 제2 뉴럴 네트워크의 소프트맥스 레이어의 출력들에 기초하여 계산되는, 방법
|
8 |
8
제6항에 있어서,상기 결정하는 단계는,상기 제1 신뢰도 및 상기 제2 신뢰도의 비율에 따라 상기 제3 화자 식별 값 및 상기 제4 화자 식별 값 각각에 가중치를 부여하고, 가중치가 부여된 제3 화자 식별 값 및 제4 화자 식별 값으로부터 제1 최종 화자 식별 값을 결정하고, 상기 제1 신뢰도 및 상기 제2 신뢰도의 비율에 따라 상기 제3 성별 값 및 상기 제4 성별 값 각각에 가중치를 부여하고, 가중치가 부여된 제3 성별 값 및 제4 성별 값으로부터 제1 최종 성별 값을 결정하는 단계를 포함하는, 방법
|
9 |
9
제6항에 있어서,상기 결정하는 단계는,상기 제1 신뢰도 및 상기 제2 신뢰도 간의 크기 비교를 통해 제3 화자 식별 값 및 제4 화자 식별 값 중에서 어느 하나를 제1 최종 화자 식별 값으로 결정하고, 상기 크기 비교를 통해 제3 성별 값 및 제4 성별 값 중에서 어느 하나를 제1 최종 성별 값으로 결정하는 단계를 포함하는, 방법
|
10 |
10
제6항에 있어서,상기 제1 신뢰도는 상기 제3 화자 식별 값에 대한 제1-1 신뢰도, 및 상기 제3 성별 값에 대한 제1-2 신뢰도를 포함하고,상기 제2 신뢰도는 상기 제4 화자 식별 값에 대한 제2-1 신뢰도, 및 상기 제4 성별 값에 대한 제2-2 신뢰도를 포함하고,상기 결정하는 단계는,상기 제1-1 신뢰도 및 상기 제2-1 신뢰도를 기초로 상기 제3 화자 식별 값 및 상기 제4 화자 식별 값으로부터 상기 제1 최종 화자 식별 값을 결정하고, 상기 제1-2 신뢰도 및 상기 제2-2 신뢰도를 기초로 상기 제3 성별 값 및 상기 제4 성별 값으로부터 상기 제1 최종 성별 값을 결정하는 단계를 포함하는, 방법
|
11 |
11
제1항에 있어서,통신 디바이스를 통해 상기 확인된 상기 음성 신호의 화자에 관한 정보를 외부 장치로 전송하거나, 디스플레이를 통해 상기 확인된 상기 음성 신호의 화자에 관한 정보를 출력하는 단계를 포함하는, 방법
|
12 |
12
화자 인식을 위한 전자 장치로서,적어도 하나의 프로그램이 저장된 메모리; 및상기 적어도 하나의 프로그램을 실행함으로써, 음성 신호로부터 생성된 제1 정보 및 상기 음성 신호로부터 생성된 제2 정보를 획득하고,상기 제1 정보가 입력된 제1 뉴럴 네트워크의 출력을 기초로 상기 음성 신호의 화자를 확인하기 위한 제1 확인 정보를 확인하고, 상기 제2 정보가 입력된 제2 뉴럴 네트워크의 출력을 기초로 상기 음성 신호의 화자를 확인하기 위한 제2 확인 정보를 확인하고, 및상기 제1 확인 정보 및 상기 제2 확인 정보를 기초로 상기 음성 신호의 화자를 확인하는 프로세서를 포함하되,상기 제1 정보는,상기 음성 신호로부터 생성된 스펙트로그램(spectrogram)에 관한 정보, 및 상기 스펙트로그램으로부터 X-vector 기법, D-vector 기법, 및 I-vector 기법 중 어느 하나로 생성된 제1 특징 벡터에 관한 정보를 포함하고,상기 제2 정보는,상기 스펙트로그램에 관한 정보, 및 상기 스펙트로그램으로부터 X-vector 기법, D-vector 기법, 및 I-vector 기법 중 다른 하나로 생성된 제2 특징 벡터에 관한 정보를 포함하고,상기 제1 확인 정보는,상기 음성 신호의 화자를 확인하기 위한 제1 화자 식별 값 및 제1 성별 값을 포함하고,상기 제2 확인 정보는,상기 음성 신호의 화자를 확인하기 위한 제2 화자 식별 값 및 제2 성별 값을 포함하고,상기 프로세서는,상기 제1 화자 식별 값 및 상기 제2 화자 식별 값으로부터 최종 화자 식별 값을 결정하고, 상기 제1 성별 값 및 상기 제2 성별 값으로부터 최종 성별 값을 결정하고, 및기 등록된 적어도 하나의 화자의 화자 식별 값과 상기 최종 화자 식별 값을 비교하고, 상기 기 등록된 적어도 하나의 화자의 성별 값과 상기 최종 성별 값을 비교하여 상기 음성 신호의 화자를 확인하는, 전자 장치
|
13 |
13
화자 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 비일시적 기록매체로서,상기 화자 인식 방법은,음성 신호로부터 생성된 제1 정보 및 상기 음성 신호로부터 생성된 제2 정보를 획득하는 단계;상기 제1 정보가 입력된 제1 뉴럴 네트워크의 출력을 기초로 상기 음성 신호의 화자를 확인하기 위한 제1 확인 정보를 확인하고, 상기 제2 정보가 입력된 제2 뉴럴 네트워크의 출력을 기초로 상기 음성 신호의 화자를 확인하기 위한 제2 확인 정보를 확인하는 단계; 및상기 제1 확인 정보 및 상기 제2 확인 정보를 기초로 상기 음성 신호의 화자를 확인하는 단계를 포함하되,상기 제1 정보는,상기 음성 신호로부터 생성된 스펙트로그램(spectrogram)에 관한 정보, 및 상기 스펙트로그램으로부터 X-vector 기법, D-vector 기법, 및 I-vector 기법 중 어느 하나로 생성된 제1 특징 벡터에 관한 정보를 포함하고,상기 제2 정보는,상기 스펙트로그램에 관한 정보, 및 상기 스펙트로그램으로부터 X-vector 기법, D-vector 기법, 및 I-vector 기법 중 다른 하나로 생성된 제2 특징 벡터에 관한 정보를 포함하고,상기 제1 확인 정보는,상기 음성 신호의 화자를 확인하기 위한 제1 화자 식별 값 및 제1 성별 값을 포함하고,상기 제2 확인 정보는,상기 음성 신호의 화자를 확인하기 위한 제2 화자 식별 값 및 제2 성별 값을 포함하고,상기 음성 신호의 화자를 확인하는 단계는,상기 제1 화자 식별 값 및 상기 제2 화자 식별 값으로부터 최종 화자 식별 값을 결정하고, 상기 제1 성별 값 및 상기 제2 성별 값으로부터 최종 성별 값을 결정하는 단계; 및기 등록된 적어도 하나의 화자의 화자 식별 값과 상기 최종 화자 식별 값을 비교하고, 상기 기 등록된 적어도 하나의 화자의 성별 값과 상기 최종 성별 값을 비교하여 상기 음성 신호의 화자를 확인하는 단계를 포함하는, 비일시적 기록매체
|