1 |
1
프로파일링 대상 화자의 음성 데이터를 획득하는 데이터 획득부와,학습 대상 화자들에 대한 복수의 분류 대상 특성이 라벨링이 된 학습용 음성 데이터가 기 학습되어 있는 인공신경망모델이 상기 프로파일링 대상 화자의 음성 데이터에 대하여 상기 복수의 분류 대상 특성을 예측한 결과를 제공하는 특성 예측부와,상기 특성 예측부에 의한 결과를 출력하는 출력부를 포함하고,상기 인공신경망모델은,상기 프로파일링 대상 화자의 음성 데이터에 대하여 상기 복수의 분류 대상 특성에 대한 공통 특징으로서 2차원의 특징 행렬로 변환하는 공통 특징 추출 네트워크와,상기 2차원의 특징 행렬로부터 상기 복수의 분류 대상 특성을 예측하는 특성 예측 네트워크를 포함하는음성 프로파일링 장치
|
2 |
2
제 1 항에 있어서,상기 프로파일링 대상 화자의 음성 데이터에 대하여 잡음 제거 후 MFCC(mel-frequency cepstral coefficient)와 F0(fundamental frequency)의 조합으로 전처리하여 상기 특성 예측부에 제공하는 전처리부를 더 포함하는음성 프로파일링 장치
|
3 |
3
제 1 항에 있어서,상기 특성 예측 네트워크는, 복수의 개별 예측 계층이 상기 복수의 분류 대상 특성을 일대일로 각각 예측하는음성 프로파일링 장치
|
4 |
4
제 3 항에 있어서,상기 공통 특징 추출 네트워크는, 하드 파라미터 쉐어링(hard parameter sharing) 기반의 복수의 합성곱(convolutional) 계층을 포함하고,상기 개별 예측 계층은, 완전 연결(fully connected) 계층을 포함하는음성 프로파일링 장치
|
5 |
5
제 1 항에 있어서,상기 특성 예측 네트워크는, 복수의 개별 예측 계층이 상기 복수의 분류 대상 특성을 순차적으로 예측하되 상기 복수의 개별 예측 계층 중 선동작하는 개별 예측 계층의 결과값을 후동작하는 개별 예측 계층의 입력으로 이용하는음성 프로파일링 장치
|
6 |
6
제 5 항에 있어서,상기 공통 특징 추출 네트워크는, 하드 파라미터 쉐어링 기반의 복수의 합성곱 계층을 포함하고,상기 개별 예측 계층은, LSTM(long short term memory)을 포함하는음성 프로파일링 장치
|
7 |
7
음성 프로파일링 장치가 수행하는 음성 프로파일링 방법으로서,프로파일링 대상 화자의 음성 데이터를 획득하는 단계와,학습 대상 화자들에 대한 복수의 분류 대상 특성이 라벨링이 된 학습용 음성 데이터가 기 학습되어 있는 인공신경망모델이 상기 프로파일링 대상 화자의 음성 데이터에 대하여 상기 복수의 분류 대상 특성을 예측한 결과를 제공하는 단계와,상기 복수의 분류 대상 특성을 예측한 결과를 출력하는 단계를 포함하고,상기 복수의 분류 대상 특성을 예측한 결과를 제공하는 단계는,상기 인공신경망모델의 공통 특징 추출 네트워크가 상기 프로파일링 대상 화자의 음성 데이터에 대하여 상기 복수의 분류 대상 특성에 대한 공통 특징으로서 2차원의 특징 행렬로 변환하는 단계와,상기 인공신경망모델의 특성 예측 네트워크가 상기 2차원의 특징 행렬로부터 상기 복수의 분류 대상 특성을 예측하는 단계를 포함하는음성 프로파일링 방법
|
8 |
8
제 7 항에 있어서,상기 프로파일링 대상 화자의 음성 데이터에 대하여 잡음 제거 후 MFCC(mel-frequency cepstral coefficient)와 F0(fundamental frequency)의 조합으로 전처리하여 상기 인공신경망모델에 제공하는 단계를 더 포함하는음성 프로파일링 방법
|
9 |
9
제 7 항에 있어서,상기 복수의 분류 대상 특성을 예측하는 단계는, 복수의 개별 예측 계층이 상기 복수의 분류 대상 특성을 일대일로 각각 예측하는음성 프로파일링 방법
|
10 |
10
제 9 항에 있어서,상기 공통 특징 추출 네트워크는, 하드 파라미터 쉐어링 기반의 복수의 합성곱 계층을 포함하고,상기 개별 예측 계층은, 완전 연결 계층을 포함하는음성 프로파일링 방법
|
11 |
11
제 7 항에 있어서,상기 복수의 분류 대상 특성을 예측하는 단계는, 복수의 개별 예측 계층이 상기 복수의 분류 대상 특성을 순차적으로 예측하되 상기 복수의 개별 예측 계층 중 선동작하는 개별 예측 계층의 결과값을 후동작하는 개별 예측 계층의 입력으로 이용하는음성 프로파일링 방법
|
12 |
12
제 11 항에 있어서,상기 공통 특징 추출 네트워크는, 하드 파라미터 쉐어링 기반의 복수의 합성곱 계층을 포함하고,상기 개별 예측 계층은, LSTM을 포함하는음성 프로파일링 방법
|
13 |
13
컴퓨터 판독 가능 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,프로파일링 대상 화자의 음성 데이터를 획득하는 단계와,학습 대상 화자들에 대한 복수의 분류 대상 특성이 라벨링이 된 학습용 음성 데이터가 기 학습되어 있는 인공신경망모델이 상기 프로파일링 대상 화자의 음성 데이터에 대하여 상기 복수의 분류 대상 특성을 예측한 결과를 제공하는 단계와,상기 복수의 분류 대상 특성을 예측한 결과를 출력하는 단계를 포함하고,상기 복수의 분류 대상 특성을 예측한 결과를 제공하는 단계는,상기 인공신경망모델의 공통 특징 추출 네트워크가 상기 프로파일링 대상 화자의 음성 데이터에 대하여 상기 복수의 분류 대상 특성에 대한 공통 특징으로서 2차원의 특징 행렬로 변환하는 단계와,상기 인공신경망모델의 특성 예측 네트워크가 상기 2차원의 특징 행렬로부터 상기 복수의 분류 대상 특성을 예측하는 단계를 포함하는 음성 프로파일링 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는컴퓨터 프로그램
|