1 |
1
적어도 하나의 명령어를 저장하기 위한 메모리, 그리고상기 명령어를 실행하는 프로세서를 포함하며,상기 명령어를 실행함으로써, 상기 프로세서는,각 훈련 데이터가 안면의 복수의 위치에서의 안면 인장 데이터를 포함하는 제1 훈련 데이터 세트로부터 제1 훈련 데이터를 선택하고,위치 최적화 모델을 통해 상기 제1 훈련 데이터의 상기 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 일부 위치를 선택하고,상기 위치 최적화 모델을 통해 상기 일부 위치에서의 상기 특성으로부터 음성을 분류하고,상기 위치 최적화 모델의 손실을 계산하고,상기 손실에 기초해서 상기 위치 최적화 모델을 갱신하는컴퓨팅 장치
|
2 |
2
제1항에서,상기 프로세서는 상기 제1 훈련 데이터 세트로부터 다른 제1 훈련 데이터를 선택하고, 상기 특성을 추출하는 동작, 상기 일부 위치를 선택하는 동작, 상기 음성을 분류하는 동작, 상기 손실을 계산하는 동작 및 상기 위치 최적화 모델을 갱신하는 동작을 반복하는, 컴퓨팅 장치
|
3 |
3
제2항에서,상기 프로세서는 상기 위치 최적화 모델을 통해 선택되는 상기 일부 위치가 수렴할 때까지 상기 반복을 수행하는, 컴퓨팅 장치
|
4 |
4
제1항에서,상기 손실은 상기 음성의 분류에 따른 제1 손실 및 상기 일부 위치의 선택에 따른 제2 손실을 포함하는, 컴퓨팅 장치
|
5 |
5
제4항에서,상기 프로세서는 상기 일부 위치에 할당된 중요도 계수에 기초해서 상기 제2 손실을 계산하는, 컴퓨팅 장치
|
6 |
6
제4항에서,상기 프로세서는 상기 특성으로부터 음성을 분류하여서 예측한 예측 값과 상기 제1 훈련 데이터에 대응하는 음성에 기초해서 상기 제1 손실을 계산하는, 컴퓨팅 장치
|
7 |
7
제1항에서,상기 프로세서는 상기 일부 위치의 개수를 줄이는 방향으로 상기 위치 최적화 모델을 갱신하는, 컴퓨팅 장치
|
8 |
8
제1항에서,상기 안면 인장 데이터는 시계열 안면 인장 데이터를 포함하며,상기 특성은 상기 시계열 안면 인장 데이터의 시간에 따른 변화 특성을 포함하는컴퓨팅 장치
|
9 |
9
제8항에서,각 위치에서의 상기 시계열 안면 인장 데이터는 각 위치를 중심 지점으로 하는 안면 상의 두 지점의 시간에 따른 위치 변화를 나타내는, 컴퓨팅 장치
|
10 |
10
제1항에서,상기 프로세서는,상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 최적 위치를 결정하고, 상기 제1 훈련 데이터 세트로부터 제2 훈련 데이터를 선택하고,음성 분류 모델을 통해 상기 제2 훈련 데이터 중에서 상기 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,상기 음성 분류 모델을 통해 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하고,상기 음성 분류 모델의 손실을 계산하고,상기 음성 분류 모델의 손실에 기초해서 상기 음성 분류 모델을 갱신하는컴퓨팅 장치
|
11 |
11
제10항에서,상기 프로세서는 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하여서 예측한 예측 값과 상기 제2 훈련 데이터에 대응하는 음성에 기초해서 상기 음성 분류 모델의 손실을 계산하는, 컴퓨팅 장치
|
12 |
12
제1항에서,상기 프로세서는,상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 최적 위치를 결정하고,각 훈련 데이터가 안면의 상기 최적 위치에서의 안면 인장 데이터를 포함하는 제2 훈련 데이터 세트로부터 제2 훈련 데이터를 선택하고,음성 분류 모델을 통해 상기 제2 훈련 데이터의 상기 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,상기 음성 분류 모델을 통해 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하고,상기 음성 분류 모델의 손실을 계산하고,상기 음성 분류 모델의 손실에 기초해서 상기 음성 분류 모델을 갱신하는컴퓨팅 장치
|
13 |
13
적어도 하나의 명령어를 저장하기 위한 메모리, 그리고상기 명령어를 실행하는 프로세서를 포함하며,상기 명령어를 실행함으로써, 상기 프로세서는,음성을 발성하는 사용자의 안면을 촬영한 영상에 기초해서 생성된 상기 안면의 지정된 위치에서의 안면 인장 데이터를 수신하고,제1 기계학습 모델에 기초해서 상기 안면 인장 데이터로부터 상기 음성을 인식하는음성 인식 장치
|
14 |
14
제13항에서,상기 지정된 위치는 상기 안면의 복수의 위치 중에서 제2 기계학습 모델에 의해 결정되는, 음성 인식 장치
|
15 |
15
제14항에서,상기 제2 기계학습 모델은,복수의 훈련 데이터를 포함하는 훈련 데이터 세트로부터 훈련 데이터를 선택하고,상기 제2 기계학습 모델을 통해, 선택한 상기 훈련 데이터의 상기 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,상기 제2 기계학습 모델을 통해, 상기 복수의 위치 중에서 일부 위치를 선택하고,상기 제2 기계학습 모델을 통해, 상기 일부 위치에서의 상기 특성으로부터 음성을 분류하고,상기 제2 기계학습 모델을 손실을 계산하고,상기 손실에 기초해서 상기 제2 기계학습 모델을 갱신함으로써 훈련되는음성 인식 장치
|
16 |
16
제13항에서,상기 제1 기계학습 모델은복수의 훈련 데이터를 포함하는 훈련 데이터 세트로부터 훈련 데이터를 선택하고,상기 제1 기계학습 모델을 통해, 선택한 상기 훈련 데이터의 상기 지정된 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하고,상기 제1 기계학습 모델을 통해, 상기 지정된 위치에서의 상기 특성으로부터 음성을 분류하고,상기 제1 기계학습 모델의 손실을 계산하고,상기 손실에 기초해서 상기 제1 기계학습 모델을 갱신함으로써 훈련되는음성 인식 장치
|
17 |
17
컴퓨팅 장치에 의해 실행되며, 기록 매체에 저장되어 있는 컴퓨터 프로그램으로서,상기 컴퓨터 프로그램은, 상기 컴퓨팅 장치가,각 훈련 데이터가 안면의 복수의 위치에서의 안면 인장 데이터를 포함하는 훈련 데이터 세트에 기초해서, 상기 복수의 위치 중에서 최적 위치를 결정하기 위한 위치 최적화 모델을 훈련하는 단계, 그리고상기 훈련 데이터 세트 중에서 상기 위치 최적화 모델에서 결정된 최적 위치에서의 훈련 데이터에 기초해서, 안면 인장 데이터로부터 음성을 분류하기 위한 음성 분류 모델을 훈련하는 단계를 실행하도록 하는 컴퓨터 프로그램
|
18 |
18
제17항에서,상기 컴퓨터 프로그램은, 상기 컴퓨팅 장치가 상기 위치 최적화 모델을 훈련할 때,상기 훈련 데이터 세트로부터 제1 훈련 데이터를 선택하는 단계,상기 위치 최적화 모델을 통해 상기 제1 훈련 데이터의 상기 복수의 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하는 단계,상기 위치 최적화 모델을 통해 상기 복수의 위치 중에서 일부 위치를 선택하는 단계,상기 위치 최적화 모델을 통해 상기 일부 위치에서의 상기 특성으로부터 음성을 분류하는 단계,상기 위치 최적화 모델의 손실을 계산하는 단계, 그리고상기 손실에 기초해서 상기 위치 최적화 모델을 갱신하는 단계를 실행하도록 하는 컴퓨터 프로그램
|
19 |
19
제18항에서,상기 손실은 상기 음성의 분류에 따른 제1 손실 및 상기 일부 위치의 선택에 따른 제2 손실을 포함하는, 컴퓨터 프로그램
|
20 |
20
제17항에서,상기 컴퓨터 프로그램은, 상기 컴퓨팅 장치가, 상기 음성 분류 모델을 훈련할 때,상기 훈련 데이터 세트로부터 제2 훈련 데이터를 선택하는 단계,상기 음성 분류 모델을 통해 상기 제2 훈련 데이터의 상기 최적 위치에서의 안면 인장 데이터로부터 특성을 각각 추출하는 단계,상기 음성 분류 모델을 통해 상기 최적 위치에서의 상기 특성으로부터 음성을 분류하는 단계,상기 음성 분류 모델의 손실을 계산하는 단계, 그리고상기 음성 분류 모델의 손실에 기초해서 상기 음성 분류 모델을 갱신하는 단계를 실행하도록 하는 컴퓨터 프로그램
|