1 |
1
(a) 사용자 확인 과정을 통하여 각 사용자에 대한 사용자 음향모델을 생성하여 사용자 음향모델 DB에 등록하는 단계와,(b) 사용자의 발화에 대하여 상기 사용자 음향모델 DB로부터 상기 기 등록된 사용자 음향모델을 로딩하여 음성인식을 수행하고 화자적응에 필요한 정보를 출력하는 단계와,(c) 상기 출력되는 정보들을 수신하여 화자적응에 필요한 관측데이터를 사용자 누적기 DB에 누적하는 단계와(d) 사용자가 음성인식 서비스를 종료할 시점에 현재까지 누적된 누적정보를 이용하여 화자적응을 수행하는 단계를 포함하는 것을 특징으로 하는 화자적응 방법
|
2 |
2
제 1 항에 있어서,상기 화자적응에 필요한 정보는 인식결과의 음소열, 음소열의 시간정보 및 음성 특징데이터인 것을 특징으로 하는 화자적응 방법
|
3 |
3
제 1항에 있어서, 상기 (a) 단계는, 사용자로부터 입력된 ID(Identification number)를 기반으로 상기 사용자가 기 등록된 사용자인지 판단하는 단계와,상기 판단 결과, 상기 사용자가 기 등록된 사용자가 아니면 서비스 시스템에 사용자 등록 과정을 거친 후, 교사 방식 화자적응 과정을 통해 초기 사용자 음향모델을 생성하고, 상기 생성된 사용자 음향모델을 사용자 음향모델 DB에 등록하는 단계를 포함하는 것을 특징으로 하는 화자적응 방법
|
4 |
4
제 3항에 있어서, 상기 음향모델의 생성은, 기 등록되지 않은 사용자가 상기 서비스 시스템에 사용자 등록을 하면, 상기 사용자의 화자적응 음향모델 생성 과정 수행을 위한 초기 사용자 누적기를 생성하는 단계와,교사 방식 화자적응 수행을 위해 제시된 음소가 분포된 발성 목록을 한 문장씩 발성하도록 하여 사용자 발화를 입력받는 단계와,상기 사용자가 발화한 음성 데이터에 대한 음성 특징 포맷에 따라 음성 특징 데이터를 추출하는 단계와,상기 발성 목록에 따라 해당 음소열을 생성하고, 상기 추출된 음성 특징 데이터에 대하여 비터비 정렬 방법(viterbi alignment)에 의해 상기 음성 특징 데이터와 음소열 정렬을 수행하는 단계와,상기 음소열 정렬 과정을 통해 얻어진 각 음소들의 시간 정보를 이용하여 음성 특징 데이터에 대한 각 음소들의 관측 정보를 누적하는 단계와,상기 사용자의 사용자 음향모델을 화자적응 방법에 의하여 생성하고, 상기 생성된 사용자 음향모델을 상기 사용자 음향모델 DB에 등록하는 단계와,상기 관측 정보가 누적된 초기 사용자 누적기를 사용자 누적기 DB에 사용자 누적기로 등록하는 단계를 포함하는 것을 특징으로 하는 화자적응 방법
|
5 |
5
제 1항에 있어서, 상기 (b) 단계는, 상기 사용자 음향모델 DB로부터 사용자 음향모델을 로딩하는 단계와,음성인식 서비스를 위한 상기 사용자의 음성이 발화되면, 음성인식을 수행하여 화자적응 과정에 필요한 정보를 화자적응 서버로 출력하는 단계와,상기 음성인식이 수행된 결과에 기반하여 응용프로그램을 실행시키는 단계를 포함하는 것을 특징으로 하는 화자적응 방법
|
6 |
6
제 1항에 있어서, 상기 (c) 단계는, 서비스 사용자가 처음 교사 화자적응 과정에서 누적하였던 사용자 누적기 또는 이전 서비스 과정에서 추가로 누적하였던 사용자 누적기를 사용자 누적 DB로부터 로딩하는 단계와, 상기 출력되는 화자적응에 필요한 정보를 이용하여 음성인식 결과의 신뢰도를 측정하는 단계와, 상기 측정된 신뢰도와 미리 정해진 문턱 값을 서로 비교하고, 상기 비교 결과에 따라 관측된 정보를 사용자 누적기에 누적하는 단계를 포함하는 것을 특징으로 하는 화자적응 방법
|
7 |
7
제 6 항에 있어서, 상기 화자적응에 필요한 정보는 인식결과의 음소열, 음소열의 시간정보 및 음성 특징데이터이고, 상기 사용자 누적기에서 로딩되는 관측정보는 해당 음소에 대한 점유 확률값과 음성 특징데이터 값을 곱한 값, 해당 음소 모델이 관측된 빈도 정보인 것을 특징으로 하는 화자적응 방법
|
8 |
8
제 6 항에 있어서,상기 화자적응 과정은 MAP(Maximum A Posteriori), MLLR(Maximum Likelihood Linear Regression) 및 Eigenvoice 방법 중 하나인 것을 특징으로 하는 화자적응 방법
|
9 |
9
제 6 항에 있어서,상기 누적하는 단계는 상기 신뢰도가 문턱값보다 큰 경우에만 누적하는 것을 특징으로 하는 화자적응 방법
|
10 |
10
제 1항에 있어서, 상기 (d) 단계는, 서비스 종료 여부를 판단하는 제 1 판단 단계와,상기 제 1 판단 결과 사용자가 계속 사용할 경우는 사용자의 음성 발화를 검출하고, 상기 제 1 판단 결과 사용자가 서비스를 종료할 경우는 서비스 종료 시점에 화자적응 서버에 서비스 종료 신호를 전달하는 단계와,상기 화자적응 서버에서 상기 서비스 종료 신호를 수신하면, 현재 사용자가 서비스를 계속 이용하는지를 판단하는 제 2 판단 단계와,상기 제 2 판단 결과, 사용자가 서비스를 계속 이용하는 경우에는 신뢰도 측정 단계로 이행하고, 상기 제 2 판단 결과, 사용자가 서비스를 종료할 경우에는 현재까지 누적된 사용자 누적기를 사용하여 사용자 음향모델을 생성하고, 상기 생성된 사용자 음향모델을 사용자 음향모델 DB에 갱신하는 단계와, 현재까지 누적된 사용자 누적기를 사용자 누적기 DB로 갱신하는 단계를 포함하는 것을 특징으로 하는 화자적응 방법
|
11 |
11
사용자가 발성한 음성 데이터를 이용하여 기 정의된 사용자 음향모델을 기반으로 화자 종속 음성인식을 수행하여 화자적응 과정에 필요한 정보를 생성하는 음성인식 서버와,상기 생성된 정보를 사용하여 이전에 사용하던 사용자 누적기를 로딩하여 관측 데이터를 누적하고, 음성인식 서비스 종료 시점에 누적된 정보를 사용하여 화자적응을 수행하며, 새로 생성된 사용자 음향모델 및 현재까지 누적된 사용자 누적기를 갱신하는 화자적응 서버를 포함하는 것을 특징으로 하는 화자적응 장치
|
12 |
12
제 11 항에 있어서,상기 화자적응 과정에 필요한 정보는 인식결과의 음소열, 음소열의 시간정보, 음성 특징데이터인 것을 특징으로 하는 화자적응 장치
|