1 |
1
한국어에 대한 음성인식 단위 생성 장치에서,어절 단위 말뭉치로부터 어절 단위의 발음열을 추출하고, 의사형태소 단위 말뭉치로부터 의사형태소 단위의 발음열을 추출하는 발음열 추출부;상기 어절 단위의 발음열과 상기 의사형태소 단위의 발음열을 정렬하는 발음열 정렬부; 및상기 의사형태소 단위의 발음열에 상기 어절 단위의 발음열을 부착하여 음성인식 단위의 말뭉치를 생성하는 발음열 부착부를 포함하며, 상기 발음열 추출부는 상기 어절 단위 말뭉치와 상기 의사형태소 단위 말뭉치로부터 어절 범위 내에서 변이된 의사형태소 발음열을 탐색하기 위하여, 단어의 경계에 별도의 단어경계 기호를 삽입하고, 상기 발음열 추출부에서 추출한 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬하고, 상기 발음열 정렬부는 상기 발음열 추출부에서 추출한 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬하되, 단어 경계에서 발음열의 정렬이 발생하지 않도록 단어 경계 사이의 거리 값을 높인 것이고, 상기 발음열 정렬부는 상기 어절 단위의 발음열로부터 발음변이가 고려된 의사형태소의 발음열을 얻고, 상기 발음열 부착부는, 상기 발음열 정렬부에서 얻은 발음변이가 고려된 의사형태소의 발음열을 상기 의사형태소 단위의 발음열에 부착하는 방식으로, 발음이 다른 의사형태소 단위를 서로 다른 단위로 구분하며, 상기 발음열 정렬부는 문자열 정렬 알고리즘을 이용하여 어절 단위에서 생성된 발음열과 의사형태소 단위에서 생성된 발음열을 어절 단위를 기준으로 정렬하되, 두 발음열 사이의 거리 값이 최소가 되는 정렬 결과를 탐색하기 위해서 누적 거리값이 기록된 탐색 테이블을 생성하고, 생성된 탐색 테이블을 이용하여 거리 값이 최소가 되는 정렬 결과를 탐색하는 정렬 알고리즘을 이용하여 정렬하며, 이때, 은 어절 단위의 발음열 와 형태소 단위의 발음열 에서 각 i번째, j번째 발음 기호 , 사이의 거리 값을 나타내며, (수학식 1)을 사용하여 발음 간의 거리를 계산하고, 는 두 발음열로 생성된 탐색 테이블에서 i번째와 j번째 발음 기호까지의 누적거리 값을 나타내며, (수학식 2)를 사용하여 탐색 테이블의 대각, 위쪽, 왼쪽의 누적거리 값에 두 발음 사이의 거리 값을 더하거나, 삽입 페널티 또는 삭제 페널티를 더한 값 중에서 가장 작은 값을 선택하여 재귀적으로 누적 거리 값을 기록하는 방식으로 탐색 테이블을 생성하고, 단어 경계 기호를 WB라고 할 때, 을 이용하여 단어 경계 기호가 발견될 때 상대적으로 높은 거리 값을 갖도록 하는 것을 특징으로 하는 음성인식 단위 생성 장치
|
6 |
6
형태소 발음변위를 고려한 음성인식 단위 생성 장치에서의 음성인식 단위 생성 방법에서, 어절 단위 말뭉치로부터 어절 단위의 발음열을 추출하고, 의사형태소 단위 말뭉치로부터 의사형태소 단위의 발음열을 추출하는 발음열 추출 단계; 상기 어절 단위의 발음열과 상기 의사형태소 단위의 발음열을 정렬하는 발음열 정렬 단계; 및상기 의사형태소 단위의 발음열에 상기 어절 단위의 발음열을 부착하여 음성인식 단위의 말뭉치를 생성하는 발음열 부착 단계를 포함하며, 상기 발음열 추출 단계에서 상기 어절 단위 말뭉치와 상기 의사형태소 단위 말뭉치로부터 어절 범위 내에서 변이된 의사형태소 발음열을 탐색하기 위하여, 단어의 경계에 별도의 단어경계 기호를 삽입하고, 상기 발음열 정렬 단계에서 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬하고, 상기 발음열 정렬 단계에서 어절 단위 발음열과 의사형태소 단위 발음열을 어절 단위 말뭉치의 발음열을 기준으로 정렬하되, 단어 경계에서 발음열의 정렬이 발생하지 않도록 단어 경계 사이의 거리 값을 높인 것이고, 상기 발음열 정렬 단계에서 상기 어절 단위의 발음열로부터 발음변이가 고려된 의사형태소의 발음열을 얻고, 상기 발음열 부착 단계에서, 상기 발음열 정렬 단계에서 얻은 발음변이가 고려된 의사형태소의 발음열을 상기 의사형태소 단위의 발음열에 부착하는 방식으로, 발음이 다른 의사형태소 단위를 서로 다른 단위로 구분하며, 상기 발음열 정렬 단계에서, 문자열 정렬 알고리즘을 이용하여 어절 단위에서 생성된 발음열과 의사형태소 단위에서 생성된 발음열을 어절 단위를 기준으로 정렬하되, 두 발음열 사이의 거리 값이 최소가 되는 정렬 결과를 탐색하기 위해서 누적 거리값이 기록된 탐색 테이블을 생성하고, 생성된 탐색 테이블을 이용하여 거리 값이 최소가 되는 정렬 결과를 탐색하는 정렬 알고리즘을 이용하여 정렬하며, 이때, 은 어절 단위의 발음열 와 형태소 단위의 발음열 에서 각 i번째, j번째 발음 기호 , 사이의 거리 값을 나타내며, (수학식 1)을 사용하여 발음 간의 거리를 계산하고, 는 두 발음열로 생성된 탐색 테이블에서 i번째와 j번째 발음 기호까지의 누적거리 값을 나타내며, (수학식 2)를 사용하여 탐색 테이블의 대각, 위쪽, 왼쪽의 누적거리 값에 두 발음 사이의 거리 값을 더하거나, 삽입 페널티 또는 삭제 페널티를 더한 값 중에서 가장 작은 값을 선택하여 재귀적으로 누적 거리 값을 기록하는 방식으로 탐색 테이블을 생성하고, 단어 경계 기호를 WB라고 할 때, 을 이용하여 단어 경계 기호가 발견될 때 상대적으로 높은 거리 값을 갖도록 하는 것을 특징으로 하는 음성인식 단위 생성 방법
|