1 |
1
한국어 자동 띄어쓰기 방법에 있어서, 표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 단계; 상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 단계; 및 상기 제 2 단계의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 단계 를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법
|
2 |
2
제 1항에 있어서, 상기 제 1 단계는, 같은 상태로 천이할 때는 공백이 발생하고, 다른 상태로 천이할 때에는 음절이 발생한다고 가정하는 제 4 단계; 시간이 0이고 상태가 0인 노드의 누적 로그 확률을 0으로 설정하고, 시간이 0 또는 상태가 0인 노드의 누적 로그 확률은 -∞로 설정하는 제 5 단계; 백 트랙킹을 위해 사용되는 백 포인터를 -1로 설정하는 제 6 단계; 및 최대 누적 확률은 0으로 설정하는 제 7단계 를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법
|
3 |
3
제 2 항에 있어서, 상기 백 포인터는, 현재 가설이 이전 어느 가설에서 추출되었는지를 알아내기 위해 사용되며, 이전 가설의 시간, 상태, 포인터를 저장하는 것을 특징으로 하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법
|
4 |
4
제 1항 또는 제 2항에 있어서, 상기 제 2 단계는, 제 1 시간(t)이고, 제 1 상태(s)인 노드(t,s)로의 천이가 가능한 제 2 상태(t-1)에서의 노드들에 저장된 모든 가설을 추출하는 제 8 단계; 제 2 상태(s-1)에서 추출된 가설에 음절A[s]를 추가하고, 백 포인터에는 상기 제 2 상태(s-1)를 저장하는 제 9 단계; 상기 제 8 단계에서 추출된 가설들에 대하여 새롭게 추가된 음절의 조건 로그 확률을 누적 로그 확률에 추가하고, 띄어쓰기 성능 향상을 위해 단어 길이에 따른 로그 확률을 누적 로그확률에 추가하는 제 10 단계; 상기 제 10 단계 수행후, 추출된 가장 나중의 n-1개 음절이 동일한 가설들 중 누적 로그확률이 높은 가설만 남긴 후 나머지는 제거하는 제 11 단계; 및 상기 제 8 단계에서 추출된 각 가설중 최대 누적 로그 확률과 누적 로그 확률의 차이가 미리 주어진 빔 크기보다 큰 가설을 제거하고, 제 1 시간(t)에서의 모든 가설 중에서 최대 누적 로그확률을 계산하는 제 12 단계 를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법
|
5 |
5
제 4 항에 있어서, 상태 s에서 추출된 가설들에는 공백을 추가한 후, 백 포인터에는 상기 제 1 상태(s)를 저장하고, 제 3 상태(s-2)에서 추출된 가설들에는 음절A[s]가 공백인 경우만으로 제한되며, 만일 두개의 공백문자가 연속으로 발생하는 가설을 제거하는 제 13단계 를 더 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법
|
6 |
6
제 4항에 있어서, 상기 제 12 단계는, 상기 최대 누적 로그확률은 제 3 시간(t+1)에서 누적 로그확률이 낮은 가설들을 제거하는데 사용되는 것을 특징으로 하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법
|
7 |
7
제 4 항에 있어서, 상기 제 3 단계는, 상태가 S의 음절로 구성된 입력문장의 마지막 음절이 입력된 상태에서 띄어쓰기가 전혀 없는 경우에 해당하는 가장 빨리 도달할 수 있는 소정시간(S)과 매 음절간에 띄어쓰기가 되는 경우의 마지막 음절이 입력된 상태의 시간(T) 사이에 있는 노드에 저장된 가설들 중 정규 누적 로그 확률이 최대인 제 1 가설(h) 및 그 때의 시간(t)을 계산하는 제 14 단계; 상기 제 1 가설(h)로부터 백 포인터를 이용하여 상기 제 1 가설의 이전 가설인 제 2 가설(h')을 탐색하는 제 15 단계; 상기 제 2 가설(h')에서 제 1 가설(h)로의 상태변화 결과에 따라 입력음절 또는 공백을 출력 스트링의 앞에 삽입하는 제 16 단계; 및 상기 정규 누적 로그 확률이 최대인 제 1 가설(h)의 시간(t)을 상기 제 2 가설(h')가 속한 노드의 시간으로 설정하는 제 17 단계 를 포함하는 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 방법
|
8 |
8
마이크로 프로세서를 구비한, 음절단위 조건확률을 이용한 한국어 자동 띄어쓰기 시스템에, 표준 문장 코퍼스로부터 통계처리를 통하여 음절간 천이 확률을 설정하는 제 1 기능; 상기 설정된 확률에 의거하여 띄어쓰기 처리 대상 문장에 포함된 음절열에 대하여 첫 번째 음절부터 시작하여, 각 음절사이에 띄어쓰기를 하는 경우와 안하는 경우를 나누어 모든 경우의 조합에 의하여 누적 로그 확률을 순차적으로 계산하는 제 2 기능; 및 상기 제 2 기능의 계산된 결과에 의하여, 최대 누적 로그 확률에 해당하는 경로를 선택하여 백 포인터를 이용하여 입력된 음절의 띄어쓰기 최적패턴을 탐색하여 출력 스트링을 획득하는 제 3 기능 을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
|