1 |
1
텍스트의 어절을 구분하는 단계;
상기 구분된 어절별로 적어도 하나의 형태소 분석열을 추출하는 단계;
상기 추출된 형태소 분석열별 생성 확률을 결정하는 단계;
상기 추출된 형태소 분석열간의 전이 확률을 결정하는 단계; 및
상기 결정된 생성 확률 및 전이 확률을 이용하여 상기 구분된 어절에 대해 각각의 형태소 분석열을 태깅하는 단계;를 포함하며,
상기 형태소 분석열을 추출하는 단계는, 기생성된 유니그램(Unigram) 데이터베이스로부터 상기 어절에 해당하는 상기 형태소 분석열을 추출하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법
|
2 |
2
삭제
|
3 |
3
제 1 항에 있어서,
상기 유니그램 데이터베이스는, 어절, 상기 어절의 형태소별 품사, 및 상기 형태소별 품사의 빈도 정보를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법
|
4 |
4
제 1 항에 있어서,
상기 유니그램 데이터베이스로부터 상기 어절에 해당하는 형태소 분석열이 존재하지 않으면, 상기 어절의 형태소를 분석하여 형태소 분석열을 생성하는 단계;를 더 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법
|
5 |
5
제 3 항에 있어서,
상기 생성 확률을 결정하는 단계는, 상기 유니그램 데이터베이스로부터 추출되는 상기 형태소 분석열별 빈도 정보를 이용하여 상기 생성 확률을 결정하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법
|
6 |
6
제 1 항에 있어서,
상기 전이 확률을 결정하는 단계는, 기생성된 바이그램(Bigram) 사전 데이터베이스로부터 추출되는 상기 형태소별 품사의 빈도 정보를 이용하여 상기 전이 확률을 결정하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법
|
7 |
7
제 6 항에 있어서,
상기 바이그램 데이터베이스는, 인접하는 두 어절의 조합에 의한 어절 군(群), 상기 어절 군의 형태소별 품사, 및 상기 형태소별 품사의 빈도 정보를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법
|
8 |
8
제 7 항에 있어서,
상기 결정된 전이 확률 중, 상기 어절 군의 전체 빈도 정보 대비 상기 어절 군의 형태소 분석열의 빈도 정보가 기설정된 임계값 이하이면, 상기 어절 군의 형태소 분석열의 전이 확률을 제거하는 단계;를 더 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법
|
9 |
9
제 1 항에 있어서,
상기 형태소 분석열을 태깅하는 단계는, 비터비(Viterbi) 알고리즘을 이용하여 상기 어절에 대해 각각의 형태소 분석열을 태깅하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법
|
10 |
10
제 1 항에 있어서,
상기 형태소 분석열을 태깅하는 단계는, 상기 구분된 어절 X={X1, X2, X3, …, XT}에 대하여 하기의 수학식을 이용하여 상기 어절에 대해 태깅되는 형태소 분석열 q={q1, q2, q3, …, qT}를 태깅하는 것을 특징으로 하는 품사 및 동형이의어 태깅 방법:
이때, δ1(i)는 첫번째 어절의 형태소 분석열의 최대 생성 확률, πi는 현재 어절에 대하여 기설정된 값, bi(X1)은 첫번째 어절의 형태소 분석열의 생성 확률, ψ1(i)는 첫번째 어절의 형태소 분석열의 생성 확률 및 전이 확률의 곱, δt+1(j)는 생성 확률 및 전이 확률이 최대인 값, δt(i)는 t 어절에서 i 형태소 분석열과 j 형태소 분석열간의 최대의 전이 확률, aij는 t 어절에서 i 형태소 분석열로부터 j 형태소 분석열로의 전이 확률, bj(Xt+1)은 t+1 어절에서 j 형태소 분석열의 생성 확률, ψt+1(j)는 δt+1(j)의 최대 값, P는 마지막 어절의 생성 확률과 전이 확률이 최대인 값, qT는 P가 최대인 값이다
|
11 |
11
텍스트의 어절을 구분하는 어절 구분부;
상기 구분된 어절별로 적어도 하나의 형태소 분석열을 추출하는 형태소 분석열 추출부;
상기 추출된 형태소 분석열별 생성 확률을 결정하고, 상기 형태소 분석열간의 전이 확률을 결정하는 확률 결정부; 및
상기 결정된 생성 확률 및 전이 확률을 이용하여 상기 구분된 어절에 대해 각각의 형태소 분석열을 태깅하는 태깅부;를 포함하며,
상기 형태소 분석열 추출부는, 기생성된 유니그램 데이터베이스로부터 상기 어절에 해당하는 상기 형태소 분석열을 추출하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치
|
12 |
12
삭제
|
13 |
13
제 11 항에 있어서,
상기 유니그램 데이터베이스는, 어절, 상기 어절의 형태소별 품사, 및 상기 형태소별 품사의 빈도 정보를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치
|
14 |
14
제 11 항에 있어서,
상기 유니그램 데이터베이스로부터 상기 어절에 해당하는 형태소 분석열이 존재하지 않으면, 상기 어절의 형태소를 분석하여 형태소 분석열을 생성하는 형태소 분석부;를 더 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치
|
15 |
15
제 13 항에 있어서,
상기 확률 결정부는, 상기 유니그램(Unigram) 데이터베이스로부터 추출되는 상기 형태소 분석열별 빈도 정보를 이용하여 상기 생성 확률을 결정하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치
|
16 |
16
제 11 항에 있어서,
상기 확률 결정부는, 기생성된 바이그램(Bigram) 사전 데이터베이스로부터 추출되는 상기 형태소별 품사의 빈도 정보를 이용하여 상기 전이 확률을 결정하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치
|
17 |
17
제 16 항에 있어서,
상기 바이그램 데이터베이스는, 인접하는 두 어절의 조합에 의한 어절 군(群), 상기 어절 군의 형태소별 품사, 및 상기 형태소별 품사의 빈도 정보를 포함하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치
|
18 |
18
제 17 항에 있어서,
상기 확률 결정부는, 상기 결정된 전이 확률 중, 상기 어절 군의 전체 빈도 정보 대비 상기 어절 군의 형태소 분석열의 빈도 정보가 기설정된 임계값 이하이면, 상기 어절 군의 형태소 분석열의 전이 확률을 제거하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치
|
19 |
19
제 11 항에 있어서,
상기 태깅부는, 비터비(Viterbi) 알고리즘을 이용하여 상기 어절에 대해 각각의 형태소 분석열을 태깅하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치
|
20 |
20
제 11 항에 있어서,
상기 태깅부는, 상기 구분된 어절 X={X1, X2, X3, …, XT}에 대하여 하기의 수학식을 이용하여 상기 어절에 대해 태깅되는 형태소 분석열 q={q1, q2, q3, …, qT}를 태깅하는 것을 특징으로 하는 품사 및 동형이의어 태깅을 위한 단말 장치:
이때, δ1(i)는 첫번째 어절의 형태소 분석열의 최대 생성 확률, πi는 현재 어절에 대하여 기설정된 값, bi(X1)은 첫번째 어절의 형태소 분석열의 생성 확률, ψ1(i)는 첫번째 어절의 형태소 분석열의 생성 확률 및 전이 확률의 곱, δt+1(j)는 생성 확률 및 전이 확률이 최대인 값, δt(i)는 t 어절에서 i 형태소 분석열과 j 형태소 분석열간의 최대의 전이 확률, aij는 t 어절에서 i 형태소 분석열로부터 j 형태소 분석열로의 전이 확률, bj(Xt+1)은 t+1 어절에서 j 형태소 분석열의 생성 확률, ψt+1(j)는 δt+1(j)의 최대 값, P는 마지막 어절의 생성 확률과 전이 확률이 최대인 값, qT는 P가 최대인 값이다
|