1 |
1
한글 유사도 계산 장치에서 한글 유사도 계산 방법에 있어서,두 한글 음절 간의 복수의 유사도 형태에 대하여 매핑될 유사도 점수들을 데이터베이스에 저장하는 단계; 및입력어와 비교대상을 비교하고 상기 데이터베이스를 참조하여 상기 입력어와 상기 비교대상 간의 유사도 점수를 산출하는 단계를 포함하고,상기 유사도 점수를 산출하는 단계에서, 상기 입력어 앞에 공백을 붙인 단어의 앞에서부터 한 음절씩 누적한 음절들에 대하여, 상기 비교대상 앞에 공백을 붙인 단어의 앞에서부터 한 음절씩 누적한 음절들과 비교해 각 유사도 점수를 산출하되,상기 데이터베이스는 음절 삽입에 대한 편집 거리(β), 음절 삭제 에 대한 편집 거리(β), 및 음절 치환에 대한 편집 거리를 저장하고,알고리즘에 기초하여, 비교 현재의 유사도 점수를 산출하되,여기서, SED(A(i),B(j))는 비교 현재의 편집 거리, min()는 ()안의 원소 중 최소값, SED(A(i),B(j-1))은 상기 입력어의 처음부터 비교 현재까지의 음절들에 대하여, 상기 비교대상의 처음부터 비교 이전까지의 음절들과의 편집 거리, SED(A(i-1),B(j))은 상기 입력어의 처음부터 비교 이전까지의 음절들에 대하여, 상기 비교대상의 처음부터 비교 이전까지의 음절들과의 편집 거리, SED(A(i-1),B(j-1))은 상기 입력어의 처음부터 비교 이전까지의 음절들에 대하여, 상기 비교대상의 처음부터 비교 이전까지의 음절들과의 편집 거리, δs(A[i],B[j])은 비교 현재 위치에서의 상기 입력어와 상기 비교대상의 해당 음절 간의 편집 거리인 것을 특징으로 하는 한글 유사도 계산 방법
|
2 |
2
제1항에 있어서,상기 음절 치환에 대한 편집 거리는,비교되는 상기 두 한글 음절 간의 모든 음소들이 다른 경우에, 상기 β이며, 비교되는 상기 두 한글 음절 간에 하나 이상의 음소가 같은 경우에, N*α이고, 여기서, α는 음소 단위 편집 연산 비용으로서 임의의 실수, N은 다른 음소의 갯수이며, β≥3α인 것을 특징으로 하는 한글 유사도 계산 방법
|
3 |
3
한글 유사도 계산 장치에서 한글 유사도 계산 방법에 있어서,두 한글 음절 간의 복수의 유사도 형태에 대하여 매핑될 유사도 점수들을 데이터베이스에 저장하는 단계; 입력어와 비교대상을 비교하고 상기 데이터베이스를 참조하여 상기 입력어와 상기 비교대상 간의 유사도 점수를 산출하는 단계를 포함하고,상기 유사도 점수를 산출하는 단계에서, 상기 입력어 앞에 공백을 붙인 단어의 앞에서부터 한 음절씩 누적한 음절들에 대하여, 상기 비교대상 앞에 공백을 붙인 단어의 앞에서부터 한 음절씩 누적한 음절들과 비교해 각 유사도 점수를 산출하되, 상기 데이터베이스는 음소 매치에 대한 유사도값(Mp), 음소 미스매치에 대한 유사도값(동일 그룹의 경우 -N1p 또는 다른 그룹의 경우 -N2p), 음소 삽입이나 삭제에 대한 유사도값(-Ip), 음절 매치에 대한 유사도값(Ms), 음절 미스매치에 대한 유사도값, 및 음절 삽입이나 삭제에 대한 유사도값(-Is)을 저장하고,알고리즘에 기초하여, 비교 현재의 유사도 점수를 산출하되,여기서, SIM(A(i),B(j))는 비교 현재의 유사도값, max()는 ()안의 원소 중 최대값, SIM(A(i),B(j-1))은 상기 입력어의 처음부터 비교 현재까지의 음절들에 대하여, 상기 비교대상의 처음부터 비교 이전까지의 음절들과의 유사도값, SIM(A(i-1),B(j))은 상기 입력어의 처음부터 비교 이전까지의 음절들에 대하여, 상기 비교대상의 처음부터 비교 현재까지의 음절들과의 유사도값, SIM(A(i-1),B(j-1))은 상기 입력어의 처음부터 비교 이전까지의 음절들에 대하여, 상기 비교대상의 처음부터 비교 이전까지의 음절들과의 유사도값, δs(A[i],B[j])은 비교 현재 위치에서의 상기 입력어와 상기 비교대상의 해당 음절 간의 유사도값인 것을 특징으로 하는 한글 유사도 계산 방법
|
4 |
4
제3항에 있어서,상기 음절 미스매치에 대한 유사도값은,비교되는 상기 두 한글 음절 간의 모든 음소들이 다른 경우에, -Ns(Ns는 0보다 큰 실수), 비교되는 상기 두 한글 음절 간에 하나 이상의 음소가 같은 경우에, 대응되는 음소들의 유사도값들의 합이며, 여기서, Ms≥3Mp, -Ns≤-3N1p, 및 -Is≤-3Ip인 것을 특징으로 하는 한글 유사도 계산 방법
|
5 |
5
한글 유사도 계산 장치에서 한글 유사도 계산 방법에 있어서,두 한글 음절 간의 복수의 유사도 형태에 대하여 매핑될 유사도 점수들을 데이터베이스에 저장하는 단계; 및입력어와 비교대상을 비교하고 상기 데이터베이스를 참조하여 상기 입력어와 상기 비교대상 간의 유사도 점수를 산출하는 단계를 포함하고,상기 유사도 점수를 산출하는 단계에서, 상기 입력어 앞에 공백을 붙인 단어의 앞에서부터 한 음절씩 누적한 음절들에 대하여, 상기 비교대상 앞에 공백을 붙인 단어의 앞에서부터 한 음절씩 누적한 음절들과 비교해 각 유사도 점수를 산출하되, 상기 입력어와 상기 비교대상에 각각 음절 경계마다 구분자('#')을 삽입하고 초성, 중성, 종성 순서로 나열한 후, 상기 구분자가 포함된 입력어와 비교대상 간의 상기 유사도 점수를 산출하는 것을 특징으로 하는 한글 유사도 계산 방법
|
6 |
6
제5항에 있어서,상기 데이터베이스는 두 음소가 서로 일치하고 모두 '#'이 아닌 경우에 대한 유사도값(M1), 두 음소가 모두 '#'인 경우에 대한 유사도값(M2), '#'이 아닌 두 음소가 다르고 서로 같은 그룹에는 속하는 경우에 대한 유사도값(-N1), '#'이 아닌 두 음소가 다르고 서로 다른 그룹에는 속하는 경우에 대한 유사도값(-N2), 두 음소가 서로 다르고 그 중 하나가 '#'인 경우에 대한 유사도값(-N3), 두 음소 중 하나가 '#'이 아니며 음소 삽입이나 삭제인 경우에 대한 유사도값(-I1), 두 음소 중 하나가 '#'이며 음소 삽입이나 삭제인 경우에 대한 유사도값(-I2)을 저장하고,알고리즘에 기초하여, 비교 현재의 유사도 점수를 산출하되,여기서, λ는 공백, SIM(At(i),Bt(j))는 비교 현재의 유사도값, max()는 ()안의 원소 중 최대값, SIM(At(i),Bt(j-1))은 상기 입력어의 처음부터 비교 현재까지의 음소들에 대하여, 상기 비교대상의 처음부터 비교 이전까지의 음소들과의 유사도값, SIM(At(i-1),Bt(j))은 상기 입력어의 처음부터 비교 이전까지의 음소들에 대하여, 상기 비교대상의 처음부터 비교 현재까지의 음소들과의 유사도값, SIM(At(i-1),Bt(j-1))은 상기 입력어의 처음부터 비교 이전까지의 음소들에 대하여, 상기 상기 비교대상의 처음부터 비교 이전까지의 음소들과의 유사도값, S(At[i],Bt[j])은 비교 현재 위치에서의 상기 입력어와 상기 비교대상의 해당 음소 간의 유사도값, S(λ,Bt[j])는 비교 현재 위치에서의 공백과 비교대상의 해당 음소 간의 유사도값, S(At[i], λ)는 비교 현재 위치에서의 입력어의 해당 음소와 공백 간의 유사도 값을 나타내는 것을 특징으로 하는 한글 유사도 계산 방법
|
7 |
7
한글 유사도 계산 장치에서 한글 유사도 계산 방법에 있어서,두 한글 음절 간의 복수의 유사도 형태에 대하여 매핑될 유사도 점수들을 데이터베이스에 저장하는 단계; 및입력어와 비교대상을 비교하고 상기 데이터베이스를 참조하여 상기 입력어와 상기 비교대상 간의 유사도 점수를 산출하는 단계를 포함하고,상기 유사도 점수를 산출하는 단계에서, 상기 입력어 앞에 공백을 붙인 단어의 앞에서부터 한 음절씩 누적한 음절들에 대하여, 상기 비교대상 앞에 공백을 붙인 단어의 앞에서부터 한 음절씩 누적한 음절들과 비교해 각 유사도 점수를 산출하고, 또한, 상기 입력어와 상기 비교대상의 음절을 음소 단위로 풀어 초성, 중성, 종성 순서로 나열한 후, 각 초성 뒤에 구분자(')을 삽입한 후, 상기 구분자가 포함된 입력어와 비교대상 간의 상기 유사도 점수를 산출하되, 각 음절에서 중성이나 종성에 비교하여 상기 구분자가 포함된 초성에 가중치를 더 크거나 같게 주는 것을 특징으로 하는 한글 유사도 계산 방법
|
8 |
8
제7항에 있어서,상기 데이터베이스는, 두 음소가 서로 일치하고 모두 초성인 경우에 대한 유사도값(m1), 두 음소가 서로 일치하고 모두 초성이 아닌 경우에 대한 유사도값(m2), 두 음소가 서로 일치하고 하나만 초성인 경우에 대한 유사도값(m3), 두 음소가 서로 다르고 모두 초성인 경우에 대한 유사도값(-n1), 두 음소가 서로 다르고 모두 초성이 아닌 경우에 대한 유사도값(-n2), 두 음소가 서로 다르고 하나만 초성인 경우에 대한 유사도값(-n3), 초성에 대하여 음소 삽입이나 삭제인 경우에 대한 유사도값(-i1), 초성이 아닌 경우에 대하여 음소 삽입이나 삭제인 경우에 대한 유사도값(-i2)을 저장하고,알고리즘에 기초하여, 비교 현재의 유사도 점수를 산출하되,λ는 공백, SIM(At(i),Bt(j))는 비교 현재의 유사도값, max()는 ()안의 원소 중 최대값, SIM(At(i),Bt(j-1))은 상기 입력어의 처음부터 비교 현재까지의 음소들에 대하여, 상기 비교대상의 처음부터 비교 이전까지의 음소들과의 유사도값, SIM(At(i-1),Bt(j))은 상기 상기 입력어의 처음부터 비교 이전까지의 음소들에 대하여, 상기 비교대상의 처음부터 비교 현재까지의 음소들과의 유사도값, SIM(At(i-1),Bt(j-1))은 상기 입력어의 처음부터 비교 이전까지의 음소들에 대하여, 상기 비교대상의 처음부터 비교 이전까지의 음소들과의 유사도값, S(At[i],Bt[j])은 비교 현재 위치에서의 상기 입력어와 상기 비교대상의 해당 음소 간의 유사도값, S(λ,Bt[j])는 비교 현재 위치에서의 공백과 비교대상의 해당 음소 간의 유사도값, S(At[i], λ)는 비교 현재 위치에서의 입력어의 해당 음소와 공백 간의 유사도값인 것을 특징으로 하는 한글 유사도 계산 방법
|
9 |
9
제1항 내지 제8항 중 어느 한 항에 있어서,초성으로 사용되는 한글 자음 및 종성이 없거나 종성으로 사용되는 한글 자음을 분류한 복수의 자음 그룹, 및 한글 모음을 분류한 복수의 모음 그룹을 정의하여 제2데이터베이스에 저장하는 단계를 더 포함하고,상기 유사도 점수를 산출하는 단계에서, 상기 제2데이터베이스를 기초로 상기 입력어와 상기 비교대상의 한글 자음 및 모음 각각의 그룹을 판단하여 상기 입력어와 상기 비교대상 간의 유사도 점수를 산출하는 것을 특징으로 하는 한글 유사도 계산 방법
|
10 |
10
제1항 내지 제9항 중 어느 한 항에 있어서,리소스를 제3 데이터베이스에 저장하는 단계; 및상기 유사도 점수를 산출하기 전에, 입력되는 상기 입력어와 비교할 상기 비교대상을 상기 제3 데이터베이스로부터 추출하는 단계를 더 포함하는 것을 특징으로 하는 한글 유사도 계산 방법
|