1 |
1
대상 문서 및 비교 문서에 대하여 각각의 자질들을 추출하는 단계;
상기 추출된 각각의 자질들의 의미를 결정하는 단계; 및
상기 결정된 자질들의 의미 및 상기 대상 문서와 상기 비교 문서의 오버랩(Overlap) 정보를 이용하여, 상기 대상 문서 및 상기 비교 문서간의 유사도를 결정하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법
|
2 |
2
제 1 항에 있어서,
상기 자질들을 추출하는 단계는,
상기 대상 문서 및 상기 비교 문서 내의 텍스트의 형태소를 분석하는 단계; 및
상기 형태소 분석 결과를 이용하여 불용어(stopword)를 제거하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법
|
3 |
3
제 1 항에 있어서,
상기 자질들의 의미를 결정하는 단계는,
상기 추출된 자질들 중 대상 자질이 중앙에 위치하도록 기설정된 사이즈의 비교 영역을 설정하는 단계;
상기 대상 자질의 후보 의미 및 상기 비교 영역 내에서 상기 대상 자질을 제외한 주변 자질의 후보 의미를 추출하는 단계;
상기 대상 자질의 후보 의미 및 상기 주변 자질의 후보 의미의 의미 유사도를 결정하는 단계; 및
상기 결정된 의미 유사도를 이용하여 상기 대상 자질의 의미를 결정하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법
|
4 |
4
제 3 항에 있어서,
상기 대상 자질의 의미를 결정하는 단계는,
상기 주변 자질 각각의 후보 의미들의 최대 유사도의 합을 산출하는 단계;
상기 산출된 합을 상기 대상 자질의 각 후보 의미에 할당하는 단계; 및
상기 할당된 값이 최대인 후보 의미를 상기 대상 자질의 의미로 결정하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법
|
5 |
5
제 1 항에 있어서,
상기 추출된 자질들을 확장하는 단계;를 더 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법
|
6 |
6
제 5 항에 있어서,
상기 자질들을 확장하는 단계는,
어휘망 데이터베이스로부터 상기 자질들 각각의 동의어를 추출하여 상기 자질들 및 상기 자질들에 대하여 추출된 동의어를 포함하는 동의어 그룹을 형성하는 단계; 및
상기 어휘망 데이터베이스로부터 상기 자질들 각각의 관련어를 추출하여 상기 추출된 관련어를 포함하는 관련어 그룹을 형성하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법
|
7 |
7
제 6 항에 있어서,
상기 관련어 그룹을 형성하는 단계에서, 상기 자질들 각각에 대하여 기설정된 관련도 깊이값 이내에 해당하는 관련어들만을 추출하는 것을 특징으로 하는 문서의 유사도 결정 방법
|
8 |
8
제 7 항에 있어서,
상기 유사도를 결정하는 단계는,
상기 대상 문서의 동의어 그룹 및 상기 비교 문서의 동의어 그룹간의 오버랩 정보를 이용하여 제1 유사도 점수를 결정하는 단계;
상기 대상 문서의 관련어 그룹 및 상기 비교 문서의 동의어 그룹간의 제2 유사도 점수를 결정하는 단계; 및
상기 제1 유사도 점수 및 상기 제2 유사도 점수를 합산하여 최종 유사도 점수를 결정하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법
|
9 |
9
제 8 항에 있어서,
상기 제1 유사도 점수를 결정하는 단계는, 하기의 수학식을 이용하여 상기 제1 유사도 점수를 산출하는 것을 특징으로 하는 문서의 유사도 결정 방법:
이때, scoreidx는 상기 제1 유사도 점수, Noverlaps는 오버랩의 전체 개수, length는 오버랩의 길이이다
|
10 |
10
제 8 항에 있어서,
상기 제2 유사도 점수를 결정하는 단계는, 상기 대상 문서의 관련어 그룹 및 상기 비교 문서의 동의어 그룹에서 상호 일치하는 자질의 개수를 상기 제2 유사도 점수로 결정하는 것을 특징으로 하는 문서의 유사도 결정 방법
|
11 |
11
대상 문서 및 비교 문서에 대하여 각각의 자질들을 추출하는 자질 추출부;
상기 추출된 각각의 자질들의 의미를 결정하는 의미 결정부; 및
상기 결정된 자질들의 의미 및 상기 대상 문서와 상기 비교 문서의 오버랩 정보를 이용하여, 상기 대상 문서 및 상기 비교 문서간의 유사도를 결정하는 유사도 결정부;를 포함하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치
|
12 |
12
제 11 항에 있어서,
상기 자질 추출부는, 상기 대상 문서 및 상기 비교 문서 내의 텍스트의 형태소를 분석하고, 상기 형태소 분석 결과를 이용하여 불용어(stopword)를 제거하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치
|
13 |
13
제 11 항에 있어서,
상기 의미 결정부는,
상기 추출된 자질들 중 대상 자질이 중앙에 위치하도록 기설정된 사이즈의 비교 영역을 설정하고, 상기 대상 자질의 후보 의미 및 상기 비교 영역 내에서 상기 대상 자질을 제외한 주변 자질의 후보 의미를 추출하며, 상기 대상 자질의 후보 의미 및 상기 주변 자질의 후보 의미의 의미 유사도를 결정하며, 상기 결정된 의미 유사도를 이용하여 상기 대상 자질의 의미를 결정하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치
|
14 |
14
제 13 항에 있어서,
상기 의미 결정부는,
상기 주변 자질 각각의 후보 의미들의 최대 유사도의 합을 산출하고, 상기 산출된 합을 상기 대상 자질의 각 후보 의미에 할당하며, 상기 할당된 값이 최대인 후보 의미를 상기 대상 자질의 의미로 결정하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치
|
15 |
15
제 11 항에 있어서,
상기 추출된 자질들을 확장하는 자질 확장부;를 더 포함하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치
|
16 |
16
제 15 항에 있어서,
상기 자질 확장부는, 어휘망 데이터베이스로부터 상기 자질들 각각의 동의어를 추출하여 상기 자질들 및 상기 자질들에 대하여 추출된 동의어를 포함하는 동의어 그룹을 형성하고, 상기 어휘망 데이터베이스로부터 상기 자질들 각각의 관련어를 추출하여 상기 추출된 관련어를 포함하는 관련어 그룹을 형성하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치
|
17 |
17
제 16 항에 있어서,
상기 자질 확장부는, 상기 관련어 그룹 형성시 상기 자질들 각각에 대하여 기설정된 관련도 깊이값 이내에 해당하는 관련어들만을 추출하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치
|
18 |
18
제 17 항에 있어서,
상기 유사도 결정부는, 상기 대상 문서의 동의어 그룹 및 상기 비교 문서의 동의어 그룹간의 오버랩 정보를 이용하여 제1 유사도 점수를 결정하고, 상기 대상 문서의 관련어 그룹 및 상기 비교 문서의 동의어 그룹간의 제2 유사도 점수를 결정하며, 상기 제1 유사도 점수 및 상기 제2 유사도 점수를 합산하여 최종 유사도 점수를 결정하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치
|
19 |
19
제 18 항에 있어서,
상기 유사도 결정부는, 하기의 수학식을 이용하여 상기 제1 유사도 점수를 산출하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치:
이때, scoreidx는 상기 제1 유사도 점수, Noverlaps는 오버랩의 전체 개수, length는 오버랩의 길이이다
|
20 |
20
제 18 항에 있어서,
상기 유사도 결정부는, 상기 대상 문서의 관련어 그룹 및 상기 비교 문서의 동의어 그룹에서 상호 일치하는 자질의 개수를 상기 제2 유사도 점수로 결정하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치
|