1 |
1
문서간 유사도 측정 장치에서 질의 문서와 하나 이상의 대상 문서간의 유사도를 계산하는 방법으로서,
상기 문서간 유사도 측정 장치에서, 상기 질의 문서 및 상기 대상 문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 단계;
상기 문서간 유사도 측정 장치에서, 상기 질의 문서 및 상기 대상 문서에서 추출된 키워드로부터 상기 질의 문서 및 상기 대상 문서의 주제어를 선정하는 단계;
상기 문서간 유사도 측정 장치에서, 상기 질의 문서 및 상기 대상 문서의 범위를 계산하는 단계; 및
상기 문서간 유사도 측정 장치에서, 상기 선정된 주제어 및 범위를 이용하여 상기 질의 문서와 상기 대상 문서의 유사도를 계산하는 단계를 포함하며,
상기 질의 문서 또는 상기 대상 문서의 범위는, 상기 질의 문서 또는 상기 대상 문서의 주제어와 상기 질의 문서 또는 상기 대상 문서로부터 추출된 키워드 간의 온톨로지 isA 계층구조상의 평균거리, 중간거리, 최근거리 또는 최장거리 중 어느 하나인, 문서간 유사도 측정 방법
|
2 |
2
제1항에 있어서,
상기 키워드 선정 단계는, 상기 질의 문서 또는 상기 대상 문서로부터 추출된 키워드 중 빈도수가 가장 높은 키워드를 상기 질의 문서 또는 상기 대상 문서의 주제어로 선정하는, 문서간 유사도 측정 방법
|
3 |
3
제1항에 있어서,
상기 주제어 선정 단계는, 상기 질의 문서 또는 상기 대상 문서로부터 추출된 키워드 별로 상기 빈도수 추출 단계에서 추출된 다른 키워드들 간의 온톨로지 isA 계층구조상의 평균거리를 계산하고, 계산된 상기 평균거리가 가장 짧은 키워드를 상기 질의 문서 또는 상기 대상 문서의 주제어로 선정하는, 문서간 유사도 측정 방법
|
4 |
4
제1항에 있어서,
상기 주제어 선정 단계는, 상기 질의 문서 또는 상기 대상 문서의 제목으로부터 추출된 키워드 중 상기 질의 문서 또는 상기 대상 문서 내에서의 빈도수가 가장 높은 키워드를 상기 질의 문서 또는 상기 대상 문서의 주제어로 선정하는, 문서간 유사도 측정 방법
|
5 |
5
제1항에 있어서,
상기 주제어 선정 단계는, 상기 질의 문서 또는 상기 대상 문서의 제목으로부터 추출된 키워드 별로 상기 빈도수 추출 단계에서 추출된 다른 키워드들 간의 온톨로지 isA 계층구조상의 평균 거리를 계산하고, 계산된 상기 평균 거리가 가장 짧은 키워드를 상기 질의 문서 또는 상기 대상 문서의 주제어로 선정하는, 문서간 유사도 측정 방법
|
6 |
6
삭제
|
7 |
7
제1항에 있어서,
상기 질의 문서와 상기 대상 문서간의 유사도는, 상기 질의 문서의 주제어 및 상기 대상 문서의 주제어 간의 온톨로지 isA 계층구조상에서의 거리에 따라 정해지는, 문서간 유사도 측정 방법
|
8 |
8
제1항에 있어서,
상기 질의 문서와 상기 대상 문서간의 유사도는, 상기 질의 문서로부터 추출된 각 키워드 및 상기 대상 문서로부터 추출된 각 키워드 간의 온톨로지 isA 계층구조상에서의 평균거리에 따라 정해지는, 문서간 유사도 측정 방법
|
9 |
9
제1항에 있어서,
상기 질의 문서와 상기 대상 문서간의 유사도는, 상기 질의 문서의 주제어 및 상기 대상 문서의 주제어의 온톨로지 isA 계층구조상에서의 정규화된 거리와 상기 질의 문서의 범위 및 상기 대상 문서의 범위의 정규화된 비율에 따라 정해지되, 상기 유사도는 상기 정규화된 거리가 0에 가까울수록 높아지며, 상기 정규화된 거리가 동일한 경우에는 상기 정규화된 비율이 0에 가까울수록 상기 유사도가 높아지도록 구성되는, 문서간 유사도 측정 방법
|
10 |
10
제9항에 있어서,
상기 질의 문서의 주제어 및 상기 대상 문서의 주제어의 온톨로지 isA 계층구조상에서의 정규화된 거리는, 다음의 수학식
(이때, Nk는 질의 문서와 k 번째 대상 문서와의 정규화된 거리, CQ는 질의 문서의 주제어, CDk는 k 번째 대상 문서의 주제어, d(A, B)는 온톨로지 isA 계층구조에서 노드 A와 B 사이의 거리)
에 의하여 정해지는, 문서간 유사도 측정 방법
|
11 |
11
제9항에 있어서,
상기 질의 문서의 범위 및 상기 대상 문서의 범위의 정규화된 비율은, 다음의 수학식
(이때, Rk는 질의 문서의 범위와 k 번째 대상 문서의 범위의 정규화된 비율, WQ는 질의 문서의 범위, WDk는 k 번째 대상 문서의 범위, min(WQ, WDk)는 WQ와 WDk 중 작은 값, max(WQ, WDk)는 WQ와 WDk 중 큰 값)
에 의하여 정해지는, 문서간 유사도 측정 방법
|
12 |
12
제1항에 있어서,
상기 질의 문서와 상기 대상 문서간의 유사도는, 다음의 수학식
(이때, Ek는 질의 문서와 k 번째 대상 문서와의 유사도, Tk는 질의 문서의 주제어와 k 번째 대상 문서의 주제어와의 온톨로지 isA 계층구조에서의 정규화된 거리, Ak는 질의 문서의 범위와 k 번째 대상 문서의 범위의 정규화된 비율, w1, w2는 조정계수로서 w1 + w2 = 1)
에 의하여 정해지는, 문서간 유사도 측정 방법
|
13 |
13
제12항에 있어서,
상기 질의 문서의 주제어와 k 번째 대상 문서의 주제어와의 온톨로지 isA 계층구조에서의 정규화된 거리는, 다음의 수학식
(이때, Tk는 질의 문서와 k 번째 대상 문서와의 정규화된 거리, CQ는 질의 문서의 주제어, CDk는 k 번째 대상 문서의 주제어, d(A, B)는 온톨로지 isA 계층구조에서 노드 A와 B 사이의 거리)
에 의하여 정해지는, 문서간 유사도 측정 방법
|
14 |
14
제12항에 있어서,
상기 질의 문서의 범위와 k 번째 대상 문서의 범위의 정규화된 비율은,
(이때, Ak는 질의 문서의 범위와 k 번째 대상 문서의 범위의 정규화된 비율, WQ는 질의 문서의 범위, WDk는 k 번째 대상 문서의 범위, min(WQ, WDk)는 WQ와 WDk 중 작은 값, max(WQ, WDk)는 WQ와 WDk 중 큰 값)
에 의하여 정해지는, 문서간 유사도 측정 방법
|
15 |
15
제1항에 있어서,
상기 질의 문서와 상기 대상 문서간의 유사도는, 다음의 수학식
(이때, Sk는 질의 문서와 k 번째 대상 문서와의 유사도, Tk는 질의 문서의 주제어와 k 번째 대상 문서의 주제어와의 온톨로지 isA 계층구조에서의 정규화된 거리, Ak는 질의 문서의 범위와 k 번째 대상 문서의 범위의 정규화된 비율)
에 의하여 정해지는, 문서간 유사도 측정 방법
|
16 |
16
제15항에 있어서,
상기 질의 문서의 주제어와 k 번째 대상 문서의 주제어와의 온톨로지 isA 계층구조에서의 정규화된 거리는, 다음의 수학식
(이때, Tk는 질의 문서와 k 번째 대상 문서와의 정규화된 거리, CQ는 질의 문서의 주제어, CDk는 k 번째 대상 문서의 주제어, d(A, B)는 온톨로지 isA 계층구조에서 노드 A와 B 사이의 거리, w3는 조정계수로서 0003c#w3≤1)
에 의하여 정해지는, 문서간 유사도 측정 방법
|
17 |
17
제15항에 있어서,
상기 질의 문서의 범위와 k 번째 대상 문서의 범위의 정규화된 비율은,
(이때, Ak는 질의 문서의 범위와 k 번째 대상 문서의 범위의 정규화된 비율, WQ는 질의 문서의 범위, WDk는 대상 문서의 범위, min(WQ, WDk)는 WQ와 WDk 중 작은 값, max(WQ, WDk)는 WQ와 WDk 중 큰 값, w4는 조정계수로서 0003c#w4≤1)
에 의하여 정해지는, 문서간 유사도 측정 방법
|
18 |
18
제1항에 있어서,
상기 유사도 계산 단계의 수행 이후,
상기 문서간 유사도 측정 장치에서, 상기 계산된 유사도가 높은 순서로 소정 개수의 대상 문서를 상기 질의 문서와 유사한 문서로 선정하는 단계;
를 더 포함하는, 문서간 유사도 측정 방법
|
19 |
19
제1항 내지 제5항 또는 제7항 내지 제18항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
|
20 |
20
키워드들간의 온톨로지 isA 계층구조가 저장된 데이터베이스;
질의 문서 및 대상 문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 키워드 추출부;
상기 질의 문서 및 상기 대상 문서에서 추출된 키워드로부터 상기 질의 문서 및 상기 대상 문서의 주제어를 선정하는 주제어 선정부;
상기 질의 문서 및 상기 대상 문서의 범위를 계산하는 문서 범위 계산부; 및
상기 주제어 선정부에서 선정된 상기 질의 문서 및 상기 대상 문서의 주제어, 상기 문서 범위 계산부에서 계산된 상기 질의 문서 및 상기 대상 문서의 범위를 이용하여 상기 온톨로지 isA 계층구조상에서의 상기 질의 문서와 상기 대상 문서의 유사도를 계산하는 유사도 계산부를 포함하며,
상기 질의 문서 또는 상기 대상 문서의 범위는, 상기 질의 문서 또는 상기 대상 문서의 주제어와 상기 질의 문서 또는 상기 대상 문서로부터 추출된 키워드 간의 온톨로지 isA 계층구조상의 평균거리, 중간거리, 최근거리 또는 최장거리 중 어느 하나인, 문서간 유사도 측정 장치
|
21 |
21
제20항에 있어서,
상기 유사도 계산부는, 상기 계산된 유사도가 높은 순서로 소정 개수의 대상 문서를 상기 질의 문서와 유사한 문서로 선정하는, 문서간 유사도 측정 장치
|
22 |
22
제20항에 있어서,
상기 대상 문서의 주제어 및 범위 및 상기 주제어 및 범위로부터 구축된 인덱스가 저장되는 문서 주제어 및 범위 데이터베이스를 더 포함하는, 문서간 유사도 측정 장치
|