1 |
1
문서 주제 및 관련어 측정 장치에서, 문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 단계;
상기 문서 주제 및 관련어 측정 장치에서, 상기 추출된 키워드 간의 온톨로지 isA 계층구조 내에서의 경로상에 존재하는 온톨로지 용어 중 상기 추출된 키워드에 해당하지 않는 용어들을 추출하는 단계;
상기 문서 주제 및 관련어 측정 장치에서, 상기 문서로부터 추출된 키워드 및 상기 경로에서 추출된 용어들을 포함하는 확장된 키워드 집합을 생성하는 단계;
상기 문서 주제 및 관련어 측정 장치에서, 상기 확장된 키워드 집합에 포함되는 확장된 키워드 간의 온톨로지 isA 계층구조 내에서의 거리를 각 셀의 값으로 하는 매트릭스 또는 삼각 행렬을 생성하는 단계;
상기 문서 주제 및 관련어 측정 장치에서, 상기 매트릭스 또는 삼각 행렬을 이용하여 상기 각각의 확장된 키워드 별로 상기 확장된 키워드 집합에 속한 다른 확장된 키워드와의 상기 온톨로지 isA 계층구조상의 평균 거리를 계산하는 단계; 및
상기 문서 주제 및 관련어 측정 장치에서, 상기 계산된 평균 거리가 짧은 순서로 하나 이상의 확장된 키워드를 상기 문서의 주제어로 선정하는 단계;
를 포함하는 문서 주제 및 관련어 측정 방법
|
2 |
2
제1항에 있어서,
상기 온톨로지 isA 계층구조에서의 확장된 키워드 간의 거리는, 상기 온톨로지 isA 계층구조에서 상기 두 확장된 키워드를 연결하는 간선(edge)의 개수 또는 상기 두 확장된 키워드를 연결하는 경로상에 존재하는 각 간선의 거리의 합인, 문서 주제 및 관련어 측정 방법
|
3 |
3
제1항에 있어서,
상기 매트릭스 또는 상기 삼각 행렬의 각 행 및 각 열은 상기 확장된 키워드집합에 속한 확장된 키워드이며, 상기 매트릭스 또는 상기 삼각 행렬의 각 셀은 해당 행 및 열에 해당하는 확장된 키워드 간의 온톨로지 isA 계층구조상의 거리인, 문서 주제 및 관련어 측정 방법
|
4 |
4
제3항에 있어서,
상기 평균 거리 계산 단계에서 상기 매트릭스를 이용하여 각각의 확장된 키워드 별 평균거리를 계산할 경우, 다음의 수학식
(이때, n은 확장된 키워드의 개수, L은 상기 확장된 키워드의 일련번호로서 1≤L≤n, M(i, j)는 매트릭스의 i행 j열, F(i)는 i번째 키워드의 빈도수)
을 이용하여 평균 거리를 계산하는, 문서 주제 및 관련어 측정 방법
|
5 |
5
제4항에 있어서,
상기 평균 거리 계산에서 각각의 확장된 키워드의 빈도수를 고려하지 않을 경우, 상기 수학식에서 F(i) 값은 모두 1로 설정되거나, 또는 상기 문서로부터 추출된 키워드의 F(i) 값은 1로 설정되고 상기 온톨로지 isA 계층구조로부터 추출된 용어의 F(i) 값은 0으로 설정되는, 문서 주제 및 관련어 측정 방법
|
6 |
6
제3항에 있어서,
상기 평균 거리 계산 단계에서 상기 삼각 행렬을 이용하여 각각의 확장된 키워드 별 평균거리를 계산할 경우, 다음의 수학식
(이때, n은 확장된 키워드의 개수, L은 상기 키워드의 일련번호로서 1≤L≤n, T(i, j)는 삼각 행렬의 i행 j열, F(i)는 i번째 키워드의 빈도수)
을 이용하여 평균 거리를 계산하는, 문서 주제 및 관련어 측정 방법
|
7 |
7
제6항에 있어서,
상기 평균 거리 계산에서 각각의 확장된 키워드의 빈도수를 고려하지 않을 경우, 상기 수학식에서 F(i) 값은 모두 1로 설정되거나, 또는 상기 문서로부터 추출된 키워드의 F(i) 값은 1로 설정되고 상기 온톨로지 isA 계층구조로부터 추출된 용어의 F(i) 값은 0으로 설정되는, 문서 주제 및 관련어 측정 방법
|
8 |
8
제1항에 있어서,
상기 주제어 선정 단계의 수행 이후, 상기 주제어를 이용하여 상기 확장된 키워드의 응집도를 계산하는 단계를 더 포함하는, 문서 주제 및 관련어 측정 방법
|
9 |
9
제8항에 있어서,
상기 응집도는, 다음의 수학식
에 의하여 계산되는, 문서 주제 및 관련어 측정 방법
|
10 |
10
제1항에 있어서,
상기 주제어 선정 단계의 수행 이후, 상기 주제어를 이용하여 상기 확장된 키워드의 편차도를 계산하는 단계를 더 포함하는, 문서 주제 및 관련어 측정 방법
|
11 |
11
제10항에 있어서,
상기 편차도는, 다음의 수학식
에 의하여 계산되는, 문서 주제 및 관련어 측정 방법
|
12 |
12
제1항에 있어서,
상기 주제어 선정 단계의 수행 이후,
상기 온톨로지 isA 계층구조상에서 상기 선정된 주제어와의 거리가 일정 값 이하인 용어 중 상기 문서로부터 추출된 키워드에 포함되지 않는 용어를 상기 문서의 관련어로 선정하는 단계를 더 포함하는, 문서 주제 및 관련어 측정 방법
|
13 |
13
제1항에 있어서,
상기 주제어 선정 단계의 수행 이후, 상기 주제어를 이용하여 상기 문서의 심화도를 계산하는 단계를 더 포함하는, 문서 주제 및 관련어 측정 방법
|
14 |
14
제13항에 있어서,
상기 심화도는, 다음의 수학식
에 의하여 계산되는, 문서 주제 및 관련어 측정 방법
|
15 |
15
제1항 내지 제14항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
|
16 |
16
키워드들간의 온톨로지 isA 계층구조가 저장된 데이터베이스;
문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 키워드 추출부;
상기 키워드 추출부에서 추출된 키워드 간의 온톨로지 isA 계층구조 내에서의 경로상에 존재하는 온톨로지 용어 중 상기 추출된 키워드에 해당하지 않는 용어들을 추출하고, 상기 문서로부터 추출된 키워드 및 상기 경로에서 추출된 용어들을 포함하는 확장된 키워드 집합을 생성하는 키워드 확장부;
상기 확장된 키워드 집합에 포함되는 확장된 키워드 간의 온톨로지 isA 계층구조 내에서의 거리를 각 셀의 값으로 하는 매트릭스 또는 삼각 행렬을 생성하고, 상기 매트릭스 또는 삼각 행렬을 이용하여 상기 각각의 확장된 키워드 별로 상기 확장된 키워드 집합에 속한 다른 확장된 키워드와의 상기 온톨로지 isA 계층구조상의 평균 거리를 계산하는 평균 거리 계산부;
상기 계산된 평균 거리가 짧은 순서로 하나 이상의 확장된 키워드를 상기 문서의 주제어로 선정하는 주제어 추출부; 및
상기 온톨로지 isA 계층구조상에서 상기 선정된 주제어와의 거리가 일정 값 이하인 용어 중 상기 문서로부터 추출된 키워드에 포함되지 않는 용어를 상기 문서의 관련어로 선정하는 관련어 추출부;
를 포함하는 문서 주제 및 관련어 측정 장치
|