1 |
1
온톨로지 정보를 이용하여 문서 주제어를 생성하는 장치의 문서 주제어 생성 방법에 있어서,문서에 포함된 단어를 이용하여 상기 문서에 대하여 온톨로지에 포함된 온톨로지 용어들을 설정하는 단계;상기 문서에 포함된 적어도 하나의 단어로 구성되는 복수의 기본 후보 주제어들을 추출하는 단계;상기 온톨로지 용어들과 상기 기본 후보 주제어들 간의 연관관계를 이용하여 상기 기본 후보 주제어들을 확장하는 단계; 및상기 확장된 후보 주제어들을 기계학습 알고리즘을 이용하여 순위를 설정하고, 상기 확장된 후보 주제어들 중 기 설정된 순위 이상에 해당하는 적어도 하나의 최종 주제어를 선택하는 단계를 포함하는 온톨로지 정보를 이용한 문서 주제어 생성 방법
|
2 |
2
제1항에 있어서, 상기 후보 주제어를 확장하는 단계는,상기 기본 후보 주제어들과 기 설정된 저자 주제어들 간의 연관관계를 이용하여 연관 후보 주제어들을 설정하고, 상기 온톨로지 용어들과 상기 연관 후보 주제어들 간의 연관관계를 이용하여 상기 기본 후보 주제어들을 확장하는 온톨로지 정보를 이용한 문서 주제어 생성 방법
|
3 |
3
제1항에 있어서, 상기 기계학습 알고리즘은,상기 문서에 설정된 상기 온톨로지 용어들의 신뢰도 평균값과, 상기 문서에 설정된 상기 온톨로지 용어들과 상기 기본 후보 주제어들 간의 향상도 평균값을 이용하여 상기 확장된 후보 주제어들의 순위를 설정하는 온톨로지 정보를 이용한 문서 주제어 생성 방법
|
4 |
4
제1항에 있어서,상기 기본 후보 주제어들 각각을 구성하는 단어들 간의 동시 출현 빈도를 이용하여, 상기 확장된 후보 주제어의 순위를 재설정하는 단계를 더 포함하는 온톨로지 정보를 이용한 문서 주제어 생성 방법
|
5 |
5
제4항에 있어서,상기 확장된 후보 주제어의 순위를 재설정하는데 이용되는 순위 재배열 지수(RankScore)를 다음의 수학식을 이용하여 계산하는 온톨로지 정보를 이용한 문서 주제어 생성 방법:여기서, C는 기본 후보 주제어를, supp_k(C)는 상기 문서의 저자로부터 설정된 저자 주제어에 기본 후보 주제어가 포함되는 문서의 비율을, nw는 상기 기본 후보 주제어를 구성하는 단어의 개수를, supp_k(Wi)는 상기 저자 주제어에서 상기 기본 후보 주제어를 구성하는 i 번째 단어(Wi)가 포함되는 문서의 비율을, rc는 상기 기계학습 알고리즘에 의해 설정된 순위를 나타낸다
|
6 |
6
문서에 포함된 단어를 이용하여 상기 문서에 온톨로지에 포함된 온톨로지 용어들을 설정하는 온톨로지 설정부;상기 문서에 포함된 적어도 하나의 단어로 구성되는 복수의 기본 후보 주제어들을 추출하는 후보 주제어 추출부;상기 온톨로지 용어들과 상기 기본 후보 주제어들 간의 연관관계를 이용하여 상기 기본 후보 주제어들을 확장하는 후보 주제어 확장부; 및상기 확장된 후보 주제어들을 기계학습 알고리즘을 이용하여 순위를 설정하고, 기 설정된 순위 이상에 해당하는 적어도 하나의 최종 주제어를 선택하는 최종 주제어 선택부를 포함하는 온톨로지 정보를 이용한 문서 주제어 생성 장치
|
7 |
7
제6항에 있어서, 상기 후보 주제어 확장부는,상기 기본 후보 주제어들과 기 설정된 저자 주제어들 간의 연관관계를 이용하여 연관 후보 주제어를 설정하고, 상기 온톨로지 용어들과 상기 연관 후보 주제어 간의 연관관계를 이용하여 상기 기본 후보 주제어들을 확장하는 온톨로지 정보를 이용한 문서 주제어 생성 장치
|
8 |
8
제6항에 있어서, 상기 기계학습 알고리즘은,상기 문서에 설정된 상기 온톨로지 용어들의 신뢰도 평균값과, 상기 문서에 설정된 상기 온톨로지 용어들과 상기 기본 후보 주제어들 간의 향상도 평균값을 이용하여 상기 확장된 후보 주제어들의 순위를 설정하는 온톨로지 정보를 이용한 문서 주제어 생성 장치
|
9 |
9
제6항에 있어서,상기 기본 후보 주제어들 각각을 구성하는 단어들 간의 동시 출현 빈도를 이용하여, 상기 확장된 후보 주제어들의 순위를 재설정하는 순위 재설정부를 더 포함하는 온톨로지 정보를 이용한 문서 주제어 생성 장치
|
10 |
10
제9항에 있어서,상기 확장된 후보 주제어의 순위를 재설정하는데 이용되는 순위 재배열 지수(RankScore)를 다음의 수학식을 이용하여 계산하는 온톨로지 정보를 이용한 문서 주제어 생성 장치:여기서, C는 기본 후보 주제어를, supp_k(C)는 상기 문서의 저자로부터 설정된 저자 주제어에 기본 후보 주제어가 포함되는 문서의 비율을, nw는 상기 기본 후보 주제어를 구성하는 단어의 개수를, supp_k(Wi)는 상기 저자 주제어에서 상기 기본 후보 주제어를 구성하는 i 번째 단어(Wi)가 포함되는 문서의 비율을, rc는 상기 기계학습 알고리즘에 의해 설정된 순위를 나타낸다
|