1 |
1
온라인 또는 사용자단말에 저장된 문서 집합에서 후보 토픽 단어(Topic Word)들을 추출하는 제 1 단계;상기 추출된 각 토픽 단어(Topic Word)들에 대응되는 문서들에 대한 그룹핑(Grouping)을 통해 문서들의 그룹을 적어도 하나 이상 생성하는 제 2 단계;상기 각 토픽 단어(Topic Word)들을 쿼리(Query)로 미리 설정된 온라인 검색 집합 대상에서 연관 문서를 서치하여 서치 결과를 얻은 뒤 클러스터링(Clustering)을 수행하는 제 3 단계;상기 각 토픽 단어(Topic Word)에 따라 생성된 클러스터들은 각각 해당 토픽에 대한 서브토픽으로 가정 한 뒤, 상기 각 토픽 단어(Topic Word)를 기초로 상기 그룹핑된 문서를 구성하는 각 문서, 그리고 상기 각 토픽 단어(Topic Word)의 서브 토픽에 해당하는 클러스터들을 구성하는 각 클러스터 간의 유사도를 연산하는 제 4 단계;상기 각 토픽 단어에 대해 상기 연산된 상기 문서 집합에 속하는 각 문서와 클러스터 간의 유사도를 이용해 상기 문서 집합에 포함된 각 문서와 가장 유사한 클러스터를 매칭하는 제 5 단계; 및상기 매칭된 클러스터 수, 그리고 상기 토픽 단어에 대해 상기 문서 집합에 속하는 각 문서와 클러스터와의 유사도의 정량적 수치를 이용해 리치니스(Richness) 점수를 산출하는 제 6 단계; 및상기 각 토픽 단어의 리치니스(Richness) 점수를 산출하여 리치니스 점수를 정렬하여 제공한 뒤, 상위로부터 미리 설정된 개수(NO)를 선택하여 최종 토픽 단어로 추출하는 제 7 단계; 를 포함하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
2 |
2
제 1항에 있어서, 상기 제 1 단계는,상기 문서별 용어 추출(Term Extraction) 알고리즘을 적용하여 상기 문서 집합에서 상기 후보 토픽 단어들을 추출하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
3 |
3
제 1항에 있어서, 상기 제 3 단계의 상기 미리 설정된 온라인 검색 집합 대상은,웹(Web) 및 뉴스(News), 블로고스피어(Blogosphere) 중 적어도 하나 이상 포함하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
4 |
4
제 1항에 있어서, 상기 제 3 단계는,상기 서치 결과를 얻은 뒤, 클러스터링 알고리즘(Clustering Algorithm)을 적용하여 클러스터링(Clustering)을 수행하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
5 |
5
제 1항에 있어서, 상기 제 3 단계의 상기 클러스터링은, 같은 속성을 갖는 연관 문서들을 여러 개 모아서 하나의 대상으로 한 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
6 |
6
제 1항에 있어서, 상기 제 4 단계는,상기 유사도인 (Rel(d, Ci))을 에 의해 연산하며, 상기 d는 하나의 토픽 단어(Topic Word)들에 대응되는 문서들에 대한 그룹핑(Grouping)을 통해 생성된 문서들의 그룹인 C 상에서 하나의 문서를 나타내며, 상기 Ci는 해당 하나의 토픽 단어를 기초로 서칭 및 클러스터링 되어 생성된 i(i는 1 이상의 자연수)번째 클러스터를 의미하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
7 |
7
제 6항에 있어서, 상기 제 5 단계는,상기 서브토픽에 대한 커버리지(Coverage)를 알아보기 위해 상기 제 4 단계에서 연산된 각 문서와 클러스터 간의 유사도를 이용해 가장 유사한 클러스터에 각 토픽 단어로 설정된 각 문서를 매칭시키는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
8 |
8
제 7에 있어서, 상기 제 5 단계는,클러스터 Ci에 대해 그룹핑된 문서들 중 최종적으로 문서 d는 에 의해 매칭되며, 그룹 C에서 문서에 매칭된 클러스터를 의미하는 C(d)는 상기 에 의해 연산된 클러스터 중 유사도가 최대값을 갖는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
9 |
9
제 8항에 있어서, 상기 제 6 단계는, 그룹 C에서 문서에 매칭된 클러스터를 나타내는 "C(d)"에 대한 매칭된 문서 d와의 유사도를 나타내는 Rel(d, C(d))의 합을 나타내는 유사도 점수(Scorerel(w))를 에 의해 연산하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
10 |
10
제 9항에 있어서, 상기 제 6 단계는, 상기 매칭된 클러스터 수를 의미하는 Scorecluster(w)는 에 의해 연산하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
11 |
11
제 10항에 있어서, 상기 제 6 단계는,상기 리치니스(Richness) 점수를 나타내는 Scorerich(W)는에 의해 상기 유사도 점수(Scorerel(w))와 상기 매칭된 클러스터 수(Scorecluster(w))의 멀티플라이에 의해 연산되는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|
12 |
12
제 10항에 있어서, 상기 제 6 단계는,상기 리치니스(Richness) 점수를 나타내는 Scorerich(W)는상기 유사도 점수(Scorerel(w))와 상기 매칭된 클러스터 수(Scorecluster(w))의 합에 의해 연산되는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
|