1 |
1
토픽을 추출하는 서버에 있어서,분류 정보에 따라서 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 텍스트 전처리부;상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 핵심어 추출부;상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 시드 선정부;상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 출현한 핵심어를 하나의 군집으로 구성하는 초기 군집화부; 및상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 군집 병합부를 포함하는 것을 특징으로 하는 토픽 추출 서버
|
2 |
2
제 1 항에 있어서,상기 핵심어는 상기 분류별 문서 집합 중 해당 문서 집합에서 출현한 빈도가 다른 문서 집합들에서 출현한 빈도보다 높은 것을 특징으로 하는 토픽 추출 서버
|
3 |
3
제 1 항에 있어서,상기 시드 선정부는,상기 분류별 문서 집합의 문서에서 단어의 출현 빈도와 상기 단어가 출현한 문서 빈도에 근거하여 상기 시드를 선정하는 것을 특징으로 하는 토픽 추출 서버
|
4 |
4
제 1 항에 있어서,상기 초기 군집화부는,상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고,상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되,상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 하는 토픽 추출 서버
|
5 |
5
제 1 항에 있어서,상기 군집 병합부는,유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 하는 토픽 추출 서버
|
6 |
6
제 1 항에 있어서,상기 추출된 토픽 집합의 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 ASP(Average Set Precision) 계산부;상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 ASR(Average Set Recall) 계산부; 및상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 FAS-measure을 계산하는 적합성 평가부를 더 포함하는 것을 특징으로 하는 토픽 추출 서버
|
7 |
7
서버가 토픽을 추출하는 방법에 있어서,(a) 분류 정보에 따라 구성된 분류별 문서 집합으로부터 명사를 추출한 후 불용어를 제거하는 단계;(b) 상기 불용어가 제거된 명사에 대해 가중치를 계산하여 상기 분류별 문서 집합을 대표하는 단어인 핵심어를 추출하는 단계;(c) 상기 추출된 핵심어에 대해 가중치를 계산하여 상기 핵심어들을 관련 단어들로 군집화한 군집의 중심 단어인 시드를 선정하는 단계;(d) 상기 선정된 시드를 중심으로 상기 시드와 동일한 문장에서 출현한 핵심어를 하나의 군집으로 구성하는 단계; 및(e) 상기 구성된 군집들 중 유사한 군집들을 병합하여 분류별 토픽 집합을 추출하는 단계를 포함하는 것을 특징으로 하는 토픽 추출 방법
|
8 |
8
제 7 항에 있어서,상기 (d) 단계는,상기 시드와 핵심어가 상기 분류별 문서 집합에서 동시 출현한 문장의 수를 반영하여 상기 시드와 핵심어의 연관성 값을 계산하고,상기 분류별 문서 집합의 모든 시드에 대해 계산된 연관성 값의 평균 및 표준편차를 반영하여 상기 시드와 핵심어가 하나의 군집으로 구성될 수 있는지 여부를 결정하되,상기 평균 및 표준편차의 임계치(α)를 더 반영하는 것을 특징으로 하는 토픽 추출 방법
|
9 |
9
제 7 항에 있어서,상기 (e) 단계는,유사한 두 군집 중 크기가 작은 군집의 단어 수에 대한 두 군집에 공통으로 속한 단어의 수 비율이 유사 군집 병합 임계치(β)보다 큰 조건을 만족하는 경우, 상기 유사한 두 군집을 토픽으로 병합하는 것을 특징으로 하는 토픽 추출 방법
|
10 |
10
제 7 항에 있어서,(f) 상기 추출된 토픽 집합의 모든 토픽에 대하여 동일 분류의 정답 토픽 집합과 유사성을 계산하고 평균을 취하여, 상기 추출된 토픽이 상기 정답 토픽과 일치하는 정도인 ASP(Average Set Precision)를 계산하는 단계;(g) 상기 모든 정답 토픽에 대하여 동일 분류의 추출된 토픽과 유사성을 계산하고 평균을 취하여, 상기 정답 토픽이 상기 추출된 토픽 집합에 재현된 정도인 ASR(Average Set Recall)을 계산하는 단계; 및(h) 상기 ASP와 ASR에 근거하여 상기 추출된 토픽의 적합성인 FAS-measure을 계산하는 단계를 포함하는 것을 특징으로 하는 토픽 추출 방법
|