1 |
1
중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템에 있어서,
질의를 입력받는 입력수단을 포함하고, 질의에 대한 검색 어휘에 따라 언어 모델 기반으로 웹 문서를 검색하는 웹 질의부(100);
상기 웹 질의부를 통해 검색된 문서집합에 대해 문서 유사도를 측정하고, 최근접 이웃 클러스터링을 수행하여 중첩 클러스터들을 생성하는 중첩 클러스터부(200);
상기 중첩 클러스터부에 의해 생성된 중첩 클러스터들의 순위를 클러스터기반 언어모델(수학식6)에 의해 정하고, 클러스터 기반 질의 확률 언어모델을 추정하는 클러스터 순위 산출부(300);
(수학식 6)
(여기서, qi는 i번째 질의 어휘, m은 질의Q의 어휘 개수이고, Clu는 클러스터)
상기 순위 산출부를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 상기 질의에 대한 언어모델의 확률 P(Q|D)과 적합성 피드백 문서집합의 각 문서에서의 단어확률 P(w|D)를 곱한 것을 피드백 문서들 전체에 대해서 누적된 값이 가장 높은 것을 질의 확장 어휘로 선택하는 질의 확장부(400);
상기 질의 확장부에 의해 선택된 질의 확장 어휘를 상기 웹 질의부로 피드백 입력하는 피드백 처리부(500); 및
상기 웹 질의부, 중첩 클러스터부, 순위 산출부, 질의 확장부 및 피드백 처리부를 제어하는 제어부(700); 를 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템
|
2 |
2
제 1 항에 있어서,
상기 웹 질의부(100)는,
문서 그 자체를 언어 모델로서, 문서를 검색하고 언어모델로부터 질의를 생성 또는 샘플링할 확률에 의해서 순위화하는 문서검색 모듈(110); 및
상기 문서검색 모듈로부터 순위화되어 생성된 텍스트의 열로써, 최대확률 추정을 이용하여 문서 언어모델을 추정하는 질의 확률 검색모듈(120);을 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템
|
3 |
3
제 1 항에 있어서,
상기 중첩 클러스터부(200)는,
상기 문서의 각 어휘를 TF-IDF가중치로 계산한 후, 코사인 계수(cosine coefficient)를 이용하여 문서 유사도를 측정하는 문서 유사도 측정모듈(210); 및
상기 문서 유사도 측정모듈에 의한 각 문서에 대해서 유사도가 높은 순서대로 근접한 문서를 선택하여 그 문서에 대한 중첩 클러스터를 형성하는 클러스터 형성모듈(220);을 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템
|
4 |
4
제 1 항에 있어서,
상기 클러스터 순위 산출부(300)는,
상기 중첩 클러스터를 순위화하는 클러스터 모듈(310); 및
최대확률 추정을 이용하여 클러스터 기반 질의확률 언어모델을 추정하는 클러스터 검색모듈(320);을 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템
|
5 |
5
제 1 항에 있어서,
상기 웹 질의부(100)를 통해 상기 질의 확장부(400)에 의해 선택된 질의 확장 어휘에 대한 검색결과를 출력하는 출력부(600);를 더 포함하는 것을 특징으로 하는 중첩 클러스터를 이용한 피드백 문서의 재샘플링 시스템
|
6 |
6
재샘플링 방법에 있어서,
(a) 제어부(700)가 웹 질의부(100)를 통해 질의에 대한 검색 어휘에 따라 언어 모델 기반으로 웹 문서를 검색하는 단계;
(b) 상기 제어부가 상기 웹 질의부에 의해 검색된 문서집합에 대해서 중첩 클러스터부(200)를 통해 최근접 이웃 클러스터링을 하여 중첩 클러스터를 생성하는 단계;
(c) 상기 제어부가 상기 중첩 클러스터부에 의해 생성된 중첩 클러스터들을 클러스터 순위 산출부(300)를 통해 중첩 클러스트들의 순위를 클러스터기반 언어모델(수학식6)에 의해 산출하고 클러스터 기반 질의확률 언어모델을 추정하는 단계;
(수학식 6)
(여기서, qi는 i번째 질의 어휘, m은 질의Q의 어휘 개수이고, Clu는 클러스터)
(d) 상기 제어부가 상기 클러스터 순위 산출부에 의해 최상위로 순위화된 클러스터를 질의 확장부(400)를 통해 최상위로 순위화된 클러스터에 속하는 각 문서에 대해 초기 질의에 따른 검색 어휘의 확률P(Q|D)과 적합성 피드백 문서집합의 각 문서에서의 단어확률 P(w|D)를 곱한 것을 피드백 문서들 전체에 대해서 누적된 값이 가장 높은 것을 질의 확장 어휘로 선택하는 단계; 및
(e) 상기 제어부가 상기 질의 확장부에 의해 선택된 질의 확장 어휘를 피드백 처리부(500)를 통해 상기 웹 질의부로 피드백 입력하여 웹 문서를 검색하도록 하는 단계; 를 포함하는 것을 특징으로 하는 재샘플링 방법
|
7 |
7
제 6 항에 있어서,
상기 제 (e) 단계 이후,
(f) 상기 제어부가 상기 제 (e) 단계의 질의 확장 어휘에 대한 검색 결과를 출력하는 단계;
(g) 상기 제어부가 상기 웹 질의부의 입력수단을 통해 재검색 명령신호의 수신여부를 판단하는 단계; 및
(h) 상기 제 (g) 단계의 판단결과, 상기 제어부가 재검색 명령신호를 수신한 경우, 상기 피드백 처리부(500)로 제어신호를 보내어 상기 질의 확장부에 의해 선택된 질의 확장 어휘를 상기 웹 질의부(100)로 피드백 입력하고, 그 절차를 상기 제 (a) 단계로 이행하는 단계; 를 더 포함하는 것을 특징으로 하는 재샘플링 방법
|
8 |
8
제 6 항에 있어서,
상기 제 (a) 단계는,
(a-1) 상기 제어부(700)가 문서검색 모듈(110)을 통해 문서를 검색하고 언어모델로부터 질의를 생성 또는 샘플링할 확률에 의해서 순위화하는 단계; 및
(a-2) 상기 제어부가 질의 확률 검색모듈(120)을 통해 최대확률 추정을 이용하여 문서 언어모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 재샘플링 방법
|
9 |
9
제 6 항에 있어서,
상기 제 (b) 단계는,
(b-1) 상기 제어부(700)가 문서 유사도 측정모듈(210)을 통해 검색된 문서집합들 사이의 유사도 계산을 위해 문서의 각 어휘를 TF-IDF가중치로 계산한 후, 코사인 계수(cosine coefficient)를 이용하여 문서 유사도를 측정하는 단계; 및
(b-1) 상기 제어부가 클러스터 형성모듈(220)을 통해 각 문서에 대해서 유사도가 높은 순서대로 근접한 문서를 선택하여 그 문서에 대한 중첩 클러스터를 생성하는 단계;를 포함하는 것을 특징으로 하는 재샘플링 방법
|
10 |
10
제 6 항에 있어서,
상기 제 (c) 단계는,
(c-1) 상기 제어부(700)가 클러스터 모듈(310)을 통해 중첩 클러스터의 멤버로 속한 모든 문서를 연결하는 단계;
(c-2) 상기 제어부가 상기 클러스터 모듈(310)을 통해 클러스터의 순위를 산출하는 단계; 및
(c-3) 상기 제어부가 클러스터 검색 모듈(320)을 통해 최대확률 추정을 이용하여 클러스터 기반 질의확률 언어모델을 추정하는 단계;를 포함하는 것을 특징으로 하는 재샘플링 방법
|