1 |
1
단일 카테고리 문서의 다중 카테고리 자동 확장을 위한 컴퓨터 구현 방법으로서,수집된 단일 카테고리 문서들의 모집단을 대상으로 문서 각각에 대한 토픽 분석을 수행하여, 문서 내에서 추출한 각 토픽 별로 문서-토픽 대응도(D/T Score)를 계산하고, 상기 계산된 문서-토픽 대응도를 행렬 값으로 갖는 문서-토픽 대응 행렬을 생성하는 단계;각 문서에 기부여된 단일 카테고리에 기준하여 동일 카테고리를 갖는 문서들에 관한 상기 문서-토픽 대응도를 각 토픽 별로 통합하여 산출되는 토픽-카테고리 대응도(T/C Score)를 계산하고, 계산된 토픽-카테고리 대응도를 행렬 값으로 갖는 토픽-카테고리 대응 행렬을 생성하는 단계;동일 토픽 각각에 대한 상기 문서-토픽 대응도와 상기 토픽-카테고리 대응도 간의 가중합에 기반하여 상기 기부여된 카테고리 별로 문서-카테고리 대응도(D/C Score)를 계산하고, 상기 문서-카테고리 대응도를 행렬 값으로 갖는 문서-카테고리 대응 행렬을 생성하는 단계; 및상기 문서-카테고리 대응 행렬에 기반하여 각 문서에 관하여 신규 카테고리 정보를 획득하여 단일 카테고리의 문서를 다중 카테고리로 확장하는 단계를 포함하는 다중 카테고리 자동 확장 방법
|
2 |
2
제1항에 있어서,상기 문서-토픽 대응도(D/T Score)는, 각 토픽 별로 각 문서에 대해서 하기 수학식 1에 의해 계산되는, 다중 카테고리 자동 확장 방법
|
3 |
3
제2항에 있어서,상기 문서-토픽 대응 행렬을 생성하는 단계는,상기 계산된 문서-토픽 대응도를 행렬 값으로 갖는 문서-토픽 대응 행렬을 1차 생성한 후, 1차 생성된 문서-토픽 대응 행렬에서 각 문서의 토픽 별 기여 여부를 사전 지정된 임계치를 이용하여 판단하고, 상기 임계치 이상의 값을 갖는 행렬 값만을 남겨두고 상기 임계치 미만의 값을 갖는 행렬 값은 0으로 대체함으로써 문서-토픽 대응 행렬을 재생성하는 것인, 다중 카테고리 자동 확장 방법
|
4 |
4
제3항에 있어서,각 토픽 별로 통합하여 산출되는 토픽-카테고리 대응도(T/C Score)는, 하기 수학식 2에 의해 계산되는, 다중 카테고리 자동 확장 방법
|
5 |
5
제4항에 있어서,상기 문서-카테고리 대응도(D/C Score)는,상기 문서-토픽 대응 행렬에서 동일 토픽에 관한 문서 별 상기 문서-토픽 대응도(D/T Score) 값과 상기 토픽-카테고리 대응 행렬에서 카테고리 별 해당 토픽의 상기 토픽-카테고리 대응도(T/C Score) 값을 곱한 후, 상기 곱한 값을 문서 별로 합산 처리하는 방식의 가중합을 수행하여 계산되는, 다중 카테고리 자동 확장 방법
|
6 |
6
단일 카테고리 문서의 다중 카테고리 확장 장치로서,수집된 단일 카테고리 문서들의 모집단을 대상으로 문서 각각에 대한 토픽 분석을 수행하여, 문서 내에서 추출한 각 토픽 별로 문서-토픽 대응도(D/T Score)를 계산하고, 상기 계산된 문서-토픽 대응도를 행렬 값으로 갖는 문서-토픽 대응 행렬을 생성하는 토픽 분석부;각 문서에 기부여된 단일 카테고리에 기준하여 동일 카테고리를 갖는 문서들에 관한 상기 문서-토픽 대응도를 각 토픽 별로 통합하여 산출되는 토픽-카테고리 대응도(T/C Score)를 계산하고, 계산된 토픽-카테고리 대응도를 행렬 값으로 갖는 토픽-카테고리 대응 행렬을 생성하는 토픽-카테고리 대응 분석부;동일 토픽 각각에 대한 상기 문서-토픽 대응도와 상기 토픽-카테고리 대응도 간의 가중합에 기반하여 상기 기부여된 카테고리 별로 문서-카테고리 대응도(D/C Score)를 계산하고, 상기 문서-카테고리 대응도를 행렬 값으로 갖는 문서-카테고리 대응 행렬을 생성하며, 상기 문서-카테고리 대응 행렬에 기반하여 각 문서에 관하여 신규 카테고리 정보를 획득하여 단일 카테고리의 문서를 다중 카테고리로 확장하는 문서-카테고리 대응 분석부를 포함하는 다중 카테고리 자동 확장 장치
|
7 |
7
제6항에 있어서,상기 토픽 분석부는, 각 토픽 별로 각 문서에 대해서 하기 수학식 3에 의해 상기 문서-토픽 대응도(D/T Score)를 계산하는, 다중 카테고리 자동 확장 장치
|
8 |
8
제7항에 있어서,상기 토픽 분석부는,상기 계산된 문서-토픽 대응도를 행렬 값으로 갖는 문서-토픽 대응 행렬을 1차 생성한 후, 1차 생성된 문서-토픽 대응 행렬에서 각 문서의 토픽 별 기여 여부를 사전 지정된 임계치를 이용하여 판단하고, 상기 임계치 이상의 값을 갖는 행렬 값만을 남겨두고 상기 임계치 미만의 값을 갖는 행렬 값은 0으로 대체함으로써 문서-토픽 대응 행렬을 재생성하는, 다중 카테고리 자동 확장 장치
|
9 |
9
제8항에 있어서,상기 토픽-카테고리 대응 분석부는, 각 토픽 별로 통합하여 산출되는 토픽-카테고리 대응도(T/C Score)를 하기 수학식 4에 의해 계산하는, 다중 카테고리 자동 확장 장치
|
10 |
10
제9항에 있어서,상기 문서-카테고리 대응 분석부는, 상기 문서-토픽 대응 행렬에서 동일 토픽에 관한 문서 별 상기 문서-토픽 대응도(D/T Score) 값과 상기 토픽-카테고리 대응 행렬에서 카테고리 별 해당 토픽의 상기 토픽-카테고리 대응도(T/C Score) 값을 곱한 후, 상기 곱한 값을 문서 별로 합산 처리하는 방식의 가중합을 수행하여 상기 문서-카테고리 대응도(D/C Score)를 계산하는, 다중 카테고리 자동 확장 장치
|