1 |
1
키워드 클러스터링 장치에 의해 수행되는 키워드 클러스터링 방법에 있어서,복수의 문서에 포함된 복수의 키워드를 이용하여 초기 클러스터셋을 구성하는 단계;상기 초기 클러스터셋을 구성하는 복수의 초기 클러스터 중에서, 초기 클러스터 간 유사도가 임계 값 이상인 제1 초기 클러스터와 제2 초기 클러스터를 병합하여, 중간 클러스터셋을 구성하는 단계; 및상기 중간 클러스터셋을 구성하는 복수의 중간 클러스터 중에서, 중간 클러스터 간 유사도가 임계 값 이상인 제1 중간 클러스터와 제2 중간 클러스터를 병합하여, 최종 클러스터셋을 구성하는 단계를 포함하되,상기 제1 초기 클러스터와 상기 제2 초기 클러스터 간의 유사도는,상기 제1 초기 클러스터에 소속된 키워드에서 추출된 제1-1 특징과 상기 제2 초기 클러스터에 소속된 키워드에서 추출된 제1-2 특징 간의 유사도에 기초하여 산출되고,상기 제1 중간 클러스터와 상기 제2 중간 클러스터 간의 유사도는,상기 제1 중간 클러스터에 대한 제2-1 특징과 상기 제2 중간 클러스터에 대한 제2-2 특징 간의 유사도에 기초하여 산출되며,상기 제2-1 특징은 상기 제1 중간 클러스터에 소속된 제1-1 키워드 및 상기 제1-1 키워드와 동일 문서에 포함된 제1-2 키워드의 조합으로부터 추출되고,상기 제2-2 특징은 상기 제2 중간 클러스터에 소속된 제2-1 키워드 및 상기 제2-1 키워드와 동일 문서에 포함된 제2-2 키워드의 조합으로부터 추출되는 것을 특징으로 하는,키워드 클러스터링 방법
|
2 |
2
제1 항에 있어서,상기 초기 클러스터셋을 구성하는 단계는,상기 복수의 키워드에 포함된 각각의 키워드를 하나의 클러스터로 생성하여, 복수의 클러스터가 포함된 제1 클러스터셋을 구성하는 단계;상기 제1 클러스터셋을 구성하는 복수의 클러스터 중에서, 동일한 키워드를 공유하는 클러스터를 병합하여, 상기 초기 클러스터셋을 구성하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
3 |
3
제2 항에 있어서,상기 각각의 키워드는 제1 키워드 및 제2 키워드를 포함하는 키워드쌍이고, 상기 제2 키워드는 상기 제1 키워드와 다른 언어로 표현되고 의미가 대응되는 키워드이되,상기 동일한 키워드를 공유하는 클러스터를 병합하여, 상기 초기 클러스터셋을 구성하는 단계는,상기 제1 클러스터셋을 구성하는 복수의 클러스터 중에서, 상기 제1 키워드 및 상기 제2 키워드를 모두 공유하는 클러스터를 병합하여, 제2 클러스터셋을 구성하는 단계; 및상기 제2 클러스터셋을 구성하는 복수의 클러스터 중에서, 상기 제1 키워드만을 공유하는 클러스터를 병합하여, 상기 초기 클러스터셋을 구성하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
4 |
4
제1 항에 있어서,상기 복수의 키워드에 포함된 각각의 키워드는 제1 키워드 및 제2 키워드를 포함하는 키워드쌍이고, 상기 제2 키워드는 상기 제1 키워드와 다른 언어로 표현되고 의미가 대응되는 키워드이되,상기 중간 클러스터셋을 구성하는 단계는,상기 초기 클러스터셋을 구성하는 복수의 초기 클러스터 중에서, 상기 제1 키워드에서 추출된 특징 벡터 간의 유사도가 임계 값 이상인 클러스터를 병합하여, 제1 클러스터셋을 구성하는 단계; 및상기 제1 클러스터셋을 구성하는 복수의 클러스터 중에서, 상기 제2 키워드에서 추출된 특징 벡터 간의 유사도가 임계 값 이상인 클러스터를 병합하여, 상기 중간 클러스터셋을 구성하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
5 |
5
제1 항에 있어서,상기 제1-1 특징 및 상기 제1-2 특징은 q-gram(단, q는 1이상의 자연수) 기반으로 추출된 것이고,상기 제2-1 특징 및 상기 제2-2 특징은 어절 단위로 추출된 것을 특징으로 하는,키워드 클러스터링 방법
|
6 |
6
제1 항에 있어서,상기 복수의 키워드에 포함된 각각의 키워드는 제1 키워드 및 제2 키워드를 포함하는 키워드쌍이고, 상기 제2 키워드는 상기 제1 키워드와 다른 언어로 표현되고 의미가 대응되는 키워드이되,상기 중간 클러스터셋을 구성하는 단계는,상기 초기 클러스터셋에 포함된 각각의 초기 클러스터에 대하여, 상기 제1 키워드를 기초로 제1 특징 벡터를 생성하는 단계;상기 초기 클러스터셋에 포함된 각각의 초기 클러스터에 대하여, 상기 제2 키워드를 기초로 제2 특징 벡터를 생성하는 단계; 및상기 초기 클러스터셋에 포함된 복수의 초기 클러스터 중에서, 상기 제1 특징 벡터 간 유사도와 상기 제2 특징 벡터 간 유사도를 기초로 산출된 평균 유사도가 임계 값 이상인 클러스터를 병합하여, 상기 중간 클러스터셋을 구성하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
7 |
7
제6 항에 있어서,상기 제1 특징 벡터 및 상기 제2 특징 벡터는 TF-IDF(Term Frequency-Inverse Document Frequency) 가중치에 기초하여 생성되는 것을 특징으로 하는,키워드 클러스터링 방법
|
8 |
8
제1 항에 있어서,상기 중간 클러스터셋을 구성하는 단계는,상기 초기 클러스터셋을 구성하는 각각의 초기 클러스터에 대하여, 상기 각각의 클러스터에 포함된 키워드로부터 특징을 추출하는 단계;상기 특징 별로, 각 특징이 포함된 초기 클러스터를 가리키는 역 인덱스(inverted index)을 구축하는 단계;상기 초기 클러스터셋을 구성하는 복수의 초기 클러스터 중에서, 어느 하나의 클러스터를 병합 기준 클러스터로 선정하는 제1 단계;상기 역 인덱스를 이용하여, 상기 병합 기준 클러스터의 특징을 공유하는 초기 클러스터를 검색하고, 상기 검색된 초기 클러스터 중에서 병합 후보 클러스터를 선정하는 제2 단계;상기 병합 후보 클러스터 중에서, 상기 병합 기준 클러스터와 상기 병합 후보 클러스터 간의 제1 유사도가 제1 임계 값 이상인 클러스터를 병합 대상 클러스터로 선정하는 제3 단계;상기 병합 기준 클러스터와 상기 병합 대상 클러스터를 병합하는 제4 단계; 및상기 제1 단계 내지 상기 제4 단계를 반복하여, 상기 중간 클러스터셋을 구성하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
9 |
9
제8 항에 있어서,상기 병합 후보 클러스터를 선정하는 제2 단계는,상기 병합 기준 클러스터와 상기 병합 기준 클러스터의 특징을 공유하는 각각의 클러스터 간의 제2 유사도를 산출하는 단계; 및상기 병합 기준 클러스터의 특징을 공유하는 각각의 클러스터 중에서, 상기 제2 유사도가 높은 상위 k(단, k는 1 이상의 자연수)개의 클러스터를 상기 병합 후보 클러스터로 선정하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
10 |
10
제9 항에 있어서,상기 제1 유사도는, 상기 병합 기준 클러스터의 모든 특징에 대하여, 상기 병합 기준 클러스터와 다른 클러스터 간의 특징 별 IDF 가중치의 합을 통해 산출되는 것을 특징으로 하는,키워드 클러스터링 방법
|
11 |
11
제8 항에 있어서,상기 제1 유사도가 상기 제1 임계 값 미만이고 상기 제1 임계 값 보다 작은 제2 임계 값 이상인 병합 후보 클러스터를 유사도 재산출 대상 클러스터로 지정하는 단계;상기 병합 기준 클러스터 및 상기 유사도 재산출 대상 클러스터의 특징을 자소 단위로 다시 추출하는 단계;상기 다시 추출된 특징을 이용하여, 상기 병합 기준 클러스터와 상기 유사도 재산출 대상 클러스터의 특징 벡터를 다시 생성하고, 상기 제1 유사도를 다시 산출하는 단계; 및상기 다시 산출된 제1 유사도가 상기 제1 임계 값 이상인 경우, 상기 병합 기준 클러스터와 상기 유사도 재산출 대상 클러스터를 병합하는 단계를 더 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
12 |
12
제1 항에 있어서,상기 최종 클러스터셋에 포함된 클러스터에 대한 대표 키워드를 결정하는 단계를 더 포함하되,상기 대표 키워드를 결정하는 단계는,상기 최종 클러스터셋을 구성하는 각각의 클러스터에 대하여, 각각의 클러스터에 포함된 키워드 별로 키워드 특징 벡터를 생성하는 단계;상기 키워드 특징 벡터를 평균하여 클러스터 특징 벡터를 생성하는 단계;상기 키워드 특징 벡터 중에서, 상기 클러스터 특징 벡터와의 유사도가 가장 높은 키워드 특징 벡터를 대표 키워드 특징 벡터로 선정하는 단계; 및상기 선정된 대표 키워드 특징 벡터에 대응되는 키워드를 해당 클러스터의 대표 키워드로 결정하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
13 |
13
키워드 클러스터링 장치에 의해 수행되는 계층적 클러스터링 기반의 키워드 클러스터링 방법에 있어서,복수의 키워드를 이용하여, 복수의 클러스터가 포함된 제1 클러스터셋을 구성하는 단계;상기 제1 클러스터셋에 포함된 각각의 클러스터에 대하여, 상기 각각의 클러스터에 포함된 키워드로부터 특징을 추출하는 단계;상기 특징 별로, 각 특징이 포함된 클러스터를 가리키는 역 인덱스(inverted index)을 구축하는 단계;상기 제1 클러스터셋에 포함된 클러스터 중에서, 어느 하나의 클러스터를 병합 기준 클러스터로 선정하는 제1 단계; 상기 역 인덱스를 이용하여, 상기 병합 기준 클러스터의 특징을 공유하는 클러스터를 검색하고, 상기 검색된 클러스터 중에서 병합 후보 클러스터를 선정하는 제2 단계; 상기 병합 후보 클러스터 중에서, 상기 병합 기준 클러스터와 상기 병합 후보 클러스터 간의 제1 유사도가 임계 값 이상인 클러스터를 병합 대상 클러스터로 선정하는 제3 단계;상기 병합 기준 클러스터와 상기 병합 대상 클러스터를 병합하는 제4 단계; 및상기 제1 단계 내지 상기 제4 단계를 반복하여, 제2 클러스터셋을 구성하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
14 |
14
제13 항에 있어서,상기 병합 후보 클러스터를 선정하는 제2 단계는,상기 병합 기준 클러스터와 상기 병합 기준 클러스터의 특징을 공유하는 각각의 클러스터 간의 제2 유사도를 산출하는 단계; 및상기 병합 기준 클러스터의 특징을 공유하는 각각의 클러스터 중에서, 상기 제2 유사도가 높은 상위 k(단, k는 1 이상의 자연수)개의 클러스터를 상기 병합 후보 클러스터로 선정하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
15 |
15
제14 항에 있어서,상기 제1 유사도는, 상기 병합 기준 클러스터의 특징 벡터와 상기 병합 후보 클러스터의 특징 벡터 간의 유사도를 기초로 산출되고,상기 제2 유사도는, 상기 병합 기준 클러스터의 모든 특징에 대하여, 상기 병합 기준 클러스터와 다른 클러스터 간의 특징 별 IDF(Inverse Document Frequency) 가중치의 합을 통해 산출되는 것을 특징으로 하는,키워드 클러스터링 방법
|
16 |
16
제13 항에 있어서,상기 제1 클러스터셋을 구성하는 단계는,상기 복수의 키워드에 포함된 각각의 키워드를 하나의 클러스터로 생성하여, 복수의 클러스터가 포함된 초기 클러스터셋을 구성하는 단계; 및상기 초기 클러스터셋을 구성하는 복수의 클러스터 중에서, 동일한 키워드를 공유하는 클러스터를 병합하여, 상기 제1 클러스터셋을 구성하는 단계를 포함하는 것을 특징으로 하는,키워드 클러스터링 방법
|
17 |
17
하나 이상의 프로세서;네트워크 인터페이스;상기 프로세서에 의하여 수행되는 컴퓨터 프로그램을 로드(Load)하는 메모리; 및복수의 문서 및 상기 컴퓨터 프로그램을 저장하는 스토리지를 포함하되,상기 컴퓨터 프로그램은,상기 복수의 문서에 포함된 복수의 키워드를 이용하여 초기 클러스터셋을 구성하는 오퍼레이션;상기 초기 클러스터셋을 구성하는 복수의 초기 클러스터 중에서, 초기 클러스터 간 유사도가 임계 값 이상인 제1 초기 클러스터와 제2 초기 클러스터를 병합하여, 중간 클러스터셋을 구성하는 오퍼레이션; 및상기 중간 클러스터셋을 구성하는 복수의 중간 클러스터 중에서, 중간 클러스터 간 유사도가 임계 값 이상인 제1 중간 클러스터와 제2 중간 클러스터를 병합하여, 최종 클러스터셋을 구성하는 오퍼레이션을 포함하되,상기 제1 초기 클러스터와 상기 제2 초기 클러스터 간의 유사도는,상기 제1 초기 클러스터에 소속된 키워드에서 추출된 제1-1 특징과 상기 제2 초기 클러스터에 소속된 키워드에서 추출된 제1-2 특징 간의 유사도에 기초하여 산출되고,상기 제1 중간 클러스터와 상기 제2 중간 클러스터 간의 유사도는,상기 제1 중간 클러스터에 대한 제2-1 특징과 상기 제2 중간 클러스터에 대한 제2-2 특징 간의 유사도에 기초하여 산출되며,상기 제2-1 특징은 상기 제1 중간 클러스터에 소속된 제1-1 키워드 및 상기 제1-1 키워드와 동일 문서에 포함된 제1-2 키워드의 조합으로부터 추출되고,상기 제2-2 특징은 상기 제2 중간 클러스터에 소속된 제2-1 키워드 및 상기 제2-1 키워드와 동일 문서에 포함된 제2-2 키워드의 조합으로부터 추출되는 것을 특징으로 하는,키워드 클러스터링 장치
|
18 |
18
컴퓨팅 장치와 결합되어,복수의 문서에 포함된 복수의 키워드를 이용하여 초기 클러스터셋을 구성하는 단계;상기 초기 클러스터셋을 구성하는 복수의 초기 클러스터 중에서, 초기 클러스터 간 유사도가 임계 값 이상인 제1 초기 클러스터와 제2 초기 클러스터를 병합하여, 중간 클러스터셋을 구성하는 단계; 및상기 중간 클러스터셋을 구성하는 복수의 중간 클러스터 중에서, 중간 클러스터 간 유사도가 임계 값 이상인 제1 중간 클러스터와 제2 중간 클러스터를 병합하여, 최종 클러스터셋을 구성하는 단계를 포함하되,상기 제1 초기 클러스터와 상기 제2 초기 클러스터 간의 유사도는,상기 제1 초기 클러스터에 소속된 키워드에서 추출된 제1-1 특징과 상기 제2 초기 클러스터에 소속된 키워드에서 추출된 제1-2 특징 간의 유사도에 기초하여 산출되고,상기 제1 중간 클러스터와 상기 제2 중간 클러스터 간의 유사도는,상기 제1 중간 클러스터에 대한 제2-1 특징과 상기 제2 중간 클러스터에 대한 제2-2 특징 간의 유사도에 기초하여 산출되며,상기 제2-1 특징은 상기 제1 중간 클러스터에 소속된 제1-1 키워드 및 상기 제1-1 키워드와 동일 문서에 포함된 제1-2 키워드의 조합으로부터 추출되고,상기 제2-2 특징은 상기 제2 중간 클러스터에 소속된 제2-1 키워드 및 상기 제2-1 키워드와 동일 문서에 포함된 제2-2 키워드의 조합으로부터 추출되는, 컴퓨터로 판독 가능한 기록 매체에 저장된,컴퓨터 프로그램
|