1 |
1
전자 장치에 있어서,적어도 하나의 인스트럭션(instruction)을 포함하는 메모리; 및상기 메모리와 연결되어 상기 전자 장치를 제어하는 프로세서;를 포함하고,상기 프로세서는, 상기 적어도 하나의 인스트럭션을 실행함으로써,토픽 모델링을 통해 문서 집합을 계층적인 구조를 갖는 복수의 토픽 노드에 따라 분할하고, 토픽 노드에 포함된 문서의 개수에 기초하여 상기 복수의 토픽 노드 중에서 도미넌트(dominant) 토픽 노드를 결정하고, 상기 도미넌트 토픽 노드에 포함된 복수의 문서 중에서 상기 도미넌트 토픽 노드에 포함된 복수의 문서로부터 획득된 복수의 형태소에 기초하여 결정된 하나의 문서를 상기 문서 집합의 대표 문서로 결정하는, 전자 장치
|
2 |
2
제1항에 있어서,상기 프로세서는,상기 문서 집합에 포함된 복수의 문서에 기초하여 획득된 텀-도큐먼트(term-document) 매트릭스에 비음수 행렬 분해(Nonnegative Matrix Factorization, NMF)를 수행하여, 상기 문서 집합에 대응되는 노드를 기설정된 개수의 제1 토픽 노드들로 분할하며,상기 텀-도큐먼트 매트릭스는, 상기 문서 집합에 포함된 복수의 문서에서 획득된 복수의 형태소가 상기 복수의 문서 각각에 포함된 빈도수에 기초하여 생성되는, 전자 장치
|
3 |
3
제2항에 있어서,상기 프로세서는,상기 제1 토픽 노드들을 각각 분할하였을 때 생성되는 자식 토픽 노드들에 기초하여 상기 제1 토픽 노드들 각각의 스코어를 산출하고, 상기 산출된 스코어에 기초하여 상기 제1 토픽 노드들 중에서 분할될 토픽 노드를 결정하고, 상기 결정된 토픽 노드를 기설정된 개수의 제2 토픽 노드들로 분할하는, 전자 장치
|
4 |
4
제3항에 있어서,상기 프로세서는,상기 제1 토픽 노드들 중 분할되지 않는 토픽 노드, 및 상기 제2 토픽 노드들을 각각 분할하였을 때 생성되는 자식 토픽 노드들에 기초하여 상기 분할되지 않는 토픽 노드 및 상기 제2 토픽 노드들 각각의 스코어를 산출하고, 상기 산출된 스코어에 기초하여 상기 분할되지 않는 토픽 노드 및 상기 제2 토픽 노드들 중에서 분할될 토픽 노드를 결정하고, 상기 결정된 토픽 노드를 기설정된 개수의 제3 토픽 노드들로 분할하는, 전자 장치
|
5 |
5
제4항에 있어서,상기 프로세서는,기설정된 조건을 만족하는 토픽 노드를 제외하면서 상기 분할 과정을 수행하여 상기 계층적인 구조를 갖는 복수의 토픽 노드를 생성하며,상기 기설정된 조건은, 토픽 노드를 분할하였을 때 생성되는 자식 토픽 노드들에 기초하여 산출된 스코어가 음수인 조건, 및 토픽 노드 및 자식 토픽 노드 간 또는 자식 토픽 노드들 간에 기설정된 개수 이상의 동일한 빈도수 상위 형태소가 존재하는 조건을 포함하는, 전자 장치
|
6 |
6
제1항에 있어서,상기 프로세서는,상기 계층적인 구조를 갖는 복수의 토픽 노드 중에서 리프(leaf) 노드에 해당하는 복수의 토픽 노드 각각에 포함된 문서의 개수를 판단하고, 상기 리프 노드에 해당하는 복수의 토픽 노드 중에서 문서의 개수가 가장 많은 토픽 노드를 상기 도미넌트 토픽 노드로 결정하는, 전자 장치
|
7 |
7
제1항에 있어서,상기 프로세서는,상기 도미넌트 토픽 노드에 포함된 복수의 문서로부터 획득된 복수의 형태소가 상기 복수의 문서 각각에 포함된 빈도수 및 상기 도미넌트 토픽 노드에서의 상기 복수의 형태소의 가중치에 기초하여 상기 도미넌트 토픽 노드에 포함된 복수의 문서의 스코어를 산출하고, 상기 산출된 스코어에 기초하여 상기 도미넌트 토픽 노드에 포함된 복수의 문서 중에서 하나의 문서를 선택하고, 상기 선택된 문서를 상기 대표 문서로 결정하는, 전자 장치
|
8 |
8
전자 장치의 대표 문서 선정 방법에 있어서,토픽 모델링을 통해 문서 집합을 계층적인 구조를 갖는 복수의 토픽 노드에 따라 분할하는 단계;토픽 노드에 포함된 문서의 개수에 기초하여 상기 복수의 토픽 노드 중에서 도미넌트(dominant) 토픽 노드를 결정하는 단계; 및상기 도미넌트 토픽 노드에 포함된 복수의 문서 중에서 상기 도미넌트 토픽 노드에 포함된 복수의 문서로부터 획득된 복수의 형태소에 기초하여 결정된 하나의 문서를 상기 문서 집합의 대표 문서로 결정하는 단계;를 포함하는, 대표 문서 선정 방법
|
9 |
9
제8항에 있어서,상기 분할하는 단계는,상기 문서 집합에 포함된 복수의 문서에 기초하여 획득된 텀-도큐먼트(term-document) 매트릭스에 비음수 행렬 분해(Nonnegative Matrix Factorization, NMF)를 수행하여, 상기 문서 집합에 대응되는 노드를 기설정된 개수의 제1 토픽 노드들로 분할하며,상기 텀-도큐먼트 매트릭스는, 상기 문서 집합에 포함된 복수의 문서에서 획득된 복수의 형태소가 상기 복수의 문서 각각에 포함된 빈도수에 기초하여 생성되는, 대표 문서 선정 방법
|
10 |
10
제9항에 있어서,상기 분할하는 단계는,상기 제1 토픽 노드들을 각각 분할하였을 때 생성되는 자식 토픽 노드들에 기초하여 상기 제1 토픽 노드들 각각의 스코어를 산출하고, 상기 산출된 스코어에 기초하여 상기 제1 토픽 노드들 중에서 분할될 토픽 노드를 결정하고, 상기 결정된 토픽 노드를 기설정된 개수의 제2 토픽 노드들로 분할하는, 대표 문서 선정 방법
|
11 |
11
제10항에 있어서,상기 분할하는 단계는,상기 제1 토픽 노드들 중 분할되지 않는 토픽 노드, 및 상기 제2 토픽 노드들을 각각 분할하였을 때 생성되는 자식 토픽 노드들에 기초하여 상기 분할되지 않는 토픽 노드 및 상기 제2 토픽 노드들 각각의 스코어를 산출하고, 상기 산출된 스코어에 기초하여 상기 분할되지 않는 토픽 노드 및 상기 제2 토픽 노드들 중에서 분할될 토픽 노드를 결정하고, 상기 결정된 토픽 노드를 기설정된 개수의 제3 토픽 노드들로 분할하는, 대표 문서 선정 방법
|
12 |
12
제11항에 있어서,상기 분할하는 단계는,기설정된 조건을 만족하는 토픽 노드를 제외하면서 상기 분할 과정을 수행하여 상기 계층적인 구조를 갖는 복수의 토픽 노드를 생성하며,상기 기설정된 조건은, 토픽 노드를 분할하였을 때 생성되는 자식 토픽 노드들에 기초하여 산출된 스코어가 음수인 조건, 및 토픽 노드 및 자식 토픽 노드 간 또는 자식 토픽 노드들 간에 기설정된 개수 이상의 동일한 빈도수 상위 형태소가 존재하는 조건을 포함하는, 대표 문서 선정 방법
|
13 |
13
제8항에 있어서,상기 도미넌트 토픽 노드를 결정하는 단계는,상기 계층적인 구조를 갖는 복수의 토픽 노드 중에서 리프(leaf) 노드에 해당하는 복수의 토픽 노드 각각에 포함된 문서의 개수를 판단하고, 상기 리프 노드에 해당하는 복수의 토픽 노드 중에서 문서의 개수가 가장 많은 토픽 노드를 상기 도미넌트 토픽 노드로 결정하는, 대표 문서 선정 방법
|
14 |
14
제8항에 있어서,상기 대표 문서를 결정하는 단계는,상기 도미넌트 토픽 노드에 포함된 복수의 문서로부터 획득된 복수의 형태소가 상기 복수의 문서 각각에 포함된 빈도수 및 상기 도미넌트 토픽 노드에서의 상기 복수의 형태소의 가중치에 기초하여 상기 도미넌트 토픽 노드에 포함된 복수의 문서의 스코어를 산출하고, 상기 산출된 스코어에 기초하여 상기 도미넌트 토픽 노드에 포함된 복수의 문서 중에서 하나의 문서를 선택하고, 상기 선택된 문서를 상기 대표 문서로 결정하는, 대표 문서 선정 방법
|