1 |
1
토픽 추출 장치에서의 토픽 추출 방법으로서,상기 토픽 추출 장치가 문서 데이터를 수집하여 명사를 추출하고,상기 토픽 추출 장치가 LDA(Latent Dirichlet Allocation) 기법을 이용하여 상기 추출한 명사 중 LDA 토픽을 추출하고,상기 토픽 추출 장치가 상기 LDA 토픽 내 토픽후보단어 간의 유사도를 산출하고, 상기 토픽후보단어 간의 유사도에 따라 상기 LDA 토픽을 분리하고,상기 토픽 추출 장치가 상기 분리된 각 LDA 토픽을 상기 분리된 각 LDA 토픽 간의 거리에 따라 병합하여 최종 토픽을 추출하되,상기 토픽후보단어 간의 유사도는 상기 토픽후보단어 간의 PMI(Pointwise Mutual Information) 값을 산출하여 이루어지고, 상기 LDA 토픽을 분리하는 것은,상기 토픽후보단어 및 상기 토픽후보단어 간의 PMI 값을 나타내는 Matrix를 생성하고, 상기 Matrix 내에서 상기 토픽후보단어의 출현빈도에 따라 초기 기준단어를 설정하여 상기 설정한 각각의 초기 기준단어에 대한 TC(Topic Clique)를 생성하여 상기 LDA 토픽을 분리하는 토픽 추출 방법
|
2 |
2
삭제
|
3 |
3
제 1 항에 있어서,상기 토픽후보단어 간의 PMI 값을 산출하는 것은,상기 토픽후보단어 중 임의의 두 단어가 한 문장 내에 동시에 출현될 확률 대비 각각 출현될 확률의 비율로 산출하는 토픽 추출 방법
|
4 |
4
삭제
|
5 |
5
제 1 항에 있어서,상기 초기 기준단어에 대한 TC(Topic Clique)를 생성하는 것은,상기 초기 기준단어와 상기 Matrix에 포함된 토픽후보단어 중 상기 초기 기준단어를 뺀 나머지 토픽후보단어 간의 PMI 값을 확인하여 상기 Matrix에서 상기 초기 기준단어와의 PMI 값이 0 이하인 토픽후보단어를 삭제하고, 상기 Matrix에서 상기 초기 기준단어를 TC(Topic Clique)의 정점단어로 이동시키는 제1 과정,상기 초기 기준단어와의 PMI 값이 0 이하인 토픽후보단어가 삭제된 Matrix에 포함된 토픽후보단어 중 상기 토픽후보단어의 출현빈도에 따라 차순위의 토픽후보단어를 비교기준단어로 설정하고, 상기 초기 기준단어와의 PMI 값이 0 이하인 토픽후보단어 및 상기 초기 기준단어가 삭제된 Matrix에 포함된 토픽후보단어와 상기 비교기준단어 간의 PMI 값을 확인하여 상기 비교기준단어와의 PMI 값이 0 이하인 토픽후보단어를 삭제하는 제2 과정,상기 제2 과정에서 상기 Matrix에 하나의 토픽후보단어가 남을 때까지 상기 제2 과정을 반복하는 제3 과정을 수행하여 상기 TC(Topic Clique)에 이동된 정점단어로 상기 초기 기준단어에 대한 TC(Topic Clique)를 생성하는 토픽 추출 방법
|
6 |
6
제 1 항에 있어서,상기 분리된 각 LDA 토픽 간의 거리에 따라 병합하는 것은,상기 각각의 초기 기준단어에 대한 TC(Topic Clique) 중 임의의 두 TC(Topic Clique)에 포함된 정점단어의 합집합으로 새로운 Matrix를 생성하고, 상기 새로운 Matrix에서 PMI 값이 0 이하인 간선을 검출하고, 상기 새로운 Matrix에서 검출한 PMI 값이 0 이하인 간선의 수 대비 상기 새로운 Matrix에 포함된 전체 간선의 수의 비율로 상기 TC(Topic Clique) 간 거리를 산출하고, 상기 TC(Topic Clique) 간 거리에 따라 상기 TC(Topic Clique)를 병합하는 토픽 추출 방법
|
7 |
7
제 6 항에 있어서,상기 TC(Topic Clique)를 병합하는 것은,상기 임의의 두 TC(Topic Clique)를 하나의 토픽으로 병합하는 토픽 추출 방법
|
8 |
8
제 6 항에 있어서,상기 TC(Topic Clique)를 병합하는 것은,상기 새로운 Matrix에서 PMI 값이 0을 초과하는 부분에 대응하는 정점단어들로 단어집합을 구성하여 상기 TC(Topic Clique)를 병합하는 토픽 추출 방법
|
9 |
9
제 6 항에 있어서,상기 TC(Topic Clique)를 병합하는 것은,상기 새로운 Matrix에서 PMI 값이 0 이하인 부분에 대응하는 음성정점단어집합에 포함된 정점단어를 상기 새로운 Matrix에서 PMI 값이 0을 초과하는 부분에 대응하는 양성정점단어집합에 포함된 정점단어와의 PMI 값에 따라 추가하여 상기 TC(Topic Clique)를 병합하는 토픽 추출 방법
|
10 |
10
제 9 항에 있어서,PMI 값에 따라 상기 음성정점단어집합에 포함된 정점단어를 상기 양성정점단어집합에 추가하는 것은,상기 음성정점단어집합에 포함된 정점단어 중 출현빈도에 따라 정점단어를 선택하여 상기 양성정점단어집합에 추가하되, 상기 양성정점단어집합에 포함된 정점단어 간의 PMI 값을 확인하여 상기 음성정점단어집합에서 출현빈도에 따른 최우선순위의 정점단어가 상기 양성정점단어집합에 포함된 정점단어 중 적어도 하나와 PMI 값이 0이하인 간선을 생성하는지 여부를 확인하고, 상기 양성정점단어집합에 포함된 정점단어 중 적어도 하나와 PMI 값이 0이하인 간선을 생성하지 않으면 상기 양성정점단어집합에 추가하는 토픽 추출 방법
|
11 |
11
제 6 항에 있어서,상기 TC(Topic Clique)를 병합하는 것은,상기 임의의 두 TC(Topic Clique) 각각의 평균 PMI 값을 산출하고, 상기 임의의 두 TC(Topic Clique) 중 평균 PMI 값이 더 큰 TC(Topic Clique)를 추출하여 상기 TC(Topic Clique)를 병합하는 토픽 추출 방법
|
12 |
12
문서 데이터를 수집하여 명사를 추출하는 명사 추출부;LDA 기법을 이용하여 상기 추출한 명사 중 LDA 토픽을 추출하는 LDA 토픽 추출부;상기 LDA 토픽 내 토픽후보단어 간의 유사도를 산출하고, 상기 토픽후보단어 간의 유사도에 따라 상기 LDA 토픽을 분리하는 토픽 분리부; 및상기 분리된 각 LDA 토픽을 상기 분리된 각 LDA 토픽 간의 거리에 따라 병합하여 최종 토픽을 추출하는 토픽 병합부를 포함하고,상기 토픽 분리부는,상기 토픽후보단어 간의 PMI(Pointwise Mutual Information) 값을 산출하여 유사도를 산출하고, 상기 토픽후보단어 및 상기 토픽후보단어 간의 PMI 값을 나타내는 Matrix를 생성하고, 상기 Matrix 내에서 상기 토픽후보단어의 출현빈도에 따라 초기 기준단어를 설정하여 상기 설정한 각각의 초기 기준단어에 대한 TC(Topic Clique)를 생성하여 상기 LDA 토픽을 분리하는 토픽 추출 장치
|