1 |
1
주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부;상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부; 및분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류부를 포함하며,상기 단어 사전 생성부는, 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을, 상기 단어가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서에서 상기 단어가 나타난 빈도수를 기초로, 복수개의 부분 집합들로 클러스터링하고, 상기 클러스터링 한 부분 집합들 중 상기 빈도수를 기준으로 적어도 하나 이상의 비 관련 클러스터를 선정하고,상기 비 관련 클러스터에 포함된 단어들을 상기 단어 사전에서 제거하는 비 관련 단어 제거부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
2 |
2
제1항에 있어서,상기 데이터 수집부는 상기 문장에서 소정의 문자 개수 이하로 구성된 문자열 또는 특수 문자 또는 숫자 문자를 제거하고, 형태소 분석을 수행하여 상기 문장으로부터 상기 단어 사전 생성부에 입력할 단어들을 선정하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
3 |
3
제1항에 있어서,상기 데이터 수집부는 상기 주제 카테고리 별로 미리 분류된 복수 개의 상기 문서로써, 상기 주제 카테고리 별로 미리 분류된 뉴스 기사 또는 신문 기사 또는 잡지 기사 문서들을 입력받는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
4 |
4
제1항에 있어서, 상기 단어 사전 생성부는,상기 데이터 수집부에서 입력받은 단어들에 대하여, 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 TF-IDF 가중치를 산출하고, 상기 산출한 TF-IDF 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 제1 단어 사전 생성부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
5 |
5
제4항에 있어서,상기 제1 단어 사전 생성부는 상기 입력받은 단어가 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 문장이 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 주제 카테고리의 수에 기초하여 상기 TF-IDF 가중치를 산출하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
6 |
6
제1항에 있어서, 상기 단어 사전 생성부는,상기 데이터 수집부에서 입력받은 단어들에 대하여 LDA 분석을 수행하고, 상기 단어들에 대하여 상기 주제 카테고리의 분포 및 상기 주제 카테고리에서 나타나는 단어들의 분포에 따른 LDA 단어 가중치를 산출하고, 상기 산출한 LDA 단어 가중치에 따라 상기 단어들을 정렬하여 상기 단어들에 소정의 수를 설정하고, 상기 소정의 수를 상기 단어들의 총 수로 나눈 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 제2 단어 사전 생성부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
7 |
7
제6항에 있어서, 상기 제2 단어 사전 생성부는, 상기 데이터 수집부에서 입력받은 단어들에 대하여 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 TF-IDF 가중치를 산출하고, 상기 산출한 TF-IDF 가중치가 소정의 기준값보다 작은 단어들을 상기 입력받은 단어들에서 제거하고,상기 제거 후 남은 단어들에 대하여 LDA 분석을 수행하고, 그 분석 결과에 따라 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
8 |
8
제4항에 있어서, 상기 단어 사전 생성부는,상기 주제 카테고리 별 상기 단어 사전에 포함된 단어들 중에서 두 개 이상의 단어 사전들에 공통으로 포함된 중복 단어를 제거하는 중복 단어 제거부를 더 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
9 |
9
제8항에 있어서,상기 중복 단어 제거부는 상기 중복 단어의 상기 TF-IDF 가중치 또는 상기 단어 사전에서 상기 중복 단어가 발생한 빈도수를 기준으로 상기 중복 단어를 제거할 상기 주제 카테고리를 선택하고, 상기 선택한 주제 카테고리의 상기 단어 사전에서 상기 중복 단어를 제거하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
10 |
10
제1항에 있어서, 상기 주제 카테고리 분류부는,상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 각 상기 가중치들을 연산한 값을 상기 특징 벡터의 각 원소로 설정하여, 상기 특징 벡터를 생성하는 특징 벡터 추출부; 및상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 결정하는 분류부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
11 |
11
제10항에 있어서,상기 분류부는 최대 가중치(Maximum Weight) 기법에 따라 상기 특징 벡터의 상기 원소들 중에서 최대의 값을 가지는 상기 원소에 대응하는 상기 주제 카테고리를 상기 분류 대상 문장의 상기 주제 카테고리로 결정하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
12 |
12
제10항에 있어서,상기 분류부는 서포트 벡터 머신(SVM)에 기반한 미리 학습된 분류기를 이용하여, 상기 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 분류하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
13 |
13
삭제
|
14 |
14
삭제
|
15 |
15
제1항에 있어서,상기 단어 사전 생성부에서 생성한 상기 단어사전을 저장하는 단어 사전 데이터베이스를 더 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
|
16 |
16
서비스 서버를 포함하는 텍스트 주제 카테고리 분류 시스템에 있어서,상기 서비스 서버는,주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부; 및상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부를 포함하며,상기 단어 사전 생성부는, 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을, 상기 단어가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서에서 상기 단어가 나타난 빈도수를 기초로, 복수개의 부분 집합들로 클러스터링하고, 상기 클러스터링 한 부분 집합들 중 상기 빈도수를 기준으로 적어도 하나 이상의 비 관련 클러스터를 선정하고,상기 비 관련 클러스터에 포함된 단어들을 상기 단어 사전에서 제거하는 비 관련 단어 제거부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 시스템
|
17 |
17
서비스 서버가 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집 단계;상기 서비스 서버가 상기 주제 카테고리 별로 수집된 단어들에 대하여 가중치를 산출하고, 상기 산출한 가중치를 기준으로 상기 수집된 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성 단계; 및분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류 단계를 포함하며,상기 단어 사전 생성 단계는, 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을, 상기 단어가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서에서 상기 단어가 나타난 빈도수를 기초로, 복수개의 부분 집합들로 클러스터링하고, 상기 클러스터링 한 부분 집합들 중 상기 빈도수를 기준으로 적어도 하나 이상의 비 관련 클러스터를 선정하고,상기 비 관련 클러스터에 포함된 단어들을 상기 단어 사전에서 제거하는 단계를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 방법
|