1 |
1
적어도 하나의 문서를 포함하는 문서 데이터베이스부;상기 문서 데이터베이스부로부터 수신한 문서를 문자열로 변환하고, 전치사, 접속사, 대명사 등의 정보가 없는 단어를 제거하며, 동일한 개념적 의미를 가진 단어 그룹을 만드는 단어의 형태소 분석을 수행하는 전처리부;벡터 공간 모델을 이용한 인덱싱 처리를 수행하여 문서에 포함된 단어에 가중치 부여 방식에 의해 가중치를 부여하여 특징 벡터들의 특징 세트를 구성하는 특징 벡터 생성부; 및상기 특징 벡터 생성부로부터 구성된 특징 벡터들의 특징 세트를 수신하고, 상기 수신한 특징 세트를 결정 트리(Decision Tree), 나이브 베이즈(Naive Bayes), 서포트 벡터 머신(Support Vector Machine) 중 하나의 지도 학습 기술을 이용하여 텍스트를 분류하는 텍스트 분류기를 포함하며,상기 가중치 부여 방식은 Binary, TFIDF(Term Frequency Inverse Document Frequency), TFC(Term Frequency Collection), LTC(Length Term Collection), Entropy 중 하나의 방식을 적용하며,상기 텍스트 분류기에서 텍스트를 분류할 문서는 객체 지향 문서가 포함된 Gang-of-Four 문서 컬렉션, 시스템 관련 문서가 포함된 더글라스 문서 컬렉션, 기업 보안 및 리스크 관리 문서가 포함된 보안 문서 컬렉션으로 나누어지고,상기 텍스트 분류기는 상기 결정 트리, 상기 나이브 베이즈, 상기 서포트 벡터 머신의 각각에 대하여 상기 5개의 가중치 부여 방식마다 공지된 F-Measure 방법에 적용하여 F 측정값을 각각 계산하고, 상기 계산된 F 측정값이 가장 높은 가중치 부여 방식을 상기 특징 벡터 생성부의 가중치 부여 방식으로 선택하고, 상기 가장 높은 가중치 부여 방식과 이에 대응하는 지도 학습 기술을 통해 구성된 순위가 결정된 상위 n개의 특징 벡터들이 텍스트 분류 기술로 적용되며,상기 텍스트 분류기는 상기 더글라스 문서 컬렉션 및 상기 보안 문서 컬렉션의 경우, 상기 지도 학습 기술로 상기 서포트 벡터 머신을 적용하고, 상기 Gang-of-Four 문서 컬렉션 및 상기 더글라스 문서 컬렉션의 경우, 가중치 부여 방식으로 상기 TFIDF를 적용하는 것을 특징으로 하는 문서 구조와 딥러닝을 이용한 문서 분류 장치
|