1 |
1
전자문서 자동 분류 방법에 있어서,
상기 전자문서 자동 분류 방법은,
하나 이상의 라벨된(labeled) 문서를 이용하여 카테고리 프로파일 테이블을 생성하는 단계; 및
상기 카테고리 프로파일 테이블을 이용하여 미분류 문서를 분류하는 단계
를 포함하고,
상기 분류하는 단계는,
상기 미분류 문서를 하나 이상의 단어 및 상기 하나 이상의 단어에 대한 가중치를 포함하는 미분류 문서 테이블로 인코딩하는 단계;
상기 미분류 문서 테이블과 하나 이상의 카테고리 프로파일 테이블의 유사도를 각각 판단하는 단계; 및
상기 각 유사도에 기초하여 상기 미분류 문서를 분류하는 단계
를 포함하고,
상기 유사도를 판단하는 단계는,
하나의 카테고리 프로파일 테이블을 선택하는 단계;
상기 미분류 문서 테이블과 상기 선택된 카테고리 프로파일 테이블의 공통 단어를 추출하는 단계;
상기 공통 단어 별로 상기 미분류 문서 테이블 및 상기 선택된 카테고리 프로파일 테이블의 가중치 값을 곱하여 곱셈 스코어를 생성하는 단계; 및
상기 공통 단어 별 곱셈 스코어를 합산하여 유사도 스코어를 산출하는 단계
를 포함하는, 전자문서 자동 분류 방법
|
2 |
2
제1항에 있어서,
상기 카테고리 프로파일 테이블을 생성하는 단계는,
상기 하나 이상의 라벨된 문서에 포함된 텍스트를 하나의 텍스트로 통합하는 단계; 및
상기 하나의 텍스트를 하나 이상의 단어 및 상기 하나 이상의 단어에 대한 가중치를 포함하는 카테고리 프로파일 테이블로 인코딩하는 단계
를 포함하는, 전자문서 자동 분류 방법
|
3 |
3
삭제
|
4 |
4
제1항에 있어서,
상기 인코딩하는 단계는,
문서 내의 텍스트를 서브스트링으로 분리하여 토큰(token)을 생성하는 단계;
상기 토큰을 원형으로 변환하여 하나 이상의 원형 단어를 생성하는 단계;
상기 문서 내의 접속사, 관사, 전치사, 대명사 중 적어도 하나를 포함하는 불사용어를 제거하는 단계; 및
상기 원형 단어에 대응하는 가중치를 할당하는 단계
를 포함하는, 전자문서 자동 분류 방법
|
5 |
5
삭제
|
6 |
6
삭제
|
7 |
7
삭제
|
8 |
8
제1항에 있어서,
상기 각 유사도에 기초하여 상기 미분류 문서를 분류하는 단계는,
상기 유사도 스코어가 가장 큰 카테고리 프로파일 테이블에 대응하는 카테고리를 상기 미분류 문서의 카테고리로 분류하는 것을 특징으로 하는 전자문서 자동 분류 방법
|
9 |
9
전자문서 자동 분류 장치에 있어서,
상기 전자문서 자동 분류 장치는,
하나 이상의 라벨된(labeled) 문서를 이용하여 카테고리 프로파일 테이블을 생성하는 카테고리 프로파일 생성부; 및
상기 카테고리 프로파일 테이블을 이용하여 미분류 문서를 분류하는 문서 분류부
를 포함하고,
상기 문서 분류부는,
상기 미분류 문서를 하나 이상의 단어 및 상기 하나 이상의 단어에 대한 가중치를 포함하는 미분류 문서 테이블로 인코딩하는 인코딩부;
상기 미분류 문서 테이블과 하나 이상의 카테고리 프로파일 테이블의 유사도를 각각 판단하는 유사도 판단부; 및
상기 각 유사도에 기초하여 상기 미분류 문서를 분류하는 분류부
를 포함하고,
상기 유사도 판단부는,
하나의 카테고리 프로파일 테이블을 선택하여 상기 미분류 문서 테이블과 상기 선택된 카테고리 프로파일 테이블의 공통 단어를 추출하고, 상기 공통 단어 별로 상기 미분류 문서 테이블 및 상기 선택된 카테고리 프로파일 테이블의 가중치 값을 곱하여 곱셈 스코어를 생성한 후, 상기 공통 단어 별 곱셈 스코어를 합산하여 유사도 스코어를 산출하며,
상기 분류부는,
상기 유사도 스코어가 가장 큰 카테고리 프로파일 테이블에 대응하는 카테고리를 상기 미분류 문서의 카테고리로 분류하는 것
을 특징으로 하는, 전자문서 자동 분류 장치
|
10 |
10
제9항에 있어서,
상기 카테고리 프로파일 생성부는,
상기 하나 이상의 라벨된 문서에 포함된 텍스트를 하나의 텍스트로 통합하는 텍스트 통합부; 및
상기 하나의 텍스트를 하나 이상의 단어 및 상기 하나 이상의 단어에 대한 가중치를 포함하는 카테고리 프로파일 테이블로 인코딩하는 인코딩부
를 포함하는, 전자문서 자동 분류 장치
|
11 |
11
삭제
|
12 |
12
제9에 있어서,
상기 인코딩부는,
텍스트를 서브스트링으로 분리하여 토큰(token)을 생성하는 토큰 생성부;
상기 토큰을 원형(root)으로 변환하여 원형 단어를 생성하는 원형 생성부;
상기 문서 내의 접속사, 관사, 전치사, 대명사 중 적어도 하나를 포함하는 불사용어를 제거하는 불사용어 제거부; 및
상기 원형 단어에 대응하는 가중치를 할당하는 가중치 할당부
를 포함하는, 전자문서 자동 분류 장치
|