1 |
1
문서로부터 메타 데이터를 추출하는 메타 데이터 추출부, 상기 메타 데이터로부터 상기 문서의 메타 속성을 획득하고, 상기 메타 데이터를 이용하여 상기 문서에 포함된 각 단어에 대한 상기 문서 전체에서의 출현 빈도 및 상기 문서 내 위치에 따른 출현 빈도가 포함된 단어 속성을 획득하는 속성 획득부,상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행하는 기계 학습부, 및상기 메타 속성 및 상기 단어 속성에 대한 기계 학습 결과를 토대로 상기 문서의 분류 결과를 예측하는 예측부를 포함하며,상기 기계 학습부는, 서로 다른 복수의 기계 학습 모델을 통해 상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행하고, 상기 예측부는 상기 복수의 기계 학습 모델로부터 학습 결과들을 수신하고, 상기 복수의 기계 학습 모델로부터 수신된 학습 결과들을 융합하여 상기 문서의 분류 결과를 출력하는 문서 분류 시스템
|
2 |
2
삭제
|
3 |
3
제1항에 있어서,상기 예측부는 상기 복수의 기계 학습 모델로부터 수신된 학습 결과들을 앙상블 기법으로 융합하는 문서 분류 시스템
|
4 |
4
제1항에 있어서,로지스틱 회귀(logistic regression) 학습 알고리즘, 랜덤 포레스트(random forest) 학습 알고리즘, 나이브 베이즈(naive Bays) 학습 알고리즘 및 서포트 벡터 기계(support vector machine) 학습 알고리즘 중 적어도 하나를 이용하여 상기 복수의 기계 학습 모델을 생성하는 학습 모델 관리부를 더 포함하는 문서 분류 시스템
|
5 |
5
제4항에 있어서, 상기 기계 학습부는, 상기 메타 속성에 대해서는, 상기 로지스틱 회귀 학습 알고리즘 기반의 기계 학습 모델과 상기 랜덤 포레스트 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하고, 상기 단어 속성에 대해서는 상기 나이브 베이즈 학습 알고리즘 기반의 기계 학습 모델과 상기 서포트 벡터 기계 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하는 문서 분류 시스템
|
6 |
6
제4항에 있어서, 상기 학습 모델 관리부는,10-겹 교차 검증(10-fold cross validation) 및 격자 탐색(grid search)를 수행하여 상기 복수의 기계 학습 모델 각각의 초모수(hyperparameter)를 최적화하는 문서 분류 시스템
|
7 |
7
제4항에 있어서, 상기 학습 모델 관리부는,외부로부터 입력되는 제어 입력을 토대로, 상기 복수의 기계 학습 모델 각각의 예측 경계선을 조정하는 문서 분류 시스템
|
8 |
8
제1항에 있어서,상기 속성 획득부는, BoW(bag-of words) 기법으로 상기 각 단어의 상기 문서 전체에서의 출현 빈도를 획득하는 문서 분류 시스템
|
9 |
9
제1항에 있어서,상기 각 단어의 상기 문서 내 위치에 따른 출현 빈도는, 상기 각 단어의 상기 문서의 제목에서의 출현 빈도와 상기 문서의 본문에서의 출현 빈도를 포함하는 문서 분류 시스템
|
10 |
10
문서 분류 시스템의 문서 분류 방법에 있어서, 문서로부터 메타 데이터를 추출하는 단계, 상기 메타 데이터로부터 상기 문서의 메타 속성을 획득하는 단계,상기 메타 데이터를 이용하여, 상기 문서에 포함된 각 단어에 대해 상기 문서 전체에서의 출현 빈도 및 상기 문서 내 위치에 따른 출현 빈도를 포함하는 단어 속성을 획득하는 단계,상기 메타 속성 및 상기 단어 속성에 대한 기계 학습을 수행하는 단계, 및상기 메타 속성 및 상기 단어 속성에 대한 기계 학습 결과를 토대로 상기 문서의 분류 결과를 출력하는 단계를 포함하며,상기 기계 학습을 수행하는 단계는, 복수의 기계 학습 모델 중 상기 메타 속성에 대해 최적의 학습 모델로 설정된 적어도 하나의 기계 학습 모델을 이용하여 상기 메타 속성에 대한 기계 학습을 수행하는 단계, 및 상기 복수의 기계 학습 모델 중 상기 단어 속성에 대해 최적의 학습 모델로 설정된 적어도 하나의 기계 학습 모델을 이용하여 상기 단어 속성에 대한 기계 학습을 수행하는 단계를 포함하고, 상기 문서의 분류 결과를 출력하는 단계는, 상기 복수의 기계 학습 모델들로부터 출력되는 학습 결과들을 앙상블 기법으로 융합하여 상기 문서의 분류 결과를 출력하는 단계를 포함하는 문서 분류 방법
|
11 |
11
삭제
|
12 |
12
제10항에서,로지스틱 회귀(logistic regression) 학습 알고리즘, 랜덤 포레스트(random forest) 학습 알고리즘, 나이브 베이즈(naive Bays) 학습 알고리즘 및 서포트 벡터 기계(support vector machine) 학습 알고리즘 중 적어도 하나를 이용하여 상기 복수의 기계 학습 모델을 생성하는 단계,10-겹 교차 검증(10-fold cross validation) 및 격자 탐색(grid search)를 수행하여 상기 복수의 기계 학습 모델 각각의 초모수(hyperparameter)를 최적화하는 단계, 및외부로부터 입력되는 제어 입력을 토대로, 상기 복수의 기계 학습 모델 각각의 예측 경계선을 조정하는 단계를 더 포함하는 문서 분류 방법
|
13 |
13
제12항에 있어서, 상기 메타 속성에 기계 학습을 수행하는 단계는, 상기 로지스틱 회귀 학습 알고리즘 기반의 기계 학습 모델과 상기 랜덤 포레스트 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하는 단계를 포함하고, 상기 단어 속성에 대한 기계 학습을 수행하는 단계는,상기 단어 속성에 대해서는 상기 나이브 베이즈 학습 알고리즘 기반의 기계 학습 모델과 상기 서포트 벡터 기계 학습 알고리즘 기반의 기계 학습 모델을 이용하여 기계 학습을 수행하는 단계를 포함하는 문서 분류 방법
|
14 |
14
제13항에 있어서,상기 단어 속성을 획득하는 단계는, BoW(bag-of words) 기법으로 상기 각 단어의 상기 문서 전체에서의 출현 빈도를 획득하는 단계를 포함하는 문서 분류 방법
|