1 |
1
사용자로부터 입력된 검색어를 기초로 제 1 키워드를 정의하고, 정형화된 항목을 가진 문서들로부터 상기 제 1 키워드를 포함하는 제 1 문서집합을 추출하는 문서 추출부;상기 추출된 제 1 문서집합에서 제 2 키워드를 추출하는 키워드 추출부, 상기 키워드 추출부는,상기 제 1 문서집합에 포함된 문서의 항목을 추출하고 상기 제 2 키워드를 추출할 후보항목을 선정하는 후보항목 선정모듈; 및상기 선정된 후보항목 내에서 어절 단위로 단어들을 분리하고, 상기 분리된 단어들에 포함된 어미 또는 조사의 문자열 길이를 기반으로 후보키워드를 추출하는 후보키워드 추출모듈, 상기 후보키워드 추출모듈은 상기 어미 또는 조사의 문자열 길이 정보가 포함된 제 1 데이터베이스를 기반으로 함; 을 포함함; 및상기 제 1 키워드와 상기 제 2 키워드가 조합된 조합 키워드를 생성하고, 상기 제 1 문서집합으로부터 상기 조합 키워드에 따라 비트 연산 기법을 기반으로 제 2 문서집합을 추출하는 재조합 추출부; 를 포함하는정형화된 항목을 가진 문서 분류 장치
|
2 |
2
제 1항에 있어서,상기 제 1 문서집합 및 상기 제 2 문서집합에 포함된 문서의 원문 파일로 접근할 수 있는 URL (Uniform Resource Locator)을 출력하는 출력부를 더 포함하는정형화된 항목을 가진 문서 분류 장치
|
3 |
3
제 1항에 있어서,상기 문서들은,학술문헌자료 또는 특허자료를 포함하는정형화된 항목을 가진 문서 분류 장치
|
4 |
4
제 1항에 있어서,상기 키워드 추출부는,상기 추출된 후보키워드 중에서 출현 빈도를 기초로 상기 제 2 키워드를 추출하는 키워드 추출모듈; 을 더 포함하는정형화된 항목을 가진 문서 분류 장치
|
5 |
5
제 4항에 있어서,상기 후보항목 선정모듈은 기 설정된 항목을 상기 후보항목으로 선정하는정형화된 항목을 가진 문서 분류 장치
|
6 |
6
제 4항에 있어서상기 후보키워드 추출모듈은,어미 또는 조사에 대한 정보가 저장된 상기 제 1 데이터베이스;불용어에 대한 정보가 저장된 제 2 데이터베이스; 및어미 또는 조사 분리 및 불용어 해당 여부 검사 없이 상기 후보키워드로 추출될 단어에 대한 정보가 저장된 제 3 데이터베이스;를 포함하는, 정형화된 항목을 가진 문서 분류 장치
|
7 |
7
제 1항에 있어서,상기 재조합 추출부는,상기 제 1 문서집합의 문서에 문서번호를 부여하고, 상기 문서번호를 기반으로 상기 제 1 키워드의 위치정보 및 상기 제 2 키워드의 위치정보를 비트 단위로 표현하는 비트 변환 모듈; 및 상기 제 1 키워드의 위치정보 및 상기 제 2 키워드의 위치정보를 이용하여, 상기 조합 키워드에 따른 상기 제 2 문서집합을 추출하는 비트 연산 추출모듈;을 포함하는 정형화된 항목을 가진 문서 분류 장치
|
8 |
8
사용자로부터 입력된 검색어를 기초로 제 1 키워드를 정의하고, 정형화된 항목을 가진 문서들로부터 상기 제 1 키워드를 포함하는 제 1 문서집합을 추출하는 단계;상기 추출된 제 1 문서집합에서 제 2 키워드를 추출하는 단계, 상기 제 2 키워드를 추출하는 단계는,상기 제 1 문서집합에 포함된 문서의 항목을 추출하고 상기 제 2 키워드를 추출할 후보항목을 선정하는 단계; 및상기 선정된 후보항목 내에서 어절 단위로 단어들을 분리하고, 상기 분리된 단어들에 포함된 어미 또는 조사의 문자열 길이를 기반으로 후보키워드를 추출하는 단계, 상기 후보키워드를 추출하는 단계는 상기 어미 또는 조사의 문자열 길이 정보가 포함된 제 1 데이터베이스를 기반으로 함; 를 포함함; 및상기 제 1 키워드와 상기 제 2 키워드가 조합된 조합 키워드를 생성하고, 상기 제 1 문서집합으로부터 상기 조합 키워드에 따라 비트 연산 기법을 기반으로 제 2 문서집합을 추출하는 단계; 를 포함하는정형화된 항목을 가진 문서 분류 방법
|
9 |
9
제 8항에 있어서, 상기 방법은,상기 제 1 문서집합 및 상기 제 2 문서집합에 포함된 문서의 원문 파일로 접근할 수 있는 URL (Uniform Resource Locator)을 출력하는 단계를 더 포함하는정형화된 항목을 가진 문서 분류 방법
|
10 |
10
제 8항에 있어서,상기 문서들은,학술문헌자료 또는 특허자료를 포함하는정형화된 항목을 가진 문서 분류 방법
|
11 |
11
제 8항에 있어서,상기 제 2 키워드를 추출하는 단계는,상기 추출된 후보키워드 중에서 출현 빈도를 기초로 상기 제 2 키워드를 추출하는 단계; 를 더 포함하는정형화된 항목을 가진 문서 분류 방법
|
12 |
12
제 11항에 있어서,상기 후보항목은 기 설정된 항목인정형화된 항목을 가진 문서 분류 방법
|
13 |
13
제 11항에 있어서,상기 후보키워드를 추출하는 단계는,어미 또는 조사에 대한 정보가 저장된 상기 제 1 데이터베이스, 불용어에 대한 정보가 저장된 제 2 데이터베이스 또는 어미 또는 조사 분리 및 불용어 해당 여부 검사 없이 상기 후보키워드로 추출될 단어에 대한 정보가 저장된 제 3 데이터베이스 중 하나 또는 그 이상을 참고하는,정형화된 항목을 가진 문서 분류 방법
|
14 |
14
제 8항에 있어서,상기 제 2 문서집합을 추출하는 단계는,상기 제 1 문서집합의 문서에 문서번호를 부여하고, 상기 문서번호를 기반으로 상기 제 1 키워드의 위치정보 및 상기 제 2 키워드의 위치정보를 비트 단위로 표현하는 단계; 및 상기 제 1 키워드의 위치정보 및 상기 제 2 키워드의 위치정보를 이용하여, 상기 조합 키워드에 따른 상기 제 2 문서집합을 추출하는 단계;를 포함하는 정형화된 항목을 가진 문서 분류 방법
|
15 |
15
사용자로부터 입력된 검색어를 기초로 제 1 키워드를 정의하고, 정형화된 항목을 가진 문서들로부터 상기 제 1 키워드를 포함하는 제 1 문서집합을 추출하고;상기 추출된 제 1 문서집합에서 제 2 키워드를 추출하고, 상기 제 2 키워드는,상기 제 1 문서집합에 포함된 문서의 항목을 추출하고 상기 제 2 키워드를 추출할 후보항목을 선정하고; 상기 선정된 후보항목 내에서 어절 단위로 단어들을 분리하고, 상기 분리된 단어들에 포함된 어미 또는 조사의 문자열 길이를 기반으로 후보키워드를 추출하고, 상기 후보키워드의 추출은 상기 어미 또는 조사의 문자열 길이 정보가 포함된 제 1 데이터베이스를 기반으로 하며;상기 제 1 키워드와 상기 제 2 키워드가 조합된 조합 키워드를 생성하고, 상기 제 1 문서집합으로부터 상기 조합 키워드에 따라 비트 연산 기법을 기반으로 제 2 문서집합을 추출하는;정형화된 항목을 가진 문서 분류 프로그램을 저장하는 컴퓨터 판독가능한 저장매체
|