1 |
1
색인화 최소 단위 선택부에 의해, 전자화된 문서를 구성요소별로 구분하고 상기 구성요소 중에서 당해 문서의 색인화를 위한 최소 단위를 선택하며, 고유 번호 부여부에 의해, 상기 문서 및 상기 문서의 각 구성요소에 대해 고유 번호를 부여하는 단계;키워드 추출부에 의해, 상기 각 구성요소에 대해 키워드를 추출하는 단계;단말 노드 벡터 구성부에 의해, 상기 각 구성요소 중 단말 노드에 대해 추출된 키워드를 포함하는 구성요소 벡터(즉, 단말 노드 벡터)를 구성하는 단계;비단말 노드 벡터 구성부에 의해, 상기 각 구성요소 중 비단말 노드에 대해 추출된 키워드를 포함하는 구성요소 벡터(즉, 비단말 노드 벡터)를 구성하는 단계;미니 벡터 구성부에 의해, 상기 단말 노드 벡터 및 상기 비단말 노드 벡터로부터 빈도가 높은 순서대로 기설정된 소정 개수의 키워드만을 포함하는 구성요소 미니 벡터를 각 구성요소마다 구성하는 단계; 및질의문 검색부에 의해, 질의문으로부터 질의 벡터 및 질의 미니 벡터를 구성하고, 상기 질의 미니 벡터를 상기 문서의 각 구성요소마다의 미니 벡터와 비교하여 소정 개수의 구성요소를 선택한 후에, 상기 질의 벡터를 상기 선택된 소정 개수의 구성요소 벡터와 비교하여 유사도를 결정함으로써, 구성요소를 검색하는 단계를 포함하는 색인화 및 검색 방법
|
2 |
2
제1항에 있어서,상기 색인화를 위한 최소 단위를 선택하는 단계는,문서를 세분화하여 트리 형태로 나타내어 각 부분을 노드화하고, 이를 기준으로 단말 노드 및 비단말 노드로 구분한 후, 각각의 단말 노드를 최소 단위로 선택하는 색인화 및 검색 방법
|
3 |
3
제1항에 있어서,상기 키워드를 추출하는 단계는,형태소 분석 기법을 이용하여 키워드를 추출하며, 금칙어 및 불용어를 필터링하며, 상기 키워드 뿐만 아니라 각각의 키워드에 대한 빈도도 추출하는 색인화 및 검색 방법
|
4 |
4
제1항에 있어서, 상기 비단말 노드 벡터를 구성하는 단계에서,상기 비단말 노드 nk에 대한 구성요소 벡터는, 당해 비단말 노드 nk의 하위에 있는 단말 노드들에 대한 단말 노드 벡터의 합,즉, 비단말 노드의 자손인 단말 노드가 t개 있고, 각 벡터를 Vj라 하면인 색인화 및 검색 방법
|
5 |
5
제1항에 있어서, 상기 구성요소 미니 벡터를 구성하는 단계는,상기 구성요소 미니 벡터로 구성할 키워드의 수 m을 미리 설정하는 단계;빈도가 높은 순서대로 m개의 키워드를 선정하여 모든 단말 노드 및 비단말 노드에 대해 구성요소 미니 벡터를 구성하는 단계; 및상기 구성요소 미니 벡터를 데이터베이스에 저장하는 단계를 포함하는 색인화 및 검색 방법
|
6 |
6
제1항에 있어서, 상기 구성요소를 검색하는 단계는,상기 질의문에 대해 키워드를 추출하여 질의 벡터를 구성하는 단계;상기 질의 벡터로부터 소정 개수의 키워드만을 선정하여 질의 미니 벡터를 구성하는 단계; 상기 질의 미니 벡터와 상기 구성요소 미니 벡터를 비교하여, 유사도가 높은 순으로 또는 유사도 수치가 소정 이상인 것으로 P개의 구성요소를 선택하는 단계; 및상기 질의 벡터와 상기 P개의 구성요소의 구성요소 벡터를 비교하여, 유사도가 높은 순으로 또는 유사도 수치가 소정 이상인 것으로 R개(단, R≤P)의 구성요소를 선택하는 단계를 포함하는 색인화 및 검색 방법
|
7 |
7
제6항에 있어서, 상기 P개의 구성요소를 선택하는 단계 및 상기 R개의 구성요소를 선택하는 단계에서,벡터들 사이의 유사도 비교 기법은, 불리언 모델, 확장 불리언 모델, 유클리디언 공식, 및 코사인 공식 중의 하나 이상의 기법을 이용하는 것을 포함하는 색인화 및 검색 방법
|
8 |
8
제6항에 있어서,상기 질의 미니 벡터와 상기 구성요소 미니 벡터를 비교하여 상기 P개의 구성요소를 선택하는 단계에서, 하나의 문서에서는 최대 하나씩의 구성요소만을 선정하도록 설정되는 색인화 및 검색 방법
|
9 |
9
제1항 내지 제8항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
|
10 |
10
전자화된 문서를 구성요소별로 구분하고, 상기 구성요소 중에서 당해 문서의 색인화를 위한 최소 단위를 선택하는 색인화 최소 단위 선택부;상기 문서 및 상기 문서의 각 구성요소에 대해 고유 번호를 부여하는 고유 번호 부여부;상기 각 구성요소에 대해 키워드를 추출하는 키워드 추출부;상기 각 구성요소 중 단말 노드에 대해 추출된 키워드를 포함하는 구성요소 벡터(즉, 단말 노드 벡터)를 구성하는 단말 노드 벡터 구성부;상기 각 구성요소 중 비단말 노드에 대해 추출된 키워드를 포함하는 구성요소 벡터(즉, 비단말 노드 벡터)를 구성하는 비단말 노드 벡터 구성부;상기 단말 노드 벡터 및 상기 비단말 노드 벡터로부터 빈도가 높은 순서대로 기설정된 소정 개수의 키워드만을 포함하는 구성요소 미니 벡터를 각 구성요소마다 구성하는 미니 벡터 구성부; 및질의문으로부터 질의 벡터 및 질의 미니 벡터를 구성하고, 상기 질의 미니 벡터를 상기 문서의 각 구성요소마다의 미니 벡터와 비교하여 소정 개수의 구성요소를 선택한 후에, 상기 질의 벡터를 상기 선택된 소정 개수의 구성요소 벡터와 비교하여 유사도를 결정함으로써, 구성요소를 검색하는 질의문 검색부를 포함하는 색인화 및 검색 장치
|
11 |
11
제10항에 있어서,상기 색인화 최소 단위 선택부는,문서를 세분화하여 트리 형태로 나타내어 각 부분을 노드화하고, 이를 기준으로 단말 노드 및 비단말 노드로 구분한 후, 각각의 단말 노드를 최소 단위로 선택하는 색인화 및 검색 장치
|
12 |
12
제10항에 있어서,상기 키워드 추출부는,형태소 분석 기법을 이용하여 키워드를 추출하며, 금칙어 및 불용어를 필터링하며, 상기 키워드 뿐만 아니라 각각의 키워드에 대한 빈도도 추출하는 색인화 및 검색 장치
|
13 |
13
제10항에 있어서, 상기 비단말 노드 벡터 구성부에서,상기 비단말 노드 nk에 대한 구성요소 벡터는, 당해 비단말 노드 nk의 하위에 있는 단말 노드들에 대한 단말 노드 벡터의 합,즉, 비단말 노드의 자손인 단말 노드가 t개 있고, 각 벡터를 Vj라 하면인 색인화 및 검색 장치
|
14 |
14
제10항에 있어서, 상기 미니 벡터 구성부는,상기 구성요소 미니 벡터로 구성할 키워드의 수 m을 미리 설정하고,빈도가 높은 순서대로 m개의 키워드를 선정하여 모든 단말 노드 및 비단말 노드에 대해 구성요소 미니 벡터를 구성하고,상기 구성요소 미니 벡터를 데이터베이스에 저장하는 색인화 및 검색 장치
|
15 |
15
제10항에 있어서, 상기 질의문 검색부는,상기 질의문에 대해 키워드를 추출하여 질의 벡터를 구성하고,상기 질의 벡터로부터 소정 개수의 키워드만을 선정하여 질의 미니 벡터를 구성하고,상기 질의 미니 벡터와 상기 구성요소 미니 벡터를 비교하여, 유사도가 높은 순으로 또는 유사도 수치가 소정 이상인 것으로 P개의 구성요소를 선택하고,상기 질의 벡터와 상기 P개의 구성요소의 구성요소 벡터를 비교하여, 유사도가 높은 순으로 또는 유사도 수치가 소정 이상인 것으로 R개(단, R≤P)의 구성요소를 선택하는 색인화 및 검색 장치
|
16 |
16
제15항에 있어서, 상기 P개의 구성요소 선택 및 상기 R개의 구성요소 선택에 있어서, 벡터들 사이의 유사도 비교 기법은, 불리언 모델, 확장 불리언 모델, 유클리디언 공식, 및 코사인 공식 중의 하나 이상의 기법을 이용하는 것을 포함하는 색인화 및 검색 장치
|
17 |
17
제15항에 있어서,상기 질의 미니 벡터와 상기 구성요소 미니 벡터를 비교하여 상기 P개의 구성요소를 선택함에 있어서, 하나의 문서에서는 최대 하나씩의 구성요소만을 선정하도록 설정되는 색인화 및 검색 장치
|