1 |
1
다수의 텍스트 정보가 저장되는 텍스트 정보 DB와 2단계 n-gram 역색인이 저장되는 역색인 정보 DB를 포함한 데이터 베이스부;상기 데이터 베이스부에 저장된 텍스트 정보 DB를 관리하는 데이터 베이스 관리부; 및,상기 데이터 베이스 관리부와 연동하여 상기 데이터 베이스부의 역색인 정보 DB에 2단계 n-gram 역색인을 생성하고, 상기 2단계 n-gram 역색인을 사용하여 질의를 처리하는 서버를 포함하는 것을 특징으로 하는 2단계 n-gram 역색인을 구비한 색인 시스템
|
2 |
2
제 1 항에 있어서,상기 서버는 상기 2단계 n-gram 역색인을 생성하기 위한 색인 구성기와 상기 2단계 n-gram 역색인을 사용하여 질의를 처리하는 질의 처리기를 포함하는 것을 특징으로 하는 2단계 n-gram 역색인을 구비한 색인 시스템
|
3 |
3
제 1 항에 있어서,상기 2단계 n-gram 역색인은 문서로부터 추출된 서브시퀀스들을 용어로 사용하는 백-엔드 역색인, 및 상기 서브시퀀스로부터 추출된 n-gram들을 용어로 사용하는 프런트-엔드 역색인으로 된 것을 특징으로 하는 2단계 n-gram 역색인을 구비한 색인 시스템
|
4 |
4
제 3 항에 있어서,상기 백-엔드 역색인은 문서로부터 서로 일정 부분씩 겹치도록 추출된 소정 길이의 서브시퀀스들을 용어로서 사용하고, 각 서브시퀀스에 대한 포스팅 리스트에는 그 서브시퀀스가 문서상에서 나타난 위치 정보들을 저장하고,상기 프런트-엔드 역색인은 상기 서브시퀀스로부터 1-슬라이딩 방식으로 추출된 소정 길이의 n-gram들을 용어로서 사용하고, 각 n-gram에 대한 포스팅 리스트에는 그 n-gram이 서브시퀀스 상에서 나타난 위치 정보들을 저장하는 것을 특징으로 하는 2단계 n-gram 역색인을 구비한 색인 시스템
|
5 |
5
데이터베이스의 각 문서로부터 길이 m의 m-서브시퀀스들을 서로 일정 부분씩 겹치도록 추출하면서 m-서브시퀀스가 문서상에서 나타난 위치 정보들를 기록하는 제 1 단계; 상기 제 1 단계에서 기록한 각 위치 정보에 대해, 소정의 m-서브시퀀스가 소정 문서의 오프셋에서 나타났다면 상기 소정의 m-서브시퀀스에 해당하는 백-엔드 역색인의 용어에 대한 포스팅 리스트에 해당 포스팅을 추가하여 백-엔드 역색인을 구성하는 제 2 단계; 상기 제 1 단계에서 얻어진 m-서브시퀀스 집합의 각 m-서브시퀀스로부터 n-gram들을 추출하면서 n-gram이 m-서브시퀀스 상에서 나타난 위치 정보들을 기록하는 제 3 단계; 및 상기 제 3 단계에서 기록한 각 위치 정보에 대해, 소정의 n-gram이 소정의 m-서브시퀀스의 오프셋에서 나타났다면 상기 소정의 n-gram에 해당하는 프런트-엔드 역색인의 용어에 대한 포스팅 리스트에 해당 포스팅을 추가하여 프런트-엔드 역색인을 구성하는 제 4 단계; 로 이루어짐을 특징으로 하는 2단계 n-gram 역색인 구성방법
|
6 |
6
제 5 항에 있어서, 상기 제 1 단계에서는 상기 m-서브시퀀스들을 n-1(n : n-gram의 길이)씩 겹치도록 추출하는 것을 특징으로 하는 2단계 n-gram 역색인 구성방법
|
7 |
7
제 5 항에 있어서, 상기 제 1 단계에서는 마지막 m-서브시퀀스의 길이가 m보다 작을 경우, 문자열의 뒷부분에 공백 문자들을 덧붙여서 길이가 m이 되도록 하는 것을 특징으로 하는 2단계 n-gram 역색인 구성방법
|
8 |
8
제 5 항에 있어서, 상기 제 3 단계에서 상기 서브시퀀스로부터 n-gram들의 추출은 1-슬라이딩 방식으로 행하는 것을 특징으로 하는 2단계 n-gram 역색인 구성방법
|
9 |
9
문서로부터 추출된 서브시퀀스들을 용어로 사용하는 백-엔드 역색인 및 상기 서브시퀀스로부터 추출된 n-gram들을 용어로 사용하는 프런트-엔드 역색인을 사용하여 질의를 처리하는 방법에 있어서, 소정 질의를 n-gram들로 분할하는 제 1 단계; 상기 프런트-엔드 역색인을 사용하여 상기 제 1 단계에서 구한 각 n-gram들에 대한 포스팅 리스트들을 m-서브시퀀스 식별자로 머지-아우터-조인(merge-outer-join)하면서, 상기 질의를 커버 하는 m-서브시퀀스들을 소정 집합에 추가하는 제 2 단계; 및 상기 백-엔드 역색인을 사용하여 상기 제 2 단계에서 구한 소정 집합에 포함된 m-서브시퀀스들에 대한 포스팅 리스트들을 문서 식별자로 머지-아우터-조인하면서, 소정의 동일한 문서로부터 추출된 m-서브시퀀스들의 집합이 상기 질의를 포함하는지를 검사하여 질의에 포함되면 상기 소정의 동일한 문서를 질의 결과로 반환하는 제 3 단계; 로 이루어짐을 특징으로 하는 2단계 n-gram 역색인을 이용한 질의 처리 방법
|
10 |
10
제 9 항에 있어서, 상기 m-서브시퀀스가 질의를 커버하는지는 머지 아우터 조인되는 포스팅들이 가지고 있는 오프셋 정보를 이용하여 확인하는 것을 특징으로 하는 2단계 n-gram 역색인을 이용한 질의 처리 방법
|
11 |
11
제 9 항에 있어서, 상기 제 3 단계에서의 집합이 질의를 포함하는지는 머지 아우터 조인되는 포스팅들이 가지고 있는 오프셋 정보를 이용하여 확인하는 것을 특징으로 하는 2단계 n-gram 역색인을 이용한 질의 처리 방법
|
12 |
12
n-gram 역색인으로부터 프런트-엔드 역색인과 백-엔드 역색인으로 구성되는 역색인을 도출하는 방법에 있어서, n-gram 역색인을 제1정규형(1NF : First Normal Form)을 따르는 릴레이션으로 표현하는 제 1 단계; 상기 제 1 단계에서 구한 릴레이션에 의미 있는 다치 종속성으로 인한 위치 정보의 중복이 존재함을 확인하는 제 2 단계; 상기 제 2 단계에서 확인된 위치 정보의 중복을 제거하기 위해 상기 제 1 단계에서 구한 릴레이션을 제4정규형(4NF : Fourth Normal Form)을 따르도록 두 개의 릴레이션으로 분해하는 제 3 단계; 및 상기 제 3 단계에서 구한 두 개의 릴레이션을 각각 프런트-엔드 역색인과 백-엔드 역색인으로 표현하는 제 4 단계; 로 이루어짐을 특징으로 하는 2단계 n-gram 역색인 도출 방법
|