맞춤기술찾기

이전대상기술

2단계 n-gram 염색의 구조 및 그 구성 방법과 질의 처리 방법 및 그 색인 도출 방법

  • 기술번호 : KST2014007739
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 n-gram 역색인에 존재하는 위치 정보의 중복을 제거하여 n-gram에 비해 그 크기를 줄이고 질의 처리 성능을 향상시킬 수 있는 2단계 n-gram 역색인 구조 및 그 구성 방법과 질의 처리 방법 및 그 색인 도출 방법을 제공한다.본 발명의 역색인은 문서로부터 추출된 서브시퀀스들을 용어로 사용하는 백-엔드 역색인 및 상기 서브시퀀스로부터 추출된 n-gram들을 용어로 사용하는 프런트-엔드 역색인으로 구성되며,상기 백-엔드 역색인은 문서로부터 서로 n-1(n : n-gram의 길이)씩 겹치도록 추출된 소정 길이의 서브시퀀스들을 용어로서 사용하고, 각 서브시퀀스에 대한 포스팅 리스트에는 그 서브시퀀스가 문서상에서 나타난 위치 정보들을 저장하며, 상기 프런트-엔드 역색인은 상기 서브시퀀스로부터 1-슬라이딩 방식으로 추출된 소정 길이의 n-gram들을 용어로서 사용하고, 각 n-gram에 대한 포스팅 리스트에는 그 n-gram이 서브시퀀스 상에서 나타난 위치 정보들을 저장하는 것을 특징으로 한다. 역색인, n-gram, 데이터베이스, 문자열, 서브시퀀스, 프런트-엔드 역색인, 백-엔드 역색인
Int. CL G06F 17/30 (2006.01)
CPC
출원번호/일자 1020050078687 (2005.08.26)
출원인 한국과학기술원
등록번호/일자 10-0725664-0000 (2007.05.30)
공개번호/일자 10-2007-0024105 (2007.03.02) 문서열기
공고번호/일자 (20070608) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2005.08.26)
심사청구항수 12

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국과학기술원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 황규영 대한민국 대전광역시 유성구
2 김민수 대한민국 대전 유성구
3 이재길 대한민국 대전 유성구
4 이민재 대한민국 대전 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 이원희 대한민국 서울특별시 강남구 테헤란로 ***, 성지하이츠빌딩*차 ***호 (역삼동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한국과학기술원 대한민국 대전 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
2005.08.26 수리 (Accepted) 1-1-2005-0473684-34
2 선행기술조사의뢰서(내부)
Request for Prior Art Search (Inside)
2006.07.28 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2006.10.31 발송처리완료 (Completion of Transmission) 9-6-2006-0068014-35
4 의견제출통지서
Notification of reason for refusal
2006.11.08 발송처리완료 (Completion of Transmission) 9-5-2006-0657344-78
5 의견서
Written Opinion
2007.01.08 수리 (Accepted) 1-1-2007-0016153-30
6 명세서등보정서
Amendment to Description, etc.
2007.01.08 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2007-0016152-95
7 등록결정서
Decision to grant
2007.05.28 발송처리완료 (Completion of Transmission) 9-5-2007-0287516-35
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2013.02.01 수리 (Accepted) 4-1-2013-5019983-17
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.12.24 수리 (Accepted) 4-1-2014-5157968-69
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.12.24 수리 (Accepted) 4-1-2014-5157993-01
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.12.24 수리 (Accepted) 4-1-2014-5158129-58
12 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.04.24 수리 (Accepted) 4-1-2019-5081392-49
13 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.05.15 수리 (Accepted) 4-1-2020-5108396-12
14 출원인정보변경(경정)신고서
Notification of change of applicant's information
2020.06.12 수리 (Accepted) 4-1-2020-5131486-63
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
다수의 텍스트 정보가 저장되는 텍스트 정보 DB와 2단계 n-gram 역색인이 저장되는 역색인 정보 DB를 포함한 데이터 베이스부;상기 데이터 베이스부에 저장된 텍스트 정보 DB를 관리하는 데이터 베이스 관리부; 및,상기 데이터 베이스 관리부와 연동하여 상기 데이터 베이스부의 역색인 정보 DB에 2단계 n-gram 역색인을 생성하고, 상기 2단계 n-gram 역색인을 사용하여 질의를 처리하는 서버를 포함하는 것을 특징으로 하는 2단계 n-gram 역색인을 구비한 색인 시스템
2 2
제 1 항에 있어서,상기 서버는 상기 2단계 n-gram 역색인을 생성하기 위한 색인 구성기와 상기 2단계 n-gram 역색인을 사용하여 질의를 처리하는 질의 처리기를 포함하는 것을 특징으로 하는 2단계 n-gram 역색인을 구비한 색인 시스템
3 3
제 1 항에 있어서,상기 2단계 n-gram 역색인은 문서로부터 추출된 서브시퀀스들을 용어로 사용하는 백-엔드 역색인, 및 상기 서브시퀀스로부터 추출된 n-gram들을 용어로 사용하는 프런트-엔드 역색인으로 된 것을 특징으로 하는 2단계 n-gram 역색인을 구비한 색인 시스템
4 4
제 3 항에 있어서,상기 백-엔드 역색인은 문서로부터 서로 일정 부분씩 겹치도록 추출된 소정 길이의 서브시퀀스들을 용어로서 사용하고, 각 서브시퀀스에 대한 포스팅 리스트에는 그 서브시퀀스가 문서상에서 나타난 위치 정보들을 저장하고,상기 프런트-엔드 역색인은 상기 서브시퀀스로부터 1-슬라이딩 방식으로 추출된 소정 길이의 n-gram들을 용어로서 사용하고, 각 n-gram에 대한 포스팅 리스트에는 그 n-gram이 서브시퀀스 상에서 나타난 위치 정보들을 저장하는 것을 특징으로 하는 2단계 n-gram 역색인을 구비한 색인 시스템
5 5
데이터베이스의 각 문서로부터 길이 m의 m-서브시퀀스들을 서로 일정 부분씩 겹치도록 추출하면서 m-서브시퀀스가 문서상에서 나타난 위치 정보들를 기록하는 제 1 단계; 상기 제 1 단계에서 기록한 각 위치 정보에 대해, 소정의 m-서브시퀀스가 소정 문서의 오프셋에서 나타났다면 상기 소정의 m-서브시퀀스에 해당하는 백-엔드 역색인의 용어에 대한 포스팅 리스트에 해당 포스팅을 추가하여 백-엔드 역색인을 구성하는 제 2 단계; 상기 제 1 단계에서 얻어진 m-서브시퀀스 집합의 각 m-서브시퀀스로부터 n-gram들을 추출하면서 n-gram이 m-서브시퀀스 상에서 나타난 위치 정보들을 기록하는 제 3 단계; 및 상기 제 3 단계에서 기록한 각 위치 정보에 대해, 소정의 n-gram이 소정의 m-서브시퀀스의 오프셋에서 나타났다면 상기 소정의 n-gram에 해당하는 프런트-엔드 역색인의 용어에 대한 포스팅 리스트에 해당 포스팅을 추가하여 프런트-엔드 역색인을 구성하는 제 4 단계; 로 이루어짐을 특징으로 하는 2단계 n-gram 역색인 구성방법
6 6
제 5 항에 있어서, 상기 제 1 단계에서는 상기 m-서브시퀀스들을 n-1(n : n-gram의 길이)씩 겹치도록 추출하는 것을 특징으로 하는 2단계 n-gram 역색인 구성방법
7 7
제 5 항에 있어서, 상기 제 1 단계에서는 마지막 m-서브시퀀스의 길이가 m보다 작을 경우, 문자열의 뒷부분에 공백 문자들을 덧붙여서 길이가 m이 되도록 하는 것을 특징으로 하는 2단계 n-gram 역색인 구성방법
8 8
제 5 항에 있어서, 상기 제 3 단계에서 상기 서브시퀀스로부터 n-gram들의 추출은 1-슬라이딩 방식으로 행하는 것을 특징으로 하는 2단계 n-gram 역색인 구성방법
9 9
문서로부터 추출된 서브시퀀스들을 용어로 사용하는 백-엔드 역색인 및 상기 서브시퀀스로부터 추출된 n-gram들을 용어로 사용하는 프런트-엔드 역색인을 사용하여 질의를 처리하는 방법에 있어서, 소정 질의를 n-gram들로 분할하는 제 1 단계; 상기 프런트-엔드 역색인을 사용하여 상기 제 1 단계에서 구한 각 n-gram들에 대한 포스팅 리스트들을 m-서브시퀀스 식별자로 머지-아우터-조인(merge-outer-join)하면서, 상기 질의를 커버 하는 m-서브시퀀스들을 소정 집합에 추가하는 제 2 단계; 및 상기 백-엔드 역색인을 사용하여 상기 제 2 단계에서 구한 소정 집합에 포함된 m-서브시퀀스들에 대한 포스팅 리스트들을 문서 식별자로 머지-아우터-조인하면서, 소정의 동일한 문서로부터 추출된 m-서브시퀀스들의 집합이 상기 질의를 포함하는지를 검사하여 질의에 포함되면 상기 소정의 동일한 문서를 질의 결과로 반환하는 제 3 단계; 로 이루어짐을 특징으로 하는 2단계 n-gram 역색인을 이용한 질의 처리 방법
10 10
제 9 항에 있어서, 상기 m-서브시퀀스가 질의를 커버하는지는 머지 아우터 조인되는 포스팅들이 가지고 있는 오프셋 정보를 이용하여 확인하는 것을 특징으로 하는 2단계 n-gram 역색인을 이용한 질의 처리 방법
11 11
제 9 항에 있어서, 상기 제 3 단계에서의 집합이 질의를 포함하는지는 머지 아우터 조인되는 포스팅들이 가지고 있는 오프셋 정보를 이용하여 확인하는 것을 특징으로 하는 2단계 n-gram 역색인을 이용한 질의 처리 방법
12 12
n-gram 역색인으로부터 프런트-엔드 역색인과 백-엔드 역색인으로 구성되는 역색인을 도출하는 방법에 있어서, n-gram 역색인을 제1정규형(1NF : First Normal Form)을 따르는 릴레이션으로 표현하는 제 1 단계; 상기 제 1 단계에서 구한 릴레이션에 의미 있는 다치 종속성으로 인한 위치 정보의 중복이 존재함을 확인하는 제 2 단계; 상기 제 2 단계에서 확인된 위치 정보의 중복을 제거하기 위해 상기 제 1 단계에서 구한 릴레이션을 제4정규형(4NF : Fourth Normal Form)을 따르도록 두 개의 릴레이션으로 분해하는 제 3 단계; 및 상기 제 3 단계에서 구한 두 개의 릴레이션을 각각 프런트-엔드 역색인과 백-엔드 역색인으로 표현하는 제 4 단계; 로 이루어짐을 특징으로 하는 2단계 n-gram 역색인 도출 방법
지정국 정보가 없습니다
순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - 패밀리정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 JP04414989 JP 일본 FAMILY
2 JP19080259 JP 일본 FAMILY
3 US07792840 US 미국 FAMILY
4 US20070050384 US 미국 FAMILY

DOCDB 패밀리 정보

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - DOCDB 패밀리 정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 DE102006039484 DE 독일 DOCDBFAMILY
2 DE102006039484 DE 독일 DOCDBFAMILY
3 JP2007080259 JP 일본 DOCDBFAMILY
4 JP4414989 JP 일본 DOCDBFAMILY
5 US2007050384 US 미국 DOCDBFAMILY
6 US7792840 US 미국 DOCDBFAMILY
국가 R&D 정보가 없습니다.