맞춤기술찾기

이전대상기술

해시 기반 문서의 색인화 및 검색 방법 및 장치

  • 기술번호 : KST2014029521
  • 담당센터 :
  • 전화번호 :
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 전자화된 문서를 해시(hash) 기반으로 색인화(indexing) 및 검색할 수 있는 방법 및 장치에 관하여 개시한다. 본 발명의 실시 예에 따르면, 해시 기반의 인덱스인 시그니처(signature)를 이용하여 계층적 문서의 색인을 구축하여 질의 대 문서의 부분(어느 부분이라도 가능) 또는 문서의 부분 대 문서의 부분, 또는 문서 대 문서의 부분의 비교를 통한 검색을 가능하게 한다.
Int. CL G06F 17/00 (2006.01) G06F 17/30 (2006.01)
CPC G06F 17/30625(2013.01) G06F 17/30625(2013.01) G06F 17/30625(2013.01)
출원번호/일자 1020090109871 (2009.11.13)
출원인 동국대학교 산학협력단
등록번호/일자 10-0964207-0000 (2010.06.09)
공개번호/일자
공고번호/일자 (20100617) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2009.11.13)
심사청구항수 21

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 동국대학교 산학협력단 대한민국 서울특별시 중구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이용규 대한민국 서울특별시 노원구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 박국진 대한민국 서울특별시 강남구 언주로***, *층(논현동,시그너스빌딩)(두호특허법인)
2 노준태 대한민국 부산광역시 강서구 미음산단*로**번길**, *층***호(미음동,부산글로벌테크비즈센터)(두호특허법인(부산분사무소))

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 주식회사 인텐트시큐어 경기도 성남시 수정구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2009.11.13 수리 (Accepted) 1-1-2009-0699330-70
2 [우선심사신청]심사청구(우선심사신청)서
[Request for Preferential Examination] Request for Examination (Request for Preferential Examination)
2010.01.11 수리 (Accepted) 1-1-2010-0016075-60
3 [우선심사신청]선행기술조사의뢰서
[Request for Preferential Examination] Request for Prior Art Search
2010.01.12 수리 (Accepted) 9-1-9999-9999999-89
4 [우선심사신청]선행기술조사보고서
[Request for Preferential Examination] Report of Prior Art Search
2010.02.03 수리 (Accepted) 9-1-2010-0006364-24
5 의견제출통지서
Notification of reason for refusal
2010.03.31 발송처리완료 (Completion of Transmission) 9-5-2010-0135587-84
6 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2010.04.12 수리 (Accepted) 1-1-2010-0229658-18
7 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2010.04.12 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2010-0229663-36
8 등록결정서
Decision to grant
2010.06.01 발송처리완료 (Completion of Transmission) 9-5-2010-0236458-94
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2010.11.05 수리 (Accepted) 4-1-2010-5206478-99
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2011.12.06 수리 (Accepted) 4-1-2011-5243351-46
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.01.10 수리 (Accepted) 4-1-2014-0002002-62
12 [대리인선임]대리인(대표자)에 관한 신고서
[Appointment of Agent] Report on Agent (Representative)
2019.05.27 수리 (Accepted) 1-1-2019-0538761-04
13 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.08.16 수리 (Accepted) 4-1-2019-5163486-33
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
색인화 최소 단위 선택부에 의해, 전자화된 문서를 구성요소별로 구분하고 상기 구성요소 중에서 당해 문서의 색인화를 위한 최소 단위를 선택하고, 고유 번호 부여부에 의해, 상기 문서 및 상기 문서의 각 구성요소에 대해 고유 번호를 부여하는 단계; 키워드 추출부에 의해, 상기 각 구성요소에 대해 키워드를 추출하는 단계; 단말 노드 시그니처 구성부에 의해, 상기 각 구성요소 중 단말 노드에 대해 추출된 키워드에 대한 해시 정보를 포함하는 구성요소 시그니처(즉, 단말 노드 시그니처)를 구성하는 단계; 비단말 노드 시그니처 구성부에 의해, 상기 각 구성요소 중 비단말 노드에 대해 상기 단말 노드 시그니처로부터 구성요소 시그니처(즉, 비단말 노드 시그니처)를 구성하는 단계; 미니 시그니처 구성부에 의해, 상기 각 구성요소마다 빈도가 높은 순서대로소정 개수의 키워드에 대한 해시 정보만을 포함하는 구성요소 미니 시그니처를 구성하는 단계; 및 질의문 검색부에 의해, 질의문으로부터 질의 시그니처 및 질의 미니 시그니처를 구성하고, 상기 질의 미니 시그니처를 상기 각 문서의 각 구성요소의 미니 시그니처와 비교하여 소정 개수의 구성요소를 선택한 후에, 상기 질의 시그니처를 상기 선택된 소정 개수의 구성요소의 구성요소 시그니처와 비교하여 유사도를 결정함으로써, 구성요소를 검색하는 단계; 를 포함하는 색인화 및 검색 방법
2 2
제1항에 있어서, 상기 색인화를 위한 최소 단위를 선택하는 단계는, 문서를 세분화하여 트리 형태로 나타내어 각 부분을 노드화하고, 이를 기준으로 단말 노드 및 비단말 노드로 구분한 후, 각각의 단말 노드를 최소 단위로 선택하는 색인화 및 검색 방법
3 3
제1항에 있어서, 상기 키워드를 추출하는 단계는, 형태소 분석 기법을 이용하여 키워드와 키워드의 빈도를 추출하며, 금칙어 및 불용어를 필터링하는 색인화 및 검색 방법
4 4
제1항에 있어서, 상기 비단말 노드 시그니처를 구성하는 단계에서, 상기 비단말 노드 nk에 대한 구성요소 시그니처는, 당해 비단말 노드 nk의 모든 자손 단말 노드들에 대한 단말 노드 시그니처들끼리의 비트 OR 연산, 즉, 하기 수학식 연산의 결과인 색인화 및 검색 방법
5 5
제1항에 있어서, 상기 구성요소 미니 시그니처를 구성하는 단계는, 상기 구성요소 미니 시그니처로 구성할 키워드의 수 m을 미리 설정하는 단계; 빈도가 높은 순서대로 m개의 키워드를 선택하고 이들 m개의 키워드에 대한 해시 정보를 포함하여, 모든 단말 노드 및 비단말 노드에 대해 구성요소 미니 시그니처를 구성하는 단계; 및 상기 구성요소 미니 시그니처를 데이터베이스에 저장하는 단계 를 포함하는 색인화 및 검색 방법
6 6
제1항에 있어서, 상기 구성요소를 검색하는 단계는, 상기 질의문에 대해 키워드와 키워드의 빈도를 추출하여 질의 시그니처를 구성하는 단계; 상기 키워드와 키워드의 빈도로부터 선택된 소정 개수의 키워드에 대한 해시 정보만을 포함하여 질의 미니 시그니처를 구성하는 단계; 상기 질의 미니 시그니처와 상기 구성요소 미니 시그니처를 비교하여, 유사도가 높은 순으로 또는 유사도 수치가 소정 이상인 것으로 P개의 구성요소를 선택하는 단계; 및 상기 질의 시그니처와 상기 P개의 구성요소의 구성요소 시그니처를 비교하여, 유사도가 높은 순으로 또는 유사도 수치가 소정 이상인 것으로 R개(단, R≤P)의 구성요소를 선택하는 단계 를 포함하는 색인화 및 검색 방법
7 7
제6항에 있어서, 상기 P개의 구성요소를 선택하는 단계에서, P≥R+α (여기서, R은 최종 유사 구성요소로 선택할 구성요소의 수이고, α는 오선택(false drop)의 수임) 인 상기 P 개의 구성요소를 선택하는 색인화 및 검색 방법
8 8
제6항에 있어서, 상기 P개의 구성요소를 선택하는 단계 및 상기 R개의 구성요소를 선택하는 단계에서, 시그니처들 사이 또는 미니 시그니처들 사이의 유사도 비교는 비트 AND 연산의 결과에서 1로 세팅된 비트가 많을수록 유사도가 높다고 판단하는 것을 포함하는 색인화 및 검색 방법
9 9
제6항에 있어서, 상기 질의 미니 시그니처와 상기 구성요소 미니 시그니처를 비교하여 상기 P개의 구성요소를 선택하는 단계에서, 하나의 문서에서는 최대 하나씩의 구성요소만을 선택하도록 설정되는 색인화 및 검색 방법
10 10
제1항에 있어서, 상기 구성요소를 검색하는 단계에서, 상기 선택된 소정 개수의 구성요소에 오선택(false drop)에 의해 선택된 구성요소가 있는 경우, 상기 오선택에 의해 선택된 구성요소의 개수만큼 오선택이 아닌 후순위 구성요소로 대체하는 색인화 및 검색 방법
11 11
제1항 내지 제10항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
12 12
전자화된 문서를 구성요소별로 구분하고 상기 구성요소 중에서 당해 문서의 색인화를 위한 최소 단위를 선택하는 색인화 최소 단위 선택부; 상기 문서 및 상기 문서의 각 구성요소에 대해 고유 번호를 부여하는 고유 번호 부여부; 상기 각 구성요소에 대해 키워드를 추출하는 키워드 추출부; 상기 각 구성요소 중 단말 노드에 대해 추출된 키워드에 대한 해시 정보를 포함하는 구성요소 시그니처(즉, 단말 노드 시그니처)를 구성하는 단말 노드 시그니처 구성부; 상기 각 구성요소 중 비단말 노드에 대해 상기 단말 노드 시그니처로부터 구성요소 시그니처(즉, 비단말 노드 시그니처)를 구성하는 비단말 노드 시그니처 구성부; 상기 각 구성요소마다 빈도가 높은 순서대로 소정 개수의 키워드에 대한 해시 정보만을 포함하는 구성요소 미니 시그니처를 구성하는 미니 시그니처 구성부; 및 질의문으로부터 질의 시그니처 및 질의 미니 시그니처를 구성하고, 상기 질의 미니 시그니처를 상기 각 문서의 각 구성요소의 미니 시그니처와 비교하여 소정 개수의 구성요소를 선택한 후에, 상기 질의 시그니처를 상기 선택된 소정 개수의 구성요소의 구성요소 시그니처와 비교하여 유사도를 결정함으로써, 구성요소를 검색하는 질의문 검색부 를 포함하는 색인화 및 검색 장치
13 13
제12항에 있어서, 상기 색인화 최소 단위 선택부는, 문서를 세분화하여 트리 형태로 나타내어 각 부분을 노드화하고, 이를 기준으로 단말 노드 및 비단말 노드로 구분한 후, 각각의 단말 노드를 최소 단위로 선택하는 색인화 및 검색 장치
14 14
제12항에 있어서, 상기 키워드 추출부는, 형태소 분석 기법을 이용하여 키워드와 키워드의 빈도를 추출하며, 금칙어 및 불용어를 필터링하는 색인화 및 검색 장치
15 15
제12항에 있어서, 상기 비단말 노드 시그니처 구성부에서, 상기 비단말 노드 nk에 대한 구성요소 시그니처는, 당해 비단말 노드 nk의 모든 자손 단말 노드들에 대한 단말 노드 시그니처들끼리의 비트 OR 연산, 즉, 하기 수학식 연산의 결과인 색인화 및 검색 장치
16 16
제12항에 있어서, 상기 미니 시그니처 구성부는, 상기 구성요소 미니 시그니처로 구성할 키워드의 수 m을 미리 설정하고, 빈도가 높은 순서대로 m개의 키워드를 선택하고 이 m개의 키워드에 대한 해시 정보를 포함하여, 모든 단말 노드 및 비단말 노드에 대해 구성요소 미니 시그니처를 구성하고, 상기 구성요소 미니 시그니처를 데이터베이스에 저장하는 색인화 및 검색 장치
17 17
제12항에 있어서, 상기 질의문 검색부는, 상기 질의문에 대해 키워드와 키워드의 빈도를 추출하여 질의 시그니처를 구성하고, 상기 상기 키워드와 키워드의 빈도로부터 선택된 소정 개수의 키워드에 대한 해시 정보만을 포함하여 질의 미니 시그니처를 구성하고, 상기 질의 미니 시그니처와 상기 구성요소 미니 시그니처를 비교하여, 유사도가 높은 순으로 또는 유사도 수치가 소정 이상인 것으로 P개의 구성요소를 선택하고, 상기 질의 시그니처와 상기 P개의 구성요소의 구성요소 시그니처를 비교하여, 유사도가 높은 순으로 또는 유사도 수치가 소정 이상인 것으로 R개(단, R≤P)의 구성요소를 선택하는 색인화 및 검색 장치
18 18
제17항에 있어서, 상기 질의문 검색부가 P개의 구성요소를 선택할 때, P≥R+α (여기서, R은 최종 유사 구성요소로 선택할 구성요소의 수이고, α는 오선택(false drop)의 수임)인 P 개의 구성요소를 선택하는 색인화 및 검색 장치
19 19
제17항에 있어서, 상기 P개의 구성요소 선택 및 상기 R개의 구성요소 선택에 있어서, 시그니처들 사이 또는 미니 시그니처들 사이의 유사도 비교는, 비트 AND 연산의 결과에서 1로 세팅된 비트가 많을수록 유사도가 높다고 판단하는 것을 포함하는 색인화 및 검색 장치
20 20
제17항에 있어서, 상기 질의 미니 시그니처와 상기 구성요소 미니 시그니처를 비교하여 상기 P개의 구성요소를 선택할 때, 하나의 문서에서는 최대 하나씩의 구성요소만을 선택하도록 설정되는 색인화 및 검색 장치
21 21
제12항에 있어서, 상기 질의문 검색부는, 상기 선택된 소정 개수의 구성요소에 오선택(false drop)에 의해 선택된 구성요소가 있는 경우, 상기 오선택에 의해 선택된 구성요소의 개수만큼 오선택이 아닌 후순위 구성요소로 대체하는 색인화 및 검색 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.