1 |
1
문서에서 적어도 하나의 토큰을 포함하는 토큰 집합을 추출하는 토큰 집합 추출부;N개(상기 N은 자연수)의 해시 함수 각각을 상기 적어도 하나의 토큰에 적용하여 N 개의 해시 코드를 생성하는 해시 코드 생성부; 및상기 N 개의 해시 코드로 상기 문서에 대한 인덱싱을 수행하여 검색용 인덱스를 생성하는 인덱스 생성부를 포함하는 해시 코드 기반의 검색 장치
|
2 |
2
제1항에 있어서, 상기 토큰 집합 추출부는상기 문서에 대한 N-gram 기반의 슁글링 연산(shingling operation)을 수행하여 상기 적어도 하나의 토큰을 생성하는 것을 특징으로 하는 해시 코드 기반의 검색 장치
|
3 |
3
제1항에 있어서, 상기 토큰 집합 추출부는상기 문서에 대한 N-gram 기반의 슁글링 연산을 수행하여 상기 적어도 하나의 토큰을 생성하고 중복되는 토큰 뒤에 숫자를 붙여 유지시키는 것을 특징으로 하는 해시 코드 기반의 검색 장치
|
4 |
4
제1항에 있어서, 상기 토큰 집합 추출부는상기 문서에 대한 N-gram 기반의 슁글링 연산을 수행하여 상기 적어도 하나의 토큰을 생성하고 중복되는 토큰을 제거하는 것을 특징으로 하는 해시 코드 기반의 검색 장치
|
5 |
5
제1항에 있어서, 상기 해시 코드 생성부는상기 N 개의 해시 함수를 결정하고, 상기 N 개의 해시 함수 중 하나를 상기 적어도 하나의 토큰에 적용하여 하나의 해시 코드를 생성하는 것을 특징으로 하는 해시 코드 기반의 검색 장치
|
6 |
6
제5항에 있어서, 상기 해시 코드 생성부는상기 문서의 유형을 기초로 해시 함수 모집단에서 상기 N 개의 해시 함수를 선택하는 것을 특징으로 하는 해시 코드 기반의 검색 장치
|
7 |
7
제1항에 있어서, 상기 해시 코드 생성부는상기 N 개의 해시 함수 각각을 최소 해시 함수(MinHash function)로 구성하여 각각이 상기 적어도 하나의 토큰을 입력 받아 가장 작은 값을 가지는 최소 값을 상기 해시 코드로 결정하는 것을 특징으로 하는 해시 코드 기반의 검색 장치
|
8 |
8
제1항에 있어서, 상기 인덱스 생성부는상기 N 개의 해시 코드를 고정된 크기의 인덱스 집합으로 구성하여 상기 문서의 인덱스 저장 용량을 감소시키는 것을 특징으로 하는 해시 코드 기반의 검색 장치
|
9 |
9
제1항에 있어서,검색어를 입력 받고 상기 검색어와 상기 검색용 인덱스 간의 유사도를 기초로 상기 문서를 검색하는 문서 검색부를 더 포함하는 것을 특징으로 하는 해시 코드 기반의 검색 장치
|
10 |
10
제1항에 있어서, 상기 해시 코드 기반의 검색 장치는상기 문서를 악성코드로 수신하여 상기 검색용 인덱스를 악성코드 용 인덱스로 생성하는 것을 특징으로 하는 해시 코드 기반의 검색 장치
|
11 |
11
문서에서 적어도 하나의 토큰을 포함하는 토큰 집합을 추출하는 단계;N개(상기 N은 자연수)의 해시 함수 각각을 상기 적어도 하나의 토큰에 적용하여 N 개의 해시 코드를 생성하는 단계; 및상기 N 개의 해시 코드로 상기 문서에 대한 인덱싱을 수행하여 검색용 인덱스를 생성하는 단계를 포함하는 해시 코드 기반의 검색 방법
|