1 |
1
적어도 하나의 문서 각각에 관해 적어도 하나의 토큰을 포함하는 토큰 집합을 추출하고 N개(상기 N은 자연수)의 해시 함수 각각을 상기 적어도 하나의 토큰에 적용하여 N 개의 해시 코드를 생성함으로써, 적어도 하나의 문서 인덱스를 생성하는 문서 인덱스 생성부;자카드 모델(Jaccard model)을 기초로 상기 적어도 하나의 문서 인덱스 각각과 주어진 문서 간의 유사도를 산출하여 정규화 하는 문서 유사도 산출부; 및 상기 유사도를 기초로 상기 적어도 하나의 문서 인덱스와의 유사성 순위를 결정하는 유사성 순위 결정부를 포함하는 자카드 모델 기반의 문서 검색 장치
|
2 |
2
제1항에 있어서, 상기 문서 인덱스 생성부는상기 적어도 하나의 토큰에 관해 유사도 기반의 임베딩(Embedding)을 수행하여 상기 적어도 하나의 토큰을 토큰 벡터로 변환하는 것을 특징으로 하는 자카드 모델 기반의 문서 검색 장치
|
3 |
3
제1항에 있어서, 상기 문서 인덱스 생성부는상기 적어도 하나의 문서에 대한 N-gram 기반의 슁글링 연산(shingling operation)을 수행하여 상기 토큰 집합을 생성하는 것을 특징으로 하는 유사도 스코어 정규화 기반의 검색 장치
|
4 |
4
제1항에 있어서, 상기 유사도 산출부는상기 주어진 문서를 기초로 상기 적어도 하나의 문서 인덱스 각각에 대한 부스트 기반의 IDF(Inverse Document Frequency)를 산출하여 상기 유사도를 결정하는 것을 특징으로 하는 유사도 스코어 정규화 기반의 검색 장치
|
5 |
5
제4항에 있어서, 상기 유사도 산출부는상기 주어진 문서에 있는 중요 토큰을 산별하고 상기 중요 토큰의 출현 횟수를 기초로 부스트 값을 결정하는 것을 특징으로 하는 유사도 스코어 정규화 기반의 검색 장치
|
6 |
6
제5항에 있어서, 상기 유사도 산출부는상기 부스트 값을 IDF 값 및 tfNorm(Term Frequency Normalization) 값에 적용하여 상기 유사도를 산출하는 것을 특징으로 하는 유사도 스코어 정규화 기반의 검색 장치
|
7 |
7
제4항에 있어서, 상기 유사도 산출부는자카드 지수(Jaccard Index) 또는 자카드 컨테인먼트(Jaccard containment)를 기초로 상기 유사도를 정규화하는 것을 특징으로 하는 유사도 스코어 정규화 기반의 검색 장치
|
8 |
8
제1항에 있어서, 상기 유사성 순위 결정부는사용자 제어를 통해 상기 유사도 만으로 상기 유사성 순위를 결정하거나 또는 산출된 상기 유사도와 정규화된 상기 유사도를 기초로 상기 유사성 순위를 결정하는 것을 특징으로 하는 유사도 스코어 정규화 기반의 검색 장치
|
9 |
9
제8항에 있어서, 상기 유사성 순위 결정부는산출된 상기 유사도와 정규화된 상기 유사도를 기초로 상기 유사성 순위를 결정하는 과정에서, 정규화된 상기 유사도에 가중치를 부가하여 상기 유사성 순위를 조절하는 것을 특징으로 하는 유사도 스코어 정규화 기반의 검색 장치
|
10 |
10
적어도 하나의 문서 각각에 관해 적어도 하나의 토큰을 포함하는 토큰 집합을 추출하고 N개(상기 N은 자연수)의 해시 함수 각각을 상기 적어도 하나의 토큰에 적용하여 N 개의 해시 코드를 생성함으로써, 적어도 하나의 문서 인덱스를 생성하는 단계;자카드 모델을 기초로 상기 적어도 하나의 문서 인덱스 각각과 주어진 문서 간의 유사도를 산출하여 정규화 하는 단계; 및상기 유사도를 기초로 상기 적어도 하나의 문서 인덱스와의 유사성 순위를 결정하는 단계를 포함하는 유사도 스코어 정규화 기반의 검색 방법
|