1 |
1
컴퓨팅 장치에 의해 수행되는 문자열 검색 방법으로서, 질의 문자열을 수신하는 단계,상기 질의 문자열에 대응하는 문자열 세트에서 후보 문자열 세트를 추출하는 단계,상기 후보 문자열 세트와 상기 질의 문자열 간의 유사도를 산출하는 단계, 및산출된 상기 유사도가 역치 이상인 문자열을 포함하는 결과 문자열 세트를 반환하는 단계를 포함하는,문자열 검색 방법
|
2 |
2
제 1항에서,상기 문자열 세트는,상기 질의 문자열 및 역색인에 기초하여 문자열 데이터베이스로부터 추출되는,문자열 검색 방법
|
3 |
3
제 2항에서,상기 역색인은,상기 문자열 데이터베이스 및 동의어 규칙에 기초하여 생성되며, 토큰(token)을 키(key)로 가지고, 상기 문자열 데이터베이스에 포함되는 제 1 문자열이 상기 토큰을 포함하는 경우 상기 제 1 문자열에 관한 정보, 그리고 상기 문자열 데이터베이스에 포함되는 제 2 문자열을 상기 동의어 규칙에 따라 변환한 제 1 변환 문자열이 상기 토큰을 포함하는 경우 상기 제 2 문자열에 관한 정보 중 적어도 하나를 값(value)으로 가지는,문자열 검색 방법
|
4 |
4
제 3항에서,상기 문자열 세트는,상기 질의 문자열을 상기 동의어 규칙에 따라 변환한 변환 질의 문자열에 포함되는 하나 이상의 토큰들 각각에 대한 역색인을 이용하여 생성되는 해시 테이블에서, 상기 해시 테이블의 키 값들 각각에 대응되는 하나 이상의 문자열들로 구성되는,문자열 검색 방법
|
5 |
5
제 1항에 있어서, 상기 후보 문자열 세트를 추출하는 단계는, 상기 질의 문자열을 동의어 규칙에 따라 변환한 변환 질의 문자열을 사용하는 질의 변환 알고리즘에 따라, 상기 문자열 세트에서 제 1 문자열 서브세트를 추출하는 단계를 포함하는,문자열 검색 방법
|
6 |
6
제 5항에 있어서,상기 제 1 문자열 서브세트를 추출하는 단계는,제 1 문자열 개수 기반 필터링에 따라, 상기 문자열 세트에서 제 1 문자열 서브세트를 추출하는 단계를 포함하고,상기 제 1 문자열 개수 기반 필터링은,상기 변환 질의 문자열과 상기 문자열 세트에 포함된 대상 문자열에 공통으로 포함되는 토큰의 개수가 임계값보다 작을 경우, 상기 대상 문자열이 상기 제 1 문자열 서브세트에서 제외되도록 필터링하는,문자열 검색 방법
|
7 |
7
제 5항에 있어서,상기 제 1 문자열 서브세트를 추출하는 단계는,상기 제 1 문자열 서브세트에 포함된 하나 이상의 문자열 각각의 부분문자열로 구성된 제 1 부분문자열 세트에서, 제 1 부분문자열 개수 기반 필터링, 제 1 길이 기반 필터링, 및 제 1 위치 기반 필터링 중 적어도 하나에 따라, 제 1 후보 문자열 세트를 추출하는 단계를 더 포함하는,문자열 검색 방법
|
8 |
8
제 7항에 있어서,상기 제 1 부분문자열 개수 기반 필터링은,상기 변환 질의 문자열과 상기 제 1 부분문자열 세트에 포함된 대상 부분문자열에 공통으로 포함되는 토큰의 개수가 임계값보다 작을 경우, 상기 대상 부분문자열이 상기 제 1 후보 문자열 세트에서 제외되도록 필터링하는,문자열 검색 방법
|
9 |
9
제 7항에 있어서,상기 제 1 길이 기반 필터링은,상기 제 1 부분문자열 세트에 포함된 대상 부분문자열의 길이가 상기 변환 질의 문자열의 길이에 따라 결정되는 임계 범위를 벗어나는 경우, 상기 대상 부분문자열이 상기 제 1 후보 문자열 세트에서 제외되도록 필터링하는,문자열 검색 방법
|
10 |
10
제 7항에 있어서,상기 제 1 위치 기반 필터링은,상기 제 1 부분문자열 세트에 포함된 대상 부분문자열의 양 끝의 토큰이 상기 변환 질의 문자열에 포함되지 않는 경우, 상기 대상 부분문자열이 상기 제 1 후보 문자열 세트에서 제외되도록 필터링하는,문자열 검색 방법
|
11 |
11
제 7항에 있어서,상기 후보 문자열 세트와 상기 질의 문자열 간의 유사도를 산출하는 단계는,상기 제 1 후보 문자열 세트에 포함된 하나 이상의 부분문자열 각각과 상기 변환 질의 문자열 간의 질의 변환 유사도를 산출하는 단계를 포함하고,상기 질의 변환 유사도는,상기 변환 질의 문자열 및 상기 제 1 후보 문자열 세트에 포함된 대상 부분문자열의 전체 토큰들 중 상기 변환 질의 문자열과 상기 대상 부분문자열에 공통으로 포함되는 토큰의 비율인,문자열 검색 방법
|
12 |
12
제 7항에 있어서,산출된 상기 유사도가 역치 이상인 문자열을 포함하는 결과 문자열 세트를 반환하는 단계는,상기 제 1 후보 문자열 세트에 포함된 대상 부분문자열에 대하여 산출된 상기 질의 변환 유사도가 상기 역치 이상인 경우, 대상 부분문자열을 포함하는 문자열을 상기 결과 문자열 세트로 반환하는 단계를 포함하는문자열 검색 방법,
|
13 |
13
제 1항에 있어서, 상기 후보 문자열 세트를 추출하는 단계는, 상기 문자열 세트에 포함된 하나 이상의 문자열 각각을 동의어 규칙에 따라 변환한 변환 문자열을 사용하는 데이터 변환 알고리즘에 따라, 상기 문자열 세트에서 제 2 문자열 서브세트를 추출하는 단계를 포함하는,문자열 검색 방법
|
14 |
14
제 13항에 있어서,상기 제 2 문자열 서브세트를 추출하는 단계는,제 2 문자열 개수 기반 필터링에 따라, 상기 문자열 세트에서 제 2 문자열 서브세트를 추출하는 단계를 포함하고,상기 제 2 문자열 개수 기반 필터링은,상기 문자열 세트에 포함된 대상 문자열이 상기 동의어 규칙에 따라 변환된 변환 대상 문자열과, 상기 질의 문자열에 공통으로 포함되는 토큰의 개수가 임계값보다 작을 경우, 상기 대상 문자열이 상기 제 2 문자열 서브세트에서 제외되도록 필터링하는, 문자열 검색 방법
|
15 |
15
제 13항에 있어서,상기 제 2 문자열 서브세트를 추출하는 단계는,상기 제 2 문자열 서브세트에 포함된 하나 이상의 문자열 각각의 부분문자열로 구성된 제 2 부분문자열 세트에서, 제 2 부분문자열 개수 기반 필터링, 제 2 길이 기반 필터링, 및 제 2 위치 기반 필터링 중 적어도 하나에 따라, 제 2 후보 문자열 세트를 추출하는 단계를 더 포함하는,문자열 검색 방법
|
16 |
16
제 15항에 있어서,상기 제 2 후보 문자열 세트를 추출하는 단계는,제 2 부분문자열 개수 기반 필터링에 따라, 상기 제 2 부분문자열 세트에서 상기 제 2 후보 문자열 세트를 추출하는 단계를 포함하고,상기 제 2 부분문자열 개수 기반 필터링은,상기 제 2 부분문자열 세트에 포함된 대상 부분문자열이 상기 동의어 규칙에 따라 변환된 변환 대상 부분문자열과, 상기 질의 문자열에 공통으로 포함되는 토큰의 개수가 임계값보다 작을 경우, 상기 대상 부분문자열이 상기 제 2 후보 문자열 세트에서 제외되도록 필터링하는, 문자열 검색 방법
|
17 |
17
제 15항에 있어서,상기 제 2 후보 문자열 세트를 추출하는 단계는,제 2 길이 기반 필터링에 따라, 상기 제 2 부분문자열 세트에서 상기 제 2 후보 문자열 세트를 추출하는 단계를 포함하고,상기 제 2 길이 기반 필터링은,상기 제 2 부분문자열 세트에 포함된 대상 부분문자열이 상기 동의어 규칙에 따라 변환된 변환 대상 부분문자열의 길이가 상기 질의 문자열의 길이에 따라 결정되는 임계 범위를 벗어나는 경우, 상기 대상 부분문자열이 상기 제 2 후보 문자열 세트에서 제외되도록 필터링하는,문자열 검색 방법
|
18 |
18
제 15항에 있어서,상기 제 2 후보 문자열 세트를 추출하는 단계는,제 2 위치 기반 필터링에 따라, 상기 제 2 부분문자열 세트에서 상기 제 2 후보 문자열 세트를 추출하는 단계를 포함하고,상기 제 2 위치 기반 필터링은,상기 제 2 부분문자열 세트에 포함된 대상 부분문자열의 양 끝의 토큰 중 적어도 하나를 상기 동의어 규칙에 따라 변환한 변환 대상 부분문자열의 양 끝의 토큰이 상기 질의 문자열에 포함되지 않는 경우, 상기 대상 부분문자열이 상기 제 2 후보 문자열 세트에서 제외되도록 필터링하는, 문자열 검색 방법
|
19 |
19
제 15항에 있어서,상기 후보 문자열 세트와 상기 질의 문자열 간의 유사도를 산출하는 단계는,상기 제 2 후보 문자열 세트에 포함된 하나 이상의 부분문자열 각각을 상기 동의어 규칙에 따라 변환한 변환 부분문자열과 상기 질의 문자열 간의 데이터 변환 유사도를 산출하는 단계를 포함하고,상기 데이터 변환 유사도는,상기 제 2 후보 문자열 세트에 포함된 대상 부분문자열을 상기 동의어 규칙에 따라 변환한 변환 대상 부분문자열과 상기 질의 문자열의 전체 토큰들 중 상기 질의 문자열과 상기 변환 대상 부분문자열에 공통으로 포함되는 토큰의 비율인,문자열 검색 방법
|
20 |
20
제 15항에 있어서,산출된 상기 유사도가 역치 이상인 문자열을 포함하는 결과 문자열 세트를 반환하는 단계는,상기 변환 대상 부분문자열에 대하여 산출된 상기 데이터 변환 유사도가 상기 역치 이상인 경우, 상기 변환 대상 부분문자열에 대응되는 상기 대상 부분문자열을 포함하는 문자열을 상기 결과 문자열 세트로 반환하는 단계를 포함하는,문자열 검색 방법
|