1 |
1
다수의 문서 각각의 텍스트를 엔그램으로 변환하고, 상기 엔그램을 이용하여 다수의 해시정수의 히스토그램을 산출하는 데이터 산출부와;상기 다수의 해시정수의 히스토그램을 저장하여 데이터베이스화 하는 저장부와;상기 저장부의 상기 다수의 해시정수의 히스토그램으로부터 문서거리를 산출하고, 상기 문서거리를 이용하여 상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 유사 판별부를 포함하고,상기 데이터 산출부는,상기 다수의 문서 각각으로부터 상기 텍스트를 추출하는 텍스트 추출부와;상기 텍스트를 상기 엔그램으로 변환하는 엔그램 변환부와;상기 엔그램을 해시함수에 따라 해시정수로 변환하는 해시정수 변환부와;상기 해시정수로부터 빈도정보를 추출하는 빈도정보 추출부와;상기 빈도정보를 이용하여 상기 다수의 해시정수의 히스토그램을 산출하는 히스토그램 산출부를 포함하고,상기 해시함수는, 상기 텍스트에 대응되는 유니코드값들을 서로 더하는 연산(C_i + C_{i+1}) 또는 상기 텍스트에 대응되는 유니코드값들을 서로 빼는 연산(C_i - C_{i+1})인 유사문서 판별장치
|
2 |
2
삭제
|
3 |
3
삭제
|
4 |
4
제 1 항에 있어서, 상기 엔그램은 다수의 그램요소를 포함하고,상기 해시정수는 상기 해시함수에 따라 상기 다수의 그램요소에 대응되는 다수의 해시정수값을 포함하고,상기 빈도정보는 상기 다수의 해시정수값 각각이 상기 텍스트 전체에서 발생한 횟수에 대한 정보인 유사문서 판별장치
|
5 |
5
제 1 항에 있어서, 상기 유사 판별부는,상기 다수의 해시정수의 히스토그램 중 적어도 2개로부터 상기 문서거리를 산출하는 문서거리 산출부와;상기 문서거리를 미리 결정된 임계거리와 비교하여 유사여부를 판단하는 판단부를 포함하는 유사문서 판별장치
|
6 |
6
데이터 산출부가 다수의 문서 각각의 텍스트를 엔그램으로 변환하는 단계와;상기 데이터 산출부가 상기 엔그램을 이용하여 다수의 해시정수의 히스토그램을 산출하는 단계와;저장부가 상기 다수의 해시정수의 히스토그램을 저장하여 데이터베이스화 하는 단계와;유사 판별부가 상기 다수의 해시정수의 히스토그램으로부터 문서거리를 산출하는 단계와;상기 유사 판별부가 상기 문서거리를 이용하여 상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 단계를 포함하고, 상기 텍스트를 상기 엔그램으로 변환하는 단계는, 상기 데이터 산출부의 텍스트 추출부가 상기 다수의 문서 각각으로부터 상기 텍스트를 추출하는 단계를 포함하고,상기 다수의 해시정수의 히스토그램을 산출하는 단계는, 상기 데이터 산출부의 해시정수 변환부가 상기 엔그램을 해시함수에 따라 해시정수로 변환하는 단계와;상기 데이터 산출부의 빈도정보 추출부가 상기 해시정수로부터 빈도정보를 추출하는 단계와; 상기 데이터 산출부의 히스토그램 산출부가 상기 빈도정보를 이용하여 상기 다수의 해시정수의 히스토그램을 산출하는 단계를 포함하고,상기 해시함수는, 상기 텍스트에 대응되는 유니코드값들을 서로 더하는 연산(C_i + C_{i+1}) 또는 상기 텍스트에 대응되는 유니코드값들을 서로 빼는 연산(C_i - C_{i+1})인 유사문서 판별방법
|
7 |
7
삭제
|
8 |
8
삭제
|
9 |
9
삭제
|
10 |
10
제 6 항에 있어서, 상기 다수의 문서 중 적어도 2개의 유사여부를 판별하는 단계는, 상기 유사 판별부의 문서거리 산출부가 상기 다수의 해시정수의 히스토그램 중 적어도 2개로부터 상기 문서거리를 산출하는 단계와;상기 유사 판별부의 판단부가 상기 문서거리를 미리 결정된 임계거리와 비교하여 유사여부를 판단하는 단계를 포함하는 유사문서 판별방법
|