1 |
1
다수의 문서 셋 중에서 전자 문서를 추출하고, 상기 추출된 전자 문서의 본문 내용을 추출하는 문서 추출 블록과,
상기 추출된 본문 내용에서 각 문장을 분리하는 문장 분리 블록과,
상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하고, 상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하고, 상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 중복 문서 판별 블록
을 포함하는 전자 문서 처리 장치
|
2 |
2
제 1 항에 있어서,
상기 중복 문서 판별 블록은,
상기 분리된 각 문장에 대해 상기 해쉬 알고리즘을 이용하여 상기 각 문장 내 각각의 문자들을 고유한 해쉬값으로 변환하는 해쉬 변환부와,
상기 변환된 해쉬값과 상기 문서 셋의 문장들에 대응하여 기 저장된 해쉬값을 비교하고, 해쉬값 충돌이 발생할 경우 상기 중복 문장으로 판단하는 중복 문장 판별부와,
상기 전자 문서에 대해 상기 중복 문장으로 판단된 중복 문장 비율값이 기 설정된 비율값을 초과하는 경우 상기 전자 문서를 중복 문서로 판단하는 중복 비율 비교부
를 포함하는 전자 문서 처리 장치
|
3 |
3
제 2 항에 있어서,
상기 중복 문장 판별부는, 상기 해쉬값 충돌이 발생하지 않은 미중복 문장을 해쉬 테이블화하여 저장하는 전자 문서 처리 장치
|
4 |
4
제 1 항 또는 제 2 항에 있어서,
상기 해쉬 알고리즘은, md5(message-digest algorithm 5)인 전자 문서 처리 장치
|
5 |
5
제 1 항 또는 제 2 항에 있어서,
상기 전자 문서는, HTML, TXT, DOC, HWP 중 어느 하나의 형태를 갖는 전자 문서 처리 장치
|
6 |
6
다수의 문서 셋 중에서 전자 문서를 추출하여 그 본문 내용을 추출하는 단계와,
상기 추출된 본문 내용에서 각 문장을 분리하는 단계와,
상기 분리된 각 문장에 대해 해쉬 알고리즘을 이용하여 고유한 해쉬값으로 변환하는 단계와,
상기 변환된 해쉬값과 기 저장된 해쉬값과의 충돌 여부에 따라 중복 문장 여부를 판단하는 단계와,
상기 전자 문서에 대한 중복 문장 비율에 따라 중복 문서 여부를 판단하는 단계
를 포함하는 전자 문서 처리 방법
|
7 |
7
제 6 항에 있어서,
상기 고유한 해쉬값으로 변환하는 단계는, 상기 분리된 각 문장에 대해 상기 해쉬 알고리즘을 이용하여 상기 각 문장 내 각각의 문자들을 고유한 해쉬값으로 변환하는 전자 문서 처리 방법
|
8 |
8
제 6 항에 있어서,
상기 중복 문장 여부를 판단하는 단계는, 상기 변환된 해쉬값과 상기 문서 셋의 문장들에 대응하여 기 저장된 해쉬값을 비교하고, 해쉬값 충돌이 발생할 경우 상기 중복 문장으로 판단하는 전자 문서 처리 방법
|
9 |
9
제 8 항에 있어서,
상기 중복 문서 여부를 판단하는 단계는, 상기 해쉬값 충돌이 발생하지 않은 미중복 문장을 해쉬 테이블화하여 저장하는 전자 문서 처리 방법
|
10 |
10
제 6 항에 있어서,
상기 중복 문서 여부를 판단하는 단계는, 상기 전자 문서에 대해 상기 중복 문장으로 판단된 중복 문장 비율값이 기 설정된 비율값을 초과하는 경우 상기 전자 문서를 중복 문서로 판단하는 전자 문서 처리 방법
|