1 |
1
정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계;추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계;분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함하며,상기 단일 문서의 특징은 문서의 길이, 문서의 길이 비율, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 모두 포함하며,상기 단일 문서의 특징이 문서의 길이 비율이면 태그를 제외한 문서의 길이와 태그를 포함한 문서의 길이의 비율을 계산하여 단일 문서가 스팸 문서인지 판별하고, 상기 단일 문서의 특징이 공백 문자의 비율이면 태그를 제외한 문서의 길이와 공백 문자의 개수의 비율을 계산하여 단일 문서가 스팸 문서인지 판별하는, 스팸 분류 방법
|
2 |
2
제1항에 있어서,상기 단일 문서의 특징이 새줄 문자의 개수이면 다음 수식 1에 의해 새줄 문자의 개수를 추출하고, 추출된 새줄 문자의 개수가 미리 학습된 스팸 문서의 새줄 문자의 개수보다 많으면 분류 대상 문서를 일반 문서로 인식하며,수식 1(여기서, :문서, :새줄 문자)상기 단일 문서의 특징이 앵커 태그의 개수이면 다음 수식 2에 의해 앵커 태그의 개수를 추출하고, 추출된 앵커 태그의 개수가 미리 학습된 스팸 문서의 앵커 태그의 개수보다 적으면 분류 대상 문서를 일반 문서로 인식하는 것을 더 포함하는, 스팸 분류 방법
|
3 |
3
삭제
|
4 |
4
제1항에 있어서, 상기 단일 문서의 특징은,각 특징마다 정해진 수식을 통해 특징값으로 계산되는, 스팸 분류 방법
|
5 |
5
제4항에 있어서, 상기 문서 분류 모델을 생성하는 단계는,정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장하는 단계를 포함하는, 스팸 분류 방법
|
6 |
6
제1, 2, 4, 5항 중 어느 하나의 항에 따른 스팸 분류 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체
|
7 |
7
문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 특징 추출부;정상 문서와 스팸 문서로부터 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성하는 모델 생성부; 및분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 스팸 판별부를 포함하며,상기 특징 추출부는 HTML 태그를 제외한 문서와 HTML 태그를 포함한 문서의 특징을 별도로 추출하고, 상기 스팸 판별부는 HTML 태그를 제외한 문서와 HTML 태그를 포함한 문서의 특징을 이용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 것인, 스팸 분류 장치
|
8 |
8
제7항에 있어서, 상기 스팸 판별부는,상기 단일 문서의 특징이 문서의 길이 비율이면 HTML 태그를 제외한 문서의 길이와 HTML 태그를 포함한 문서의 길이의 비율을 계산하여 단일 문서가 스팸 문서인지 판별하는 것인, 스팸 분류 장치
|
9 |
9
제7항에 있어서, 상기 스팸 판별부는,상기 단일 문서의 특징이 공백 문자의 비율이면 HTML 태그를 제외한 문서의 길이와 공백 문자의 개수의 비율을 계산하여 단일 문서가 스팸 문서인지 판별하는 것인, 스팸 분류 장치
|
10 |
10
제 7 항에 있어서, 상기 특징 추출부는 다음 수식에 의해 새줄 문자의 개수를 추출하고, 상기 스팸 판별부는 추출된 새줄 문자의 개수가 미리 학습된 스팸 문서의 새줄 문자의 개수보다 많으면 분류 대상 문서를 일반 문서로 인식하는 것을 더 포함하는 스팸 분류 장치
|
11 |
11
제 7 항에 있어서,상기 특징 추출부는 다음 수식에 의해 앵커 태그의 수를 판별하고, 상기 스팸 판별부는 앵커 태그의 수가 미리 학습된 스팸 문서의 앵커 태그의 수보다 적으면 일반 문서로 인식하는 것을 더 포함하는 스팸 분류 장치
|