1 |
1
문서로부터 특수 문자, 색인어, 링크 정보를 추출하는 단계;상기 문서에서 상기 특수 문자의 출현 비율, 상기 특수 문자가 스팸 문서에서 출현할 확률을 이용한 특수 문자 스팸지수, 상기 색인어의 스팸 문서에서 출현할 확률을 이용한 색인어 스팸지수, 상기 색인어의 출현 빈도에 대한 표준편차, 상기 색인어의 출현 빈도의 평균에서 상기 표준편차를 초과하여 반복 출현하는 비정상 색인어의 출현 비율, 상기 반복 출현하는 색인어들의 개수 비율, 웹 페이지 주소로 유도하는 상기 링크의 개수 중 적어도 하나를 포함하는 특징 변수를 설정하는 단계;상기 특징 변수들의 값을 기계학습 알고리즘을 이용하여 계산하는 특징 변수를 계산하는 단계; 및상기 계산된 특징 변수들의 값을 미리 설정된 스팸 문서 분류 모델로 분석하여, 상기 문서의 스팸 문서 여부를 판단하는 단계를 포함하고,상기 특징 변수를 계산하는 단계는,상기 특수 문자가 스팸 문서에서 출현할 확률에 대한 가중치를 부여하여 계산한 특수 문자 스팸지수(SCSVi)를 다음의 수학식을 이용하여 계산하는 스팸 문서 판단 방법:여기서, TFi(SCj)는 문서 i에서 특수 문자 j의 출현 빈도를, PrS(SCj)는 스팸 문서에서 특수 문자 j의 출현 확률을, Pr(SCj)는 전체 문서에서 특수 문자 j의 출현 확률을, TFSumi(C)는 문서 i에서 출현한 문자의 출현 빈도의 합을 나타낸다
|
2 |
2
삭제
|
3 |
3
청구항 3은(는) 설정등록료 납부시 포기되었습니다
|
4 |
4
청구항 4은(는) 설정등록료 납부시 포기되었습니다
|
5 |
5
제1항에 있어서, 상기 기계학습 알고리즘은 의사결정트리, 나이브 베이지안, 신경망, SVM 중 어느 하나를 이용하는 스팸 문서 판단 방법
|
6 |
6
문서로부터 특수 문자, 색인어, 링크 정보를 추출하는 정보 추출부;상기 문서에서 상기 특수 문자의 출현 비율, 상기 특수 문자가 스팸 문서에서 출현할 확률을 이용한 특수 문자 스팸지수, 상기 색인어의 스팸 문서에서 출현할 확률을 이용한 색인어 스팸지수, 상기 색인어의 출현 빈도에 대한 표준편차, 상기 색인어의 출현 빈도의 평균에서 상기 표준편차를 초과하여 반복 출현하는 비정상 색인어의 출현 비율, 상기 반복 출현하는 색인어들의 개수 비율, 웹 페이지 주소로 유도하는 상기 링크의 개수 중 적어도 하나를 포함하는 특징 변수를 설정하는 특징 변수 설정부;상기 특징 변수들의 값을 기계학습 알고리즘을 이용하여 계산하는 특징 변수 계산부; 및상기 계산된 특징 변수들의 값을 상기 특징 변수를 이용해 미리 설정된 스팸 문서 분류 모델로 분석하여, 상기 문서의 스팸 문서 여부를 판단하는 스팸 문서 판단부를 포함하고,상기 특징 변수 계산부는,상기 특수 문자가 스팸 문서에서 출현할 확률에 대한 가중치를 부여하여 계산한 특수 문자 스팸지수(SCSVi)를 다음의 수학식을 이용하여 계산하는 스팸 문서 판단 장치:여기서, TFi(SCj)는 문서 i에서 특수 문자 j의 출현 빈도를, PrS(SCj)는 스팸 문서에서 특수 문자 j의 출현 확률을, Pr(SCj)는 전체 문서에서 특수 문자 j의 출현 확률을, TFSumi(C)는 문서 i에서 출현한 문자의 출현 빈도의 합을 나타낸다
|
7 |
7
삭제
|
8 |
8
청구항 8은(는) 설정등록료 납부시 포기되었습니다
|
9 |
9
청구항 9은(는) 설정등록료 납부시 포기되었습니다
|
10 |
10
제6항에 있어서, 상기 기계학습 알고리즘은 의사결정트리, 나이브 베이지안, 신경망, SVM 중 어느 하나를 이용하는 스팸 문서 판단 장치
|