1 |
1
정보처리장치를 이용하여 단문 스팸 메시지의 필터링을 위한 스팸 필터링 모델을 학습하는 방법에 있어서,
(a) 상기 정보처리장치가 복수의 스팸 메시지와 복수의 비스팸 메시지로 분류된 학습 말뭉치를 입력받는 단계와;
(b) 상기 정보처리장치가 상기 학습 말뭉치로부터 내용에 기반한 어휘 자질과 언어 표현 양식에 기반한 문체 자질을 추출하는 단계와;
(c) 상기 정보처리장치가 상기 추출된 어휘 자질과 상기 추출된 문체 자질의 정보 이득 값(Information gain value)에 기초하여 복수의 학습용 자질을 선택하는 단계와;
(d) 상기 정보처리장치가 상기 복수의 학습용 자질에 대해 통계 기반 분류 모델을 적용하여 스팸 필터링 모델을 생성하는 단계를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
|
2 |
2
제1항에 있어서,
상기 (b) 단계에서의 상기 문체 자질을 추출하는 단계는,
언어 표현 양식의 형식적 특징에 기반한 표층적 문체 자질을 추출하는 단계와;
언어 표현 양식의 실질적 특징에 기반한 구조적 문체 자질을 추출하는 단계; 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
|
3 |
3
제2항에 있어서,
상기 (b) 단계에서의 상기 표층적 문체 자질은 메시지의 전체 길이, 메시지 내의 단어 평균 길이, 기능어별 빈도수, 품사-trigram, 메시지의 전체 길이 중 특수 기호의 비율, 이모티콘의 빈도수, 및 광고성 기호의 빈도수 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
|
4 |
4
제2항에 있어서,
상기 (b) 단계에서의 상기 구조적 문체 자질은 메시지 내 문장에서 추출된 구(Phrase)의 종류별 빈도수, 문맥-자유-문법 생성 패턴(Context-free-grammar productions pattern), 및 메시지 내 문장의 구문 구조 파싱 트리의 깊이 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
|
5 |
5
제1항에 있어서,
(e) 상기 정보처리장치가 상기 (b) 단계의 수행 전에 상기 학습 말뭉치에 대해 철자 오류 교정 과정과 띄어쓰기 오류 교정 과정 중 적어도 어느 하나를 포함하는 정규화 과정을 수행하는 단계를 더 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
|
6 |
6
제1항에 있어서,
상기 (d) 단계에서 상기 통계 기반 분류 모델은 나이브 베이지언(Naive Bayesian) 분류 모델, 지지 벡터 머신(Support Vector Machine) 모델, 최대 엔트로피(Maximum Entropy Model) 모델 중 어느 하나를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
|
7 |
7
제1항 내지 제6항 중 어느 한 항에 따른 스팸 필터링 모델 학습 방법을 통해 생성된 스팸 필터링 모델을 이용하여 단문 스팸 메시지 필터링 장치가 단문 스팸 메시지를 필터링하는 방법에 있어서,
(a1) 상기 단문 스팸 메시지 필터링 장치가 필터링 대상 단문 메시지를 입력받는 단계와;
(b1) 상기 단문 스팸 메시지 필터링 장치가 상기 필터링 대상 단문 메시지로부터 내용에 기반한 어휘 자질과 언어 표현 양식에 기반한 문체 자질을 추출하는 단계와;
(c1) 상기 단문 스팸 메시지 필터링 장치가 상기 추출된 어휘 자질 및 상기 추출된 문체 자질을 상기 스팸 필터링 모델에 적용하여 상기 필터링 대상 단문 메시지가 단문 스팸 메시지인지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
|
8 |
8
제7항에 있어서,
상기 (b1) 단계에서의 상기 문체 자질을 추출하는 단계는,
언어 표현 양식의 형식적 특징에 기반한 표층적 문체 자질을 추출하는 단계와;
언어 표현 양식의 실질적 특징에 기반한 구조적 문체 자질을 추출하는 단계; 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
|
9 |
9
제8항에 있어서,
상기 (b1) 단계에서는 상기 (c) 단계에서 상기 학습용 자질로 선택된 자질이 상기 표층적 문체 자질 또는 상기 구조적 문체 자질로 추출되는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
|
10 |
10
제9항에 있어서,
상기 (b1) 단계에서의 상기 표층적 문체 자질은 메시지의 전체 길이, 메시지 내의 단어 평균 길이, 기능어별 빈도수, 품사-trigram, 메시지의 전체 길이 중 특수 기호의 비율, 이모티콘의 빈도수, 및 광고성 기호의 빈도수 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
|
11 |
11
제9항에 있어서,
상기 (b1) 단계에서의 상기 구조적 문체 자질은 메시지 내 문장에서 추출된 구(Phrase)의 종류별 빈도수, 문맥-자유-문법 생성 패턴(Context-free-grammar productions pattern), 및 메시지 내 문장의 구문 구조 파싱 트리의 깊이 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
|
12 |
12
통신망을 통해 전송되는 단문 메시지의 스팸 여부를 판단하는 단문 스팸 메시지 필터링 장치에 있어서,
제1항 내지 제6항 중 어느 한 항에 따른 스팸 필터링 모델 학습 방법에 따라 생성된 스팸 필터링 모델을 보유하고;
상기 단문 메시지로부터 내용에 기반한 어휘 자질과 언어 표현 양식에 기반한 문체 자질을 추출하며;
상기 추출된 어휘 자질 및 상기 추출된 문체 자질을 상기 생성된 스팸 필터링 모델에 적용하여 상기 단문 메시지가 스팸 메시지인지 여부를 판단하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
|
13 |
13
제12항에 있어서,
상기 단문 스팸 메시지 필터링 장치는 언어 표현 양식의 형식적 특징에 기반한 표층적 문체 자질과, 언어 표현 양식의 실질적 특징에 기반한 구조적 문체 자질 중 적어도 어느 하나를 상기 문체 자질로 추출하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
|
14 |
14
제13항에 있어서,
상기 단문 스팸 메시지 필터링 장치는 상기 (c) 단계에서 상기 학습용 자질로 선택된 자질을 상기 표층적 문체 자질 또는 상기 구조적 문체 자질로 추출하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
|
15 |
15
제14항에 있어서,
상기 단문 스팸 메시지 필터링 장치에 의해 추출되는 상기 표층적 문체 자질은 메시지의 전체 길이, 메시지 내의 단어 평균 길이, 기능어별 빈도수, 품사-trigram, 메시지의 전체 길이 중 특수 기호의 비율, 이모티콘의 빈도수, 및 광고성 기호의 빈도수 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
|
16 |
16
제14항에 있어서,
상기 단문 스팸 메시지 필터링 장치에 의해 추출되는 상기 구조적 문체 자질은 메시지 내 문장에서 추출된 구(Phrase)의 종류별 빈도수, 문맥-자유-문법 생성 패턴(Context-free-grammar productions pattern), 및 메시지 내 문장의 구문 구조 파싱 트리의 깊이 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
|
17 |
17
제12항에 있어서,
상기 단문 메시지는 SMS 메시지와 댓글 메시지 중 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
|