1 |
1
(a) 외부로부터 입력된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하는 단계; 및
(b) 상기 형태소 단위의 토큰들에 대해 통계 기반 분류 모델을 통해 스팸과비스팸으로 분류하는 단계;
를 포함하는 한국어 단문 메시지 스팸 필터링 방법
|
2 |
2
제 1 항에 있어서,
상기 (b) 단계에서 상기 통계 기반 분류 모델은, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 정규화된 메시지를 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 모델인 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
|
3 |
3
제 2 항에 있어서,
상기 정보이득 값은, 어떤 토큰이 스팸 또는 비스팸에 대한 정보를 얼마나 포함하고 있는지를 수치로 나타낸 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
|
4 |
4
제 1 항에 있어서,
상기 통계 기반 분류 모델은, 나이브 베이지언(Naive Bayesian) 분류기, 지지 벡터 머신(Support Vector Machine), 최대 엔트로피 모델(Maximum Entropy Model)중 하나 이상의 모델로 구성된 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
|
5 |
5
제 1 항에 있어서,
상기 (b) 단계는, 상기 형태소 단위의 토큰에 의해 미등록어(Out of Vocabulary)를 줄여주는 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
|
6 |
6
제 1 항에 있어서,
상기 (a) 단계 이전에 상기 한국어 단문 메시지에 대해 철자 오류나 띄어쓰기 오류를 교정하여 정규화하는 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
|
7 |
7
외부로부터 입력된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여토큰화하고, 상기 형태소 단위의 토큰들에 대해 스팸 필터링 모델을 이용하여 스팸 메시지를 필터링하는 메시지 서버;
를 포함하는 한국어 단문 메시지 스팸 필터링 시스템
|
8 |
8
제 7 항에 있어서,
상기 스팸 필터링 모델은, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 시스템
|
9 |
9
제 8 항에 있어서,
상기 정보이득 값은, 어떤 토큰이 스팸 또는 비스팸에 대한 정보를 얼마나 포함하고 있는지를 수치로 나타낸 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 시스템
|
10 |
10
통신망을 통해 사용자 단말기들과 통신하기 위한 통신부;
스팸 메시지와 비스팸 메시지로 분류된 학습 말뭉치에 대하여 정규화 과정과 토큰화 과정, 정보이득 기반 자질 선택 과정을 통해 학습된 통계 기반 분류 모델이 저장되어 있는 분류모델 저장부;
상기 사용자 단말기로부터 수신된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하고, 상기 형태소 단위의 토큰들에 대해 상기 통계 기반 분류 모델을 통해 스팸과 비스팸으로 구분하는 스팸 필터링부;
상기 스팸 필터링부를 통해 구분된 비스팸 메시지를 상기 사용자 단말기에게 전송해 주는 메시지 전송부; 및
상기 사용자 단말기로부터 수신된 한국어 단문 메시지에서 스팸 메시지를 필터링하여 비스팸 메시지가 상기 사용자 단말기에게 전송되도록 제어하는 제어부;
를 포함하는 한국어 단문 메시지 스팸 필터링 서버
|
11 |
11
제 10 항에 있어서,
상기 스팸 필터링부는, 상기 한국어 단문 메시지를 토큰화하기 이전에 상기 한국어 단문 메시지에서 자주 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하는 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 서버
|
12 |
12
제 10 항에 있어서,
상기 통계 기반 분류 모델의 정보이득 기반 자질 선택 과정은, 상기 형태소 단위의 토큰들에 대해, 어떤 토큰이 스팸 메시지 또는 비스팸 메시지에 대한 정보를 얼마나 포함하고 있는지에 관한 정보 이득 값을 산출하여 상기 정보 이득 값이 기준치 이상으로 높은 토큰들만을 자질로 선택하는 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 서버
|
13 |
13
제 10 항에 있어서,
상기 통계 기반 분류 모델은, 나이브 베이지언(Naive Bayesian) 분류기, 지지 벡터 머신(Support Vector Machine), 최대 엔트로피 모델(Maximum Entropy Model) 중 하나 이상의 모델로 구성된 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 서버
|
14 |
14
발신측 단말기로부터 한국어 단문 메시지를 수신하여 착신측 단말기로 전송해 주는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법으로서,
(a) 상기 발신측 단말기로부터 수신된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하는 단계; 및
(b) 상기 형태소 단위의 토큰들에 대해 통계 기반 분류 모델을 통해 스팸 메시지와 비스팸 메시지로 구분하는 단계;
를 포함하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
|
15 |
15
제 14 항에 있어서,
(c) 상기 비스팸 메시지를 상기 착신측 단말기로 전송하는 단계;
를 더 포함하는 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
|
16 |
16
제 14 항에 있어서,
상기 (a) 단계는, 상기 한국어 단문 메시지에서 자주 나타나는 철자 오류나 띄어쓰기 오류를 교정하는 정규화 과정을 포함하는 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
|
17 |
17
제 14 항에 있어서,
상기 통계 기반 분류 모델은, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 상기 정규화된 메시지를 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 모델인 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
|
18 |
18
제 14 항에 있어서,
상기 정보이득 값은, 상기 토큰들 중에 어떤 토큰이 스팸 메시지 또는 비스팸 메시지에 대한 정보를 얼마나 포함하고 있는지를 수치로 나타낸 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
|
19 |
19
제 16 항에 있어서,
상기 통계 기반 분류 모델은, 나이브 베이지언(Naive Bayesian) 분류기, 지지 벡터 머신(Support Vector Machine), 최대 엔트로피 모델(Maximum Entropy Model) 중 하나 이상의 모델인 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
|
20 |
20
통신망을 통해 메시지 서버와 통신하기 위한 통신부;
스팸 메시지와 비스팸 메시지로 분류된 학습 말뭉치에 대하여 정규화 과정과 토큰화 과정, 정보이득 기반 자질 선택 과정을 통해 학습된 통계 기반 분류 모델이 저장되어 있는 분류모델 저장부;
상기 메시지 서버로부터 수신된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하고, 상기 형태소 단위의 토큰들에 대해 상기 통계 기반 분류 모델을 통해 스팸 메시지와 비스팸 메시지로 분류하는 메시지 필터링부;
상기 비스팸 메시지를 디스플레이하기 위한 표시부; 및
상기 메시지 서버로부터 수신된 한국어 단문 메시지에서 스팸 메시지를 필터링하여 얻은 비스팸 메시지만을 저장하거나 표시하도록 제어하는 제어부;
를 포함하는 사용자 단말기
|
21 |
21
제 20 항에 있어서,
상기 통계 기반 분류 모델은, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 정규화된 메시지를 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 모델인 것을 특징으로 하는 사용자 단말기
|
22 |
22
제 20 항에 있어서,
상기 메시지 필터링부를 통해 분류된 비스팸 메시지를 저장하기 위한 저장부;
를 더 포함하는 것을 특징으로 하는 사용자 단말기
|
23 |
23
메시지 서버로부터 수신한 한국어 단문 메시지를 표시하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법으로서,
(a) 상기 메시지 서버로부터 수신한 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하는 단계; 및
(b) 상기 형태소 단위의 토큰들에 대해 통계 기반 분류 모델을 이용해 스팸 메시지와 비스팸 메시지로 분류하는 단계;
를 포함하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
|
24 |
24
제 23 항에 있어서,
상기 (a) 단계는, 상기 한국어 단문 메시지에서 자주 나타나는 철자 오류나 띄어쓰기 오류를 교정하는 정규화 과정을 포함하는 것을 특징으로 하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
|
25 |
25
제 23 항에 있어서,
(c) 상기 비스팸 메시지를 표시하는 단계;
를 더 포함하는 것을 특징으로 하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
|
26 |
26
제 23 항에 있어서,
상기 (b) 단계는, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 통계 기반 분류 모델을 이용하는 것을 특징으로 하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
|
27 |
27
제 26 항에 있어서,
상기 정보이득 값은, 어떤 토큰이 스팸 메시지 또는 비스팸 메시지에 대한 정보를 얼마나 포함하고 있는지를 수치로 나타낸 것을 특징으로 하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
|
28 |
28
제 14 항 내지 제 19 항 중 어느 한 항의 방법을 프로그램으로 기록한 컴퓨터로 읽을 수 있는 매체
|
29 |
29
제 20 항 내지 제 27 항 중 어느 한 항의 방법을 프로그램으로 기록한 컴퓨터로 읽을 수 있는 매체
|