맞춤기술찾기

이전대상기술

한국어 단문 메시지 스팸 필터링 시스템 및 방법

  • 기술번호 : KST2015134634
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 한국어 단문 메시지에서 형태소를 추출해 형태소 단위의 토큰들로 표현하여 토큰화하고, 이렇게 형성된 형태소 단위의 토큰들에 대해, 토큰화 과정과 정보이득 기반 자질 선택 과정으로 학습된 통계 기반 분류 모델을 이용해 스팸 메시지와 비스팸 메시지로 분류하여 스팸 메시지를 필터링하도록 하는, 한국어 단문 메시지 스팸 필터링 시스템 및 방법에 관한 것이다. 본 발명에 따른 한국어 단문 메시지 스팸 필터링 방법은, (a) 외부로부터 입력된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하는 단계; 및 (b) 상기 형태소 단위의 토큰들에 대해 통계 기반 분류 모델을 통해 스팸과 비스팸으로 분류하는 단계를 포함한다. 여기서, 통계 기반 분류 모델은, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 모델이다. 본 발명에 의하면, 의미를 나타내는 최소 단위인 형태소를 사용함으로써 스팸 필터링에 효과적인 어휘들을 정확히 추출할 수 있는 장점이 있다. 또한, 스팸 필터링에 효과적인 어휘들을 추출함에 따라 스팸과 비스팸 메시지를 구분할 시 정확률을 높일 수 있다. 또한, 실질형태소와 기능형태소가 조합된 어절에 대해서도 형태소 정보를 이용함으로써 스팸 분류 시 생길 수 있는 미등록어(Out of Vocabulary)를 줄일 수 있다. 그리고, 사용자가 직접 스팸 필터링을 위한 특정 단어를 직접 등록할 필요 없이 스팸 학습 말뭉치와 비스팸 학습 말뭉치를 이용하여 스팸 필터링에 도움이 되는 어휘들을 대량으로 추출함으로써 사용자의 편의성을 대폭 향상시킬 수 있다. 한국어, 메시지, SMS, 어휘, 추출, 형태소, 토큰, 스팸, 학습, 말뭉치, 정규화, 필터링, 분류모델, 어절, 품사
Int. CL H04W 4/14 (2009.01) G06Q 50/30C0 (2006.01) H04W 88/18 (2009.01)
CPC H04L 51/12(2013.01) H04L 51/12(2013.01) H04L 51/12(2013.01)
출원번호/일자 1020090015164 (2009.02.24)
출원인 고려대학교 산학협력단
등록번호/일자
공개번호/일자 10-2010-0096335 (2010.09.02) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 거절
심사진행상태 수리
심판사항 심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2009.02.24)
심사청구항수 13

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 고려대학교 산학협력단 대한민국 서울특별시 성북구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 임해창 대한민국 서울특별시 서초구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인(유)화우 대한민국 서울특별시 강남구 테헤란로***길 **, *층 (대치동, 삼호빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2009.02.24 수리 (Accepted) 1-1-2009-0112682-70
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.06.09 수리 (Accepted) 4-1-2009-5111177-32
3 선행기술조사의뢰서
Request for Prior Art Search
2009.12.08 수리 (Accepted) 9-1-9999-9999999-89
4 선행기술조사보고서
Report of Prior Art Search
2010.01.15 수리 (Accepted) 9-1-2010-0004874-51
5 출원인정보변경(경정)신고서
Notification of change of applicant's information
2010.08.12 수리 (Accepted) 4-1-2010-5149278-93
6 의견제출통지서
Notification of reason for refusal
2010.10.18 발송처리완료 (Completion of Transmission) 9-5-2010-0462606-45
7 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2010.12.20 수리 (Accepted) 1-1-2010-0840402-58
8 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2010.12.20 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2010-0840403-04
9 거절결정서
Decision to Refuse a Patent
2011.04.04 발송처리완료 (Completion of Transmission) 9-5-2011-0181654-03
10 명세서 등 보정서(심사전치)
Amendment to Description, etc(Reexamination)
2011.05.04 보정승인 (Acceptance of amendment) 7-1-2011-0017127-44
11 심사전치출원의 심사결과통지서
Notice of Result of Reexamination
2011.06.20 발송처리완료 (Completion of Transmission) 9-5-2011-0333936-49
12 심사관의견요청서
Request for Opinion of Examiner
2011.07.22 수리 (Accepted) 7-8-2011-0019685-53
13 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.02.11 수리 (Accepted) 4-1-2014-5018243-16
14 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.04.22 수리 (Accepted) 4-1-2014-5049934-62
15 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.10.10 수리 (Accepted) 4-1-2019-5210941-09
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
(a) 외부로부터 입력된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하는 단계; 및 (b) 상기 형태소 단위의 토큰들에 대해 통계 기반 분류 모델을 통해 스팸과비스팸으로 분류하는 단계; 를 포함하는 한국어 단문 메시지 스팸 필터링 방법
2 2
제 1 항에 있어서, 상기 (b) 단계에서 상기 통계 기반 분류 모델은, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 정규화된 메시지를 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 모델인 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
3 3
제 2 항에 있어서, 상기 정보이득 값은, 어떤 토큰이 스팸 또는 비스팸에 대한 정보를 얼마나 포함하고 있는지를 수치로 나타낸 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
4 4
제 1 항에 있어서, 상기 통계 기반 분류 모델은, 나이브 베이지언(Naive Bayesian) 분류기, 지지 벡터 머신(Support Vector Machine), 최대 엔트로피 모델(Maximum Entropy Model)중 하나 이상의 모델로 구성된 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
5 5
제 1 항에 있어서, 상기 (b) 단계는, 상기 형태소 단위의 토큰에 의해 미등록어(Out of Vocabulary)를 줄여주는 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
6 6
제 1 항에 있어서, 상기 (a) 단계 이전에 상기 한국어 단문 메시지에 대해 철자 오류나 띄어쓰기 오류를 교정하여 정규화하는 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 방법
7 7
외부로부터 입력된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여토큰화하고, 상기 형태소 단위의 토큰들에 대해 스팸 필터링 모델을 이용하여 스팸 메시지를 필터링하는 메시지 서버; 를 포함하는 한국어 단문 메시지 스팸 필터링 시스템
8 8
제 7 항에 있어서, 상기 스팸 필터링 모델은, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 시스템
9 9
제 8 항에 있어서, 상기 정보이득 값은, 어떤 토큰이 스팸 또는 비스팸에 대한 정보를 얼마나 포함하고 있는지를 수치로 나타낸 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 시스템
10 10
통신망을 통해 사용자 단말기들과 통신하기 위한 통신부; 스팸 메시지와 비스팸 메시지로 분류된 학습 말뭉치에 대하여 정규화 과정과 토큰화 과정, 정보이득 기반 자질 선택 과정을 통해 학습된 통계 기반 분류 모델이 저장되어 있는 분류모델 저장부; 상기 사용자 단말기로부터 수신된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하고, 상기 형태소 단위의 토큰들에 대해 상기 통계 기반 분류 모델을 통해 스팸과 비스팸으로 구분하는 스팸 필터링부; 상기 스팸 필터링부를 통해 구분된 비스팸 메시지를 상기 사용자 단말기에게 전송해 주는 메시지 전송부; 및 상기 사용자 단말기로부터 수신된 한국어 단문 메시지에서 스팸 메시지를 필터링하여 비스팸 메시지가 상기 사용자 단말기에게 전송되도록 제어하는 제어부; 를 포함하는 한국어 단문 메시지 스팸 필터링 서버
11 11
제 10 항에 있어서, 상기 스팸 필터링부는, 상기 한국어 단문 메시지를 토큰화하기 이전에 상기 한국어 단문 메시지에서 자주 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하는 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 서버
12 12
제 10 항에 있어서, 상기 통계 기반 분류 모델의 정보이득 기반 자질 선택 과정은, 상기 형태소 단위의 토큰들에 대해, 어떤 토큰이 스팸 메시지 또는 비스팸 메시지에 대한 정보를 얼마나 포함하고 있는지에 관한 정보 이득 값을 산출하여 상기 정보 이득 값이 기준치 이상으로 높은 토큰들만을 자질로 선택하는 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 서버
13 13
제 10 항에 있어서, 상기 통계 기반 분류 모델은, 나이브 베이지언(Naive Bayesian) 분류기, 지지 벡터 머신(Support Vector Machine), 최대 엔트로피 모델(Maximum Entropy Model) 중 하나 이상의 모델로 구성된 것을 특징으로 하는 한국어 단문 메시지 스팸 필터링 서버
14 14
발신측 단말기로부터 한국어 단문 메시지를 수신하여 착신측 단말기로 전송해 주는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법으로서, (a) 상기 발신측 단말기로부터 수신된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하는 단계; 및 (b) 상기 형태소 단위의 토큰들에 대해 통계 기반 분류 모델을 통해 스팸 메시지와 비스팸 메시지로 구분하는 단계; 를 포함하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
15 15
제 14 항에 있어서, (c) 상기 비스팸 메시지를 상기 착신측 단말기로 전송하는 단계; 를 더 포함하는 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
16 16
제 14 항에 있어서, 상기 (a) 단계는, 상기 한국어 단문 메시지에서 자주 나타나는 철자 오류나 띄어쓰기 오류를 교정하는 정규화 과정을 포함하는 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
17 17
제 14 항에 있어서, 상기 통계 기반 분류 모델은, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 상기 정규화된 메시지를 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 모델인 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
18 18
제 14 항에 있어서, 상기 정보이득 값은, 상기 토큰들 중에 어떤 토큰이 스팸 메시지 또는 비스팸 메시지에 대한 정보를 얼마나 포함하고 있는지를 수치로 나타낸 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
19 19
제 16 항에 있어서, 상기 통계 기반 분류 모델은, 나이브 베이지언(Naive Bayesian) 분류기, 지지 벡터 머신(Support Vector Machine), 최대 엔트로피 모델(Maximum Entropy Model) 중 하나 이상의 모델인 것을 특징으로 하는 메시지 서버의 한국어 단문 메시지 스팸 필터링 방법
20 20
통신망을 통해 메시지 서버와 통신하기 위한 통신부; 스팸 메시지와 비스팸 메시지로 분류된 학습 말뭉치에 대하여 정규화 과정과 토큰화 과정, 정보이득 기반 자질 선택 과정을 통해 학습된 통계 기반 분류 모델이 저장되어 있는 분류모델 저장부; 상기 메시지 서버로부터 수신된 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하고, 상기 형태소 단위의 토큰들에 대해 상기 통계 기반 분류 모델을 통해 스팸 메시지와 비스팸 메시지로 분류하는 메시지 필터링부; 상기 비스팸 메시지를 디스플레이하기 위한 표시부; 및 상기 메시지 서버로부터 수신된 한국어 단문 메시지에서 스팸 메시지를 필터링하여 얻은 비스팸 메시지만을 저장하거나 표시하도록 제어하는 제어부; 를 포함하는 사용자 단말기
21 21
제 20 항에 있어서, 상기 통계 기반 분류 모델은, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 정규화된 메시지를 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 모델인 것을 특징으로 하는 사용자 단말기
22 22
제 20 항에 있어서, 상기 메시지 필터링부를 통해 분류된 비스팸 메시지를 저장하기 위한 저장부; 를 더 포함하는 것을 특징으로 하는 사용자 단말기
23 23
메시지 서버로부터 수신한 한국어 단문 메시지를 표시하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법으로서, (a) 상기 메시지 서버로부터 수신한 한국어 단문 메시지를 형태소 단위의 토큰들로 형성하여 토큰화하는 단계; 및 (b) 상기 형태소 단위의 토큰들에 대해 통계 기반 분류 모델을 이용해 스팸 메시지와 비스팸 메시지로 분류하는 단계; 를 포함하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
24 24
제 23 항에 있어서, 상기 (a) 단계는, 상기 한국어 단문 메시지에서 자주 나타나는 철자 오류나 띄어쓰기 오류를 교정하는 정규화 과정을 포함하는 것을 특징으로 하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
25 25
제 23 항에 있어서, (c) 상기 비스팸 메시지를 표시하는 단계; 를 더 포함하는 것을 특징으로 하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
26 26
제 23 항에 있어서, 상기 (b) 단계는, 스팸과 비스팸으로 분류된 학습 말뭉치를 이용하여 메시지에서 나타나는 철자 오류나 띄어쓰기 오류를 교정하여 정규화하고, 형태소 단위의 토큰들로 형성하여 토큰화 한 후, 정보이득 기반으로 정보이득 값이 높은 토큰들만을 선택하는 동작이 학습된 통계 기반 분류 모델을 이용하는 것을 특징으로 하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
27 27
제 26 항에 있어서, 상기 정보이득 값은, 어떤 토큰이 스팸 메시지 또는 비스팸 메시지에 대한 정보를 얼마나 포함하고 있는지를 수치로 나타낸 것을 특징으로 하는 사용자 단말기의 한국어 단문 메시지 스팸 필터링 방법
28 28
제 14 항 내지 제 19 항 중 어느 한 항의 방법을 프로그램으로 기록한 컴퓨터로 읽을 수 있는 매체
29 29
제 20 항 내지 제 27 항 중 어느 한 항의 방법을 프로그램으로 기록한 컴퓨터로 읽을 수 있는 매체
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.