맞춤기술찾기

이전대상기술

단문 스팸 메시지의 필터링을 위한 스팸 필터링 모델 학습 방법 및 이를 이용한 단문 스팸 메시지 필터링 방법 및 장치

  • 기술번호 : KST2015131990
  • 담당센터 : 서울동부기술혁신센터
  • 전화번호 : 02-2155-3662
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 단문 스팸 메시지의 필터링을 위한 스팸 필터링 모델 학습 방법 및 이를 이용한 단문 스팸 메시지 필터링 방법 및 단문 스팸 메시지 필터링 장치에 관한 것이다. 본 발명에 따른 스팸 필터링 모델 학습 방법은 (a) 복수의 스팸 메시지와 복수의 비스팸 메시지로 분류된 학습 말뭉치가 입력되는 단계와; (b) 상기 학습 말뭉치로부터 내용에 기반한 어휘 자질과 언어 표현 양식에 기반한 문체 자질을 추출하는 단계와; (c) 상기 추출된 어휘 자질과 상기 추출된 문체 자질의 정보 이득 값(Information gain value)에 기초하여 복수의 학습용 자질을 선택하는 단계와; (d) 상기 복수의 학습용 자질에 대해 통계 기반 분류 모델을 적용하여 스팸 필터링 모델을 생성하는 단계를 포함하는 것을 특징으로 한다. 이에 따라, SMS 메시지와 같은 단문 메시지의 내용 뿐만 아니라, 그 내용이 어떤 방식으로 작성되었는지, 또는 어떤 언어 표현 양식으로 작성되었는지를 반영하게 되어, 비스팸 메시지를 스팸 메시지로 분류하는 오류를 현저히 감소시킬 수 있다.
Int. CL H04W 4/14 (2009.01) H04W 48/02 (2009.01)
CPC H04L 51/12(2013.01) H04L 51/12(2013.01) H04L 51/12(2013.01) H04L 51/12(2013.01)
출원번호/일자 1020090118504 (2009.12.02)
출원인 고려대학교 산학협력단
등록번호/일자 10-1104602-0000 (2012.01.03)
공개번호/일자 10-2011-0061951 (2011.06.10) 문서열기
공고번호/일자 (20120112) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2009.12.02)
심사청구항수 17

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 고려대학교 산학협력단 대한민국 서울특별시 성북구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 임해창 대한민국 서울특별시 서초구
2 손대능 대한민국 서울특별시 노원구
3 이정태 대한민국 서울 강서구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인남촌 대한민국 서울특별시 종로구 새문안로*길 **, 도렴빌딩 ***호 (도렴동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 고려대학교 산학협력단 대한민국 서울특별시 성북구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2009.12.02 수리 (Accepted) 1-1-2009-0744799-14
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2010.08.12 수리 (Accepted) 4-1-2010-5149278-93
3 선행기술조사의뢰서
Request for Prior Art Search
2011.03.11 수리 (Accepted) 9-1-9999-9999999-89
4 선행기술조사보고서
Report of Prior Art Search
2011.03.25 수리 (Accepted) 9-1-2011-0028093-06
5 의견제출통지서
Notification of reason for refusal
2011.04.26 발송처리완료 (Completion of Transmission) 9-5-2011-0225360-06
6 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2011.06.24 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2011-0480983-42
7 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2011.06.24 수리 (Accepted) 1-1-2011-0480984-98
8 등록결정서
Decision to grant
2011.12.28 발송처리완료 (Completion of Transmission) 9-5-2011-0775380-19
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.02.11 수리 (Accepted) 4-1-2014-5018243-16
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.04.22 수리 (Accepted) 4-1-2014-5049934-62
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2019.10.10 수리 (Accepted) 4-1-2019-5210941-09
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
정보처리장치를 이용하여 단문 스팸 메시지의 필터링을 위한 스팸 필터링 모델을 학습하는 방법에 있어서, (a) 상기 정보처리장치가 복수의 스팸 메시지와 복수의 비스팸 메시지로 분류된 학습 말뭉치를 입력받는 단계와; (b) 상기 정보처리장치가 상기 학습 말뭉치로부터 내용에 기반한 어휘 자질과 언어 표현 양식에 기반한 문체 자질을 추출하는 단계와; (c) 상기 정보처리장치가 상기 추출된 어휘 자질과 상기 추출된 문체 자질의 정보 이득 값(Information gain value)에 기초하여 복수의 학습용 자질을 선택하는 단계와; (d) 상기 정보처리장치가 상기 복수의 학습용 자질에 대해 통계 기반 분류 모델을 적용하여 스팸 필터링 모델을 생성하는 단계를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
2 2
제1항에 있어서, 상기 (b) 단계에서의 상기 문체 자질을 추출하는 단계는, 언어 표현 양식의 형식적 특징에 기반한 표층적 문체 자질을 추출하는 단계와; 언어 표현 양식의 실질적 특징에 기반한 구조적 문체 자질을 추출하는 단계; 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
3 3
제2항에 있어서, 상기 (b) 단계에서의 상기 표층적 문체 자질은 메시지의 전체 길이, 메시지 내의 단어 평균 길이, 기능어별 빈도수, 품사-trigram, 메시지의 전체 길이 중 특수 기호의 비율, 이모티콘의 빈도수, 및 광고성 기호의 빈도수 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
4 4
제2항에 있어서, 상기 (b) 단계에서의 상기 구조적 문체 자질은 메시지 내 문장에서 추출된 구(Phrase)의 종류별 빈도수, 문맥-자유-문법 생성 패턴(Context-free-grammar productions pattern), 및 메시지 내 문장의 구문 구조 파싱 트리의 깊이 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
5 5
제1항에 있어서, (e) 상기 정보처리장치가 상기 (b) 단계의 수행 전에 상기 학습 말뭉치에 대해 철자 오류 교정 과정과 띄어쓰기 오류 교정 과정 중 적어도 어느 하나를 포함하는 정규화 과정을 수행하는 단계를 더 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
6 6
제1항에 있어서, 상기 (d) 단계에서 상기 통계 기반 분류 모델은 나이브 베이지언(Naive Bayesian) 분류 모델, 지지 벡터 머신(Support Vector Machine) 모델, 최대 엔트로피(Maximum Entropy Model) 모델 중 어느 하나를 포함하는 것을 특징으로 하는 스팸 필터링 모델 학습 방법
7 7
제1항 내지 제6항 중 어느 한 항에 따른 스팸 필터링 모델 학습 방법을 통해 생성된 스팸 필터링 모델을 이용하여 단문 스팸 메시지 필터링 장치가 단문 스팸 메시지를 필터링하는 방법에 있어서, (a1) 상기 단문 스팸 메시지 필터링 장치가 필터링 대상 단문 메시지를 입력받는 단계와; (b1) 상기 단문 스팸 메시지 필터링 장치가 상기 필터링 대상 단문 메시지로부터 내용에 기반한 어휘 자질과 언어 표현 양식에 기반한 문체 자질을 추출하는 단계와; (c1) 상기 단문 스팸 메시지 필터링 장치가 상기 추출된 어휘 자질 및 상기 추출된 문체 자질을 상기 스팸 필터링 모델에 적용하여 상기 필터링 대상 단문 메시지가 단문 스팸 메시지인지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
8 8
제7항에 있어서, 상기 (b1) 단계에서의 상기 문체 자질을 추출하는 단계는, 언어 표현 양식의 형식적 특징에 기반한 표층적 문체 자질을 추출하는 단계와; 언어 표현 양식의 실질적 특징에 기반한 구조적 문체 자질을 추출하는 단계; 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
9 9
제8항에 있어서, 상기 (b1) 단계에서는 상기 (c) 단계에서 상기 학습용 자질로 선택된 자질이 상기 표층적 문체 자질 또는 상기 구조적 문체 자질로 추출되는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
10 10
제9항에 있어서, 상기 (b1) 단계에서의 상기 표층적 문체 자질은 메시지의 전체 길이, 메시지 내의 단어 평균 길이, 기능어별 빈도수, 품사-trigram, 메시지의 전체 길이 중 특수 기호의 비율, 이모티콘의 빈도수, 및 광고성 기호의 빈도수 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
11 11
제9항에 있어서, 상기 (b1) 단계에서의 상기 구조적 문체 자질은 메시지 내 문장에서 추출된 구(Phrase)의 종류별 빈도수, 문맥-자유-문법 생성 패턴(Context-free-grammar productions pattern), 및 메시지 내 문장의 구문 구조 파싱 트리의 깊이 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 방법
12 12
통신망을 통해 전송되는 단문 메시지의 스팸 여부를 판단하는 단문 스팸 메시지 필터링 장치에 있어서, 제1항 내지 제6항 중 어느 한 항에 따른 스팸 필터링 모델 학습 방법에 따라 생성된 스팸 필터링 모델을 보유하고; 상기 단문 메시지로부터 내용에 기반한 어휘 자질과 언어 표현 양식에 기반한 문체 자질을 추출하며; 상기 추출된 어휘 자질 및 상기 추출된 문체 자질을 상기 생성된 스팸 필터링 모델에 적용하여 상기 단문 메시지가 스팸 메시지인지 여부를 판단하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
13 13
제12항에 있어서, 상기 단문 스팸 메시지 필터링 장치는 언어 표현 양식의 형식적 특징에 기반한 표층적 문체 자질과, 언어 표현 양식의 실질적 특징에 기반한 구조적 문체 자질 중 적어도 어느 하나를 상기 문체 자질로 추출하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
14 14
제13항에 있어서, 상기 단문 스팸 메시지 필터링 장치는 상기 (c) 단계에서 상기 학습용 자질로 선택된 자질을 상기 표층적 문체 자질 또는 상기 구조적 문체 자질로 추출하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
15 15
제14항에 있어서, 상기 단문 스팸 메시지 필터링 장치에 의해 추출되는 상기 표층적 문체 자질은 메시지의 전체 길이, 메시지 내의 단어 평균 길이, 기능어별 빈도수, 품사-trigram, 메시지의 전체 길이 중 특수 기호의 비율, 이모티콘의 빈도수, 및 광고성 기호의 빈도수 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
16 16
제14항에 있어서, 상기 단문 스팸 메시지 필터링 장치에 의해 추출되는 상기 구조적 문체 자질은 메시지 내 문장에서 추출된 구(Phrase)의 종류별 빈도수, 문맥-자유-문법 생성 패턴(Context-free-grammar productions pattern), 및 메시지 내 문장의 구문 구조 파싱 트리의 깊이 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
17 17
제12항에 있어서, 상기 단문 메시지는 SMS 메시지와 댓글 메시지 중 어느 하나를 포함하는 것을 특징으로 하는 단문 스팸 메시지 필터링 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.