맞춤기술찾기

이전대상기술

소셜 네트워크 서비스에서 스팸 탐지 방법 및 장치

  • 기술번호 : KST2019027050
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 소셜 네트워크 서비스에서 스팸 탐지 방법 및 장치가 개시된다. 본 발명의 일 실시예에 따른 소셜 네트워크 서비스에서 스팸 탐지 방법은, 스팸 탐지 장치가 소셜 네트워크 서비스에서 스팸을 탐지하는 방법에 있어서, 트레이닝 데이터의 존재 여부에 따라 n-gram 또는 리트윗 증가율을 이용하여 사전을 구축하는 단계, 소셜 네트워크 서비스에서 수집된 데이터에 대해 상기 구축된 사전에 기반으로 나이브 베이스 분류기(Naive Bayes Classification)를 적용하여 스팸을 탐지하는 단계를 포함한다.
Int. CL G06Q 50/30 (2012.01.01) G06Q 50/00 (2018.01.01)
CPC G06Q 50/30(2013.01) G06Q 50/30(2013.01)
출원번호/일자 1020170162083 (2017.11.29)
출원인 충남대학교산학협력단
등록번호/일자 10-1913284-0000 (2018.10.24)
공개번호/일자
공고번호/일자 (20181030) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2017.11.29)
심사청구항수 11

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 충남대학교산학협력단 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 박정희 대전광역시 유성구
2 최혁준 대전광역시 유성구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 홍성욱 대한민국 서울특별시 강남구 역삼로 ***(역삼동) 동아빌딩 *층(주식회사에스와이피)
2 심경식 대한민국 서울시 강남구 역삼로 *** 동아빌딩 *층(에스와이피특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 충남대학교산학협력단 대전광역시 유성구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2017.11.29 수리 (Accepted) 1-1-2017-1193372-53
2 선행기술조사의뢰서
Request for Prior Art Search
2018.02.06 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2018.04.10 발송처리완료 (Completion of Transmission) 9-6-2018-0052470-37
4 의견제출통지서
Notification of reason for refusal
2018.04.12 발송처리완료 (Completion of Transmission) 9-5-2018-0252903-73
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2018.06.12 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2018-0578229-17
6 [출원서 등 보정(보완)]보정서
2018.06.12 수리 (Accepted) 1-1-2018-0578221-53
7 [공지예외적용 보완 증명서류]서류제출서
2018.06.12 수리 (Accepted) 1-1-2018-0578222-09
8 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2018.06.12 수리 (Accepted) 1-1-2018-0578228-72
9 등록결정서
Decision to grant
2018.10.23 발송처리완료 (Completion of Transmission) 9-5-2018-0720600-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
스팸 탐지 장치가 소셜 네트워크 서비스에서 스팸(spam)을 탐지하는 방법에 있어서, 트레이닝 데이터의 존재 여부에 따라 n-gram 또는 리트윗 증가율을 이용하여 사전을 구축하는 단계; 소셜 네트워크 서비스에서 수집된 데이터에 대해 상기 구축된 사전을 기반으로 나이브 베이스 분류기(Naive Bayes Classification)를 적용하여 스팸을 탐지하는 단계; 및상기 사전을 업데이트하는 단계를 포함하되,상기 사전을 업데이트하는 단계는,일정 시간동안 수집된 데이터에 대하여 리트윗 증가율을 산출하고, 상기 산출된 리트윗 증가율을 기준으로 상기 데이터들을 내림차순으로 정렬하는 단계;상기 정렬된 데이터들에 대해 상기 사전을 기반으로 나이브 베이스 분류기를 적용하여 상위 일정 개수 데이터 및 하위 일정 개수 데이터에 대한 스팸 또는 논스팸의 클래스 라벨을 예측하는 단계; 및상기 상위 일정 개수의 데이터 중에서 스팸으로 예측된 데이터들을 이용하여 스팸 사전을 업데이트하고, 하위 일정 개수의 데이터 중에서 논스팸으로 예측된 데이터들을 이용하여 논스팸 사전을 업데이트하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
2 2
제1항에 있어서,상기 사전을 구축하는 단계는, 상기 트레이닝 데이터가 존재하는 경우,각 트레이닝 데이터를 전처리하는 단계;상기 전처리된 각 트레이닝 데이터에 대해 n-gram의 문자열로 분해하는 단계; 및상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 스팸 사전 또는 논스팸(non-spam) 사전을 생성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
3 3
제1항에 있어서,상기 사전을 구축하는 단계는, 상기 트레이닝 데이터가 없는 경우, 일정 시간동안 수집된 데이터에 대하여 리트윗 증가율을 산출하는 단계;상기 산출된 리트윗 증가율을 기준으로 상기 데이터들을 내림차순으로 정렬하는 단계;상기 정렬된 데이터들에서 상위 일정 개수의 데이터를 스팸 트레이닝 데이터, 하위 일정 개수의 데이터를 논스팸 트레이닝 데이터로 추출하는 단계;상기 추출된 스팸 트레이닝 데이터와 논스팸 트레이닝 데이터를 각각 전처리하는 단계;상기 전처리된 각 트레이닝 데이터를 n-gram의 문자열로 분해하는 단계; 및상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 스팸 사전 또는 논스팸 사전을 생성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
4 4
제3항에 있어서, 상기 리트윗 증가율()은 아래 수학식을 이용하여 산출하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법[수학식]여기서, tid는 원본 트윗에 대한 고유 식별정보, 는 i시간 동안 발생한 리트윗 수, 는 원본 트윗을 작성한 사용자의 팔로워 수, 는 해당 시점에 누적된 총 리트윗 수를 의미함
5 5
제1항에 있어서,상기 스팸을 탐지하는 단계는,상기 수집된 데이터를 전처리하는 단계;상기 전처리된 데이터를 n-gram의 문자열로 분해하는 단계;상기 분해된 각 문자열에 대해 나이브 베이스 분류기를 적용하여 스팸 사전 또는 논스팸 사전에 존재할 확률을 산출하는 단계; 및각 데이터별로 각 문자열이 스팸 사전에 속할 확률의 곱과 논스팸 사전에 속할 확률의 곱을 비교하여, 해당 데이터를 스팸 또는 논스팸으로 분류하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
6 6
제5항에 있어서, 상기 산출하는 단계에서, 해당 문자열이 사전에 존재하는 경우, 를 이용하여 스팸 사전에 속할 확률 또는 논스팸 사전에 속할 확률을 산출하고, 상기 사전에 존재하지 않는 경우, 를 이용하여 스팸 사전에 속할 확률 또는 논스팸 사전에 속할 확률을 산출하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법여기서, 는 사전에 저장된 의 빈도수, 는 클래스 c에 해당하는 사전의 의 합, m은 등가 샘플 크기, 는 사용자 정의 매개 변수, 는 문자열 (Wi)가 스팸 사전에 속할 확률, 는 문자열 (Wi)가 논스팸 사전에 속할 확률, α는 인 임의의 값임
7 7
삭제
8 8
삭제
9 9
제1항에 있어서, 상기 클래스 라벨을 예측하는 단계는, 상기 정렬된 데이터들 중에서 상위 일정 개수의 데이터와 하위 일정 개수의 데이터를 추출하여, 각각 전처리하는 단계;상기 전처리된 데이터를 n-gram의 문자열로 분해하는 단계;상기 분해된 각 문자열에 대해 나이브 베이스 분류기를 적용하여 스팸 사전 또는 논스팸 사전에 존재할 확률을 산출하는 단계; 및각 데이터별로 각 문자열이 스팸 사전에 속할 확률의 곱과 논스팸 사전에 속할 확률의 곱을 비교하여, 해당 데이터를 스팸 또는 논스팸으로 분류하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
10 10
제1항에 있어서, 상기 업데이트하는 단계는, 상기 상위 일정 개수의 데이터 중에서 스팸으로 예측된 데이터들과 하위 일정 개수의 데이터 중에서 논스팸으로 예측된 데이터들을 각각 전처리하는 단계;상기 전처리된 데이터를 n-gram의 문자열로 분해하는 단계; 및상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 상기 사전을 업데이트하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
11 11
트레이닝 데이터의 존재 여부에 따라 n-gram 또는 리트윗 증가율을 이용하여 사전을 구축하는 사전 구축부; 소셜 네트워크 서비스에서 수집된 데이터에 대해 상기 구축된 사전을 기반으로 나이브 베이스 분류기(Naive Bayes Classification)를 적용하여 스팸을 탐지하는 스팸 탐지부; 및일정 시간동안 수집된 데이터에 대하여 리트윗 증가율을 산출하고, 상기 산출된 리트윗 증가율을 기준으로 상기 데이터들을 내림차순으로 정렬하며, 상기 정렬된 데이터들에 대해 상기 사전을 기반으로 나이브 베이스 분류기를 적용하여 상위 일정 개수 데이터 및 하위 일정 개수 데이터에 대한 스팸 또는 논스팸의 클래스 라벨을 예측하고, 상기 상위 일정 개수의 데이터 중에서 스팸으로 예측된 데이터들을 이용하여 스팸 사전을 업데이트하며, 하위 일정 개수의 데이터 중에서 논스팸으로 예측된 데이터들을 이용하여 논스팸 사전을 업데이트하는 사전 업데이트부를 포함하는 것을 특징으로 하는 스팸 탐지 장치
12 12
제11항에 있어서, 상기 사전 구축부는, 트레이닝 데이터가 존재하는 경우, 각 트레이닝 데이터를 전처리하여 n-gram의 문자열로 분해하고, 상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 스팸 사전 또는 논스팸 사전을 생성하고, 트레이닝 데이터가 존재하지 않는 경우, 일정 시간동안 수집된 데이터에 대하여 리트윗 증가율을 산출하고, 상기 산출된 리트윗 증가율을 기준으로 상기 데이터들을 내림차순으로 정렬하며, 상기 정렬된 데이터들에서 상위 일정 개수의 데이터를 스팸 트레이닝 데이터 및 하위 일정 개수의 데이터를 논스팸 트레이닝 데이터로 추출하고, 상기 추출된 스팸 트레이닝 데이터와 논스팸 트레이닝 데이터를 각각 전처리하여 n-gram의 문자열로 분해하며, 상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 스팸 사전 또는 논스팸 사전을 생성하는 것을 특징으로 하는 스팸 탐지 장치
13 13
제11항에 있어서, 상기 스팸 탐지부는, 상기 수집된 데이터를 전처리하여 n-gram의 문자열로 분해하고, 상기 분해된 각 문자열에 대해 나이브 베이스 분류기를 적용하여 스팸 사전 또는 논스팸 사전에 존재할 확률을 산출하며, 각 데이터별로 각 문자열이 스팸 사전에 속할 확률의 곱과 논스팸 사전에 속할 확률의 곱을 비교하여, 해당 데이터를 스팸 또는 논스팸으로 분류하는 하는 것을 특징으로 하는 스팸 탐지 장치
14 14
삭제
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 교육부 충남대학교 이공학개인기초연구지원 스트리밍 데이터 마이닝을 위한 시스템 개발