1 |
1
블로그(Blog)에 게시된 적어도 하나의 포스트(Post)의 본문을 기초로 상기 적어도 하나의 포스트에 포함된 복수의 태그들 중 스팸 태그를 식별하는 스팸 태그 식별부;상기 블로그에 게시된 전체 포스트 및 상기 스팸 태그를 포함하는 스팸 포스트를 기초로 상기 블로그의 신뢰도를 산출하는 블로그 신뢰도 산출부; 및상기 신뢰도 및 상기 스팸 포스트의 스팸 태그 비율에 해당하는 태그 스팸도를 기초로 상기 블로그의 스팸 여부를 탐지하는 블로그 스팸 탐지부를 포함하되,상기 스팸 태그 식별부는 포스트별 핵심용어를 기초로 클러스터링(Clustering)을 통해 포스트 그룹을 생성하고 포스트 그룹 별로 추출되는 그룹태그 중 어느 하나를 상기 스팸 태그로서 식별하는 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 장치
|
2 |
2
제1항에 있어서, 상기 스팸 태그 식별부는상기 적어도 하나의 포스트에 대한 텍스트 파싱(Text Parsing)을 통해 포스트 핵심용어를 추출하고 상기 포스트 핵심용어를 기초로 클러스터링(Clustering)을 수행하여 포스트 그룹을 생성하는 포스트 그룹 생성 모듈;상기 포스트 그룹에 대한 그룹 핵심용어를 추출하고 상기 그룹 핵심용어 및 상기 포스트 그룹에 포함된 그룹태그 간의 비교분석을 수행하는 태그 분석 모듈; 및상기 비교분석 결과를 이용하여 스팸 태그를 식별하는 스팸 태그 식별 모듈을 포함하는 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 장치
|
3 |
3
제2항에 있어서, 상기 태그 분석 모듈은상기 비교분석을 통해 상기 그룹태그 별로 상기 포스트 그룹 내 출현빈도 수, 출현 포스트 수 및 출현 비율을 도출하는 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 장치
|
4 |
4
제3항에 있어서, 상기 스팸 태그 식별 모듈은상기 출현 비율이 특정 임계값 미만에 해당하는 상기 그룹태그를 스팸 태그로 식별하는 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 장치
|
5 |
5
제1항에 있어서, 상기 블로그 신뢰도 산출부는상기 스팸 포스트의 수를 상기 전체 포스트의 수로 나눈 값을 상기 블로그의 신뢰도로써 산출하는 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 장치
|
6 |
6
제1항에 있어서, 상기 블로그 스팸 탐지부는상기 신뢰도 및 상기 태그 스팸도 간의 가중합이 특정 임계값을 초과하는 경우 상기 블로그를 스팸으로 결정하는 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 장치
|
7 |
7
스팸 태그 기반의 블로그 스팸 탐지 장치에서 수행되는 블로그 스팸 탐지 방법에 있어서, (a) 블로그(Blog)에 게시된 적어도 하나의 포스트(Post)의 본문을 기초로 상기 적어도 하나의 포스트에 포함된 복수의 태그들 중 스팸 태그를 식별하는 단계;(b) 상기 블로그에 게시된 전체 포스트 및 상기 스팸 태그를 포함하는 스팸 포스트를 기초로 상기 블로그의 신뢰도를 산출하는 단계; 및(c) 상기 신뢰도 및 상기 스팸 포스트의 스팸 태그 비율에 해당하는 태그 스팸도를 기초로 상기 블로그의 스팸 여부를 탐지하는 단계를 포함하되,상기 (a) 단계는 포스트별 핵심용어를 기초로 클러스터링(Clustering)을 통해 포스트 그룹을 생성하고 포스트 그룹 별로 추출되는 그룹태그 중 어느 하나를 상기 스팸 태그로서 식별하는 단계를 포함하는 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 방법
|
8 |
8
제7항에 있어서, 상기 (a) 단계는(a1) 상기 적어도 하나의 포스트에 대한 텍스트 파싱(Text Parsing)을 통해 포스트 핵심용어를 추출하고 상기 포스트 핵심용어를 기초로 클러스터링(Clustering)을 수행하여 포스트 그룹을 생성하는 단계;(a2) 상기 포스트 그룹에 대한 그룹 핵심용어를 추출하고 상기 그룹 핵심용어 및 상기 포스트 그룹에 포함된 그룹태그 간의 비교분석을 수행하는 단계; 및(a3) 상기 비교분석 결과를 이용하여 스팸 태그를 식별하는 단계를 포함하는 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 방법
|
9 |
9
제8항에 있어서, 상기 (a2) 단계는상기 비교분석을 통해 상기 그룹태그 별로 상기 포스트 그룹 내 출현빈도 수, 출현 포스트 수 및 출현 비율을 도출하는 단계인 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 방법
|
10 |
10
제9항에 있어서, 상기 (a3) 단계는상기 출현 비율이 특정 임계값 미만에 해당하는 상기 그룹태그를 스팸 태그로 식별하는 단계인 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 방법
|
11 |
11
제7항에 있어서, 상기 (b) 단계는상기 스팸 포스트의 수를 상기 전체 포스트의 수로 나눈 값을 상기 블로그의 신뢰도로써 산출하는 단계인 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 방법
|
12 |
12
제7항에 있어서, 상기 (c) 단계는상기 신뢰도 및 상기 태그 스팸도 간의 가중합이 특정 임계값을 초과하는 경우 상기 블로그를 스팸으로 결정하는 단계인 것을 특징으로 하는 스팸 태그 기반의 블로그 스팸 탐지 방법
|
13 |
13
스팸 태그 기반의 블로그 스팸 탐지 장치에서 수행되는 블로그 스팸 탐지 방법을 기록하는 컴퓨터 수행 가능한 기록매체에 있어서,블로그(Blog)에 게시된 적어도 하나의 포스트(Post)의 본문을 기초로 상기 적어도 하나의 포스트에 포함된 복수의 태그들 중 스팸 태그를 식별하는 과정;상기 블로그에 게시된 전체 포스트 및 상기 스팸 태그를 포함하는 스팸 포스트를 기초로 상기 블로그의 신뢰도를 산출하는 과정; 및상기 신뢰도 및 상기 스팸 포스트의 스팸 태그 비율에 해당하는 태그 스팸도를 기초로 상기 블로그의 스팸 여부를 탐지하는 과정을 포함하되,상기 스팸 태그를 식별하는 과정은 포스트별 핵심용어를 기초로 클러스터링(Clustering)을 통해 포스트 그룹을 생성하고 포스트 그룹 별로 추출되는 그룹태그 중 어느 하나를 상기 스팸 태그로서 식별하는 과정을 포함하는 것을 특징으로 하는 기록매체
|