1 |
1
스팸 탐지 장치가 소셜 네트워크 서비스에서 스팸(spam)을 탐지하는 방법에 있어서, 트레이닝 데이터의 존재 여부에 따라 n-gram 또는 리트윗 증가율을 이용하여 사전을 구축하는 단계; 소셜 네트워크 서비스에서 수집된 데이터에 대해 상기 구축된 사전을 기반으로 나이브 베이스 분류기(Naive Bayes Classification)를 적용하여 스팸을 탐지하는 단계; 및상기 사전을 업데이트하는 단계를 포함하되,상기 사전을 업데이트하는 단계는,일정 시간동안 수집된 데이터에 대하여 리트윗 증가율을 산출하고, 상기 산출된 리트윗 증가율을 기준으로 상기 데이터들을 내림차순으로 정렬하는 단계;상기 정렬된 데이터들에 대해 상기 사전을 기반으로 나이브 베이스 분류기를 적용하여 상위 일정 개수 데이터 및 하위 일정 개수 데이터에 대한 스팸 또는 논스팸의 클래스 라벨을 예측하는 단계; 및상기 상위 일정 개수의 데이터 중에서 스팸으로 예측된 데이터들을 이용하여 스팸 사전을 업데이트하고, 하위 일정 개수의 데이터 중에서 논스팸으로 예측된 데이터들을 이용하여 논스팸 사전을 업데이트하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
|
2 |
2
제1항에 있어서,상기 사전을 구축하는 단계는, 상기 트레이닝 데이터가 존재하는 경우,각 트레이닝 데이터를 전처리하는 단계;상기 전처리된 각 트레이닝 데이터에 대해 n-gram의 문자열로 분해하는 단계; 및상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 스팸 사전 또는 논스팸(non-spam) 사전을 생성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
|
3 |
3
제1항에 있어서,상기 사전을 구축하는 단계는, 상기 트레이닝 데이터가 없는 경우, 일정 시간동안 수집된 데이터에 대하여 리트윗 증가율을 산출하는 단계;상기 산출된 리트윗 증가율을 기준으로 상기 데이터들을 내림차순으로 정렬하는 단계;상기 정렬된 데이터들에서 상위 일정 개수의 데이터를 스팸 트레이닝 데이터, 하위 일정 개수의 데이터를 논스팸 트레이닝 데이터로 추출하는 단계;상기 추출된 스팸 트레이닝 데이터와 논스팸 트레이닝 데이터를 각각 전처리하는 단계;상기 전처리된 각 트레이닝 데이터를 n-gram의 문자열로 분해하는 단계; 및상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 스팸 사전 또는 논스팸 사전을 생성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
|
4 |
4
제3항에 있어서, 상기 리트윗 증가율()은 아래 수학식을 이용하여 산출하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법[수학식]여기서, tid는 원본 트윗에 대한 고유 식별정보, 는 i시간 동안 발생한 리트윗 수, 는 원본 트윗을 작성한 사용자의 팔로워 수, 는 해당 시점에 누적된 총 리트윗 수를 의미함
|
5 |
5
제1항에 있어서,상기 스팸을 탐지하는 단계는,상기 수집된 데이터를 전처리하는 단계;상기 전처리된 데이터를 n-gram의 문자열로 분해하는 단계;상기 분해된 각 문자열에 대해 나이브 베이스 분류기를 적용하여 스팸 사전 또는 논스팸 사전에 존재할 확률을 산출하는 단계; 및각 데이터별로 각 문자열이 스팸 사전에 속할 확률의 곱과 논스팸 사전에 속할 확률의 곱을 비교하여, 해당 데이터를 스팸 또는 논스팸으로 분류하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
|
6 |
6
제5항에 있어서, 상기 산출하는 단계에서, 해당 문자열이 사전에 존재하는 경우, 를 이용하여 스팸 사전에 속할 확률 또는 논스팸 사전에 속할 확률을 산출하고, 상기 사전에 존재하지 않는 경우, 를 이용하여 스팸 사전에 속할 확률 또는 논스팸 사전에 속할 확률을 산출하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법여기서, 는 사전에 저장된 의 빈도수, 는 클래스 c에 해당하는 사전의 의 합, m은 등가 샘플 크기, 는 사용자 정의 매개 변수, 는 문자열 (Wi)가 스팸 사전에 속할 확률, 는 문자열 (Wi)가 논스팸 사전에 속할 확률, α는 인 임의의 값임
|
7 |
7
삭제
|
8 |
8
삭제
|
9 |
9
제1항에 있어서, 상기 클래스 라벨을 예측하는 단계는, 상기 정렬된 데이터들 중에서 상위 일정 개수의 데이터와 하위 일정 개수의 데이터를 추출하여, 각각 전처리하는 단계;상기 전처리된 데이터를 n-gram의 문자열로 분해하는 단계;상기 분해된 각 문자열에 대해 나이브 베이스 분류기를 적용하여 스팸 사전 또는 논스팸 사전에 존재할 확률을 산출하는 단계; 및각 데이터별로 각 문자열이 스팸 사전에 속할 확률의 곱과 논스팸 사전에 속할 확률의 곱을 비교하여, 해당 데이터를 스팸 또는 논스팸으로 분류하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
|
10 |
10
제1항에 있어서, 상기 업데이트하는 단계는, 상기 상위 일정 개수의 데이터 중에서 스팸으로 예측된 데이터들과 하위 일정 개수의 데이터 중에서 논스팸으로 예측된 데이터들을 각각 전처리하는 단계;상기 전처리된 데이터를 n-gram의 문자열로 분해하는 단계; 및상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 상기 사전을 업데이트하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스에서 스팸 탐지 방법
|
11 |
11
트레이닝 데이터의 존재 여부에 따라 n-gram 또는 리트윗 증가율을 이용하여 사전을 구축하는 사전 구축부; 소셜 네트워크 서비스에서 수집된 데이터에 대해 상기 구축된 사전을 기반으로 나이브 베이스 분류기(Naive Bayes Classification)를 적용하여 스팸을 탐지하는 스팸 탐지부; 및일정 시간동안 수집된 데이터에 대하여 리트윗 증가율을 산출하고, 상기 산출된 리트윗 증가율을 기준으로 상기 데이터들을 내림차순으로 정렬하며, 상기 정렬된 데이터들에 대해 상기 사전을 기반으로 나이브 베이스 분류기를 적용하여 상위 일정 개수 데이터 및 하위 일정 개수 데이터에 대한 스팸 또는 논스팸의 클래스 라벨을 예측하고, 상기 상위 일정 개수의 데이터 중에서 스팸으로 예측된 데이터들을 이용하여 스팸 사전을 업데이트하며, 하위 일정 개수의 데이터 중에서 논스팸으로 예측된 데이터들을 이용하여 논스팸 사전을 업데이트하는 사전 업데이트부를 포함하는 것을 특징으로 하는 스팸 탐지 장치
|
12 |
12
제11항에 있어서, 상기 사전 구축부는, 트레이닝 데이터가 존재하는 경우, 각 트레이닝 데이터를 전처리하여 n-gram의 문자열로 분해하고, 상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 스팸 사전 또는 논스팸 사전을 생성하고, 트레이닝 데이터가 존재하지 않는 경우, 일정 시간동안 수집된 데이터에 대하여 리트윗 증가율을 산출하고, 상기 산출된 리트윗 증가율을 기준으로 상기 데이터들을 내림차순으로 정렬하며, 상기 정렬된 데이터들에서 상위 일정 개수의 데이터를 스팸 트레이닝 데이터 및 하위 일정 개수의 데이터를 논스팸 트레이닝 데이터로 추출하고, 상기 추출된 스팸 트레이닝 데이터와 논스팸 트레이닝 데이터를 각각 전처리하여 n-gram의 문자열로 분해하며, 상기 n-gram으로 분해된 각 문자열의 빈도수를 산출하여, 스팸 사전 또는 논스팸 사전을 생성하는 것을 특징으로 하는 스팸 탐지 장치
|
13 |
13
제11항에 있어서, 상기 스팸 탐지부는, 상기 수집된 데이터를 전처리하여 n-gram의 문자열로 분해하고, 상기 분해된 각 문자열에 대해 나이브 베이스 분류기를 적용하여 스팸 사전 또는 논스팸 사전에 존재할 확률을 산출하며, 각 데이터별로 각 문자열이 스팸 사전에 속할 확률의 곱과 논스팸 사전에 속할 확률의 곱을 비교하여, 해당 데이터를 스팸 또는 논스팸으로 분류하는 하는 것을 특징으로 하는 스팸 탐지 장치
|
14 |
14
삭제
|