1 |
1
기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 장치의 포스팅 봇 검출 방법으로서,기분류된 유저의 블록체인 계정을 이용하여 블록체인 SNS 활동 내역에 대한 데이터를 수집하는 단계;상기 데이터에 대한 특징을 추출하는 단계; 상기 기분류된 유저의 데이터를 기반으로 상기 추출된 특징을 앙상블 기계학습 기법에 적용하여 학습 모델을 생성하는 단계; 및 상기 생성된 학습 모델에 의해 신규 유저를 분류하여 포스팅 봇을 결정하는 단계;를 포함하고,상기 특징을 추출하는 단계는,상기 포스팅을 제목, 내용 및 댓글로 구분하며,자주 사용되는 단어와 포스팅들 사이의 거리를 정의하되, 상기 거리는 기준문장과 비교문장의 단어 유사도 또는 동일 단어 수로 정의되고, 상기 거리에 따라 각 포스팅을 디리클레 프로세스 가우시안 믹스처 모델을 이용하여 클러스터링하고, 상기 제목, 상기 내용 및 상기 댓글 각각에 대하여 상기 거리에 대한 최소 평균을 가지는 클러스터의 평균과 분산, 및 클러스터의 개수를 포스팅 특징으로 추출하며,상기 학습 모델을 생성하는 단계는 랜덤 포레스트, XGBoost 및 CatBoost 알고리즘의 앙상블을 통하여 유저를 분류하되, 상기 각 알고리즘의 결과로 나타내어지는 포스팅 봇 여부에 대한 과반수 또는 상기 각 알고리즘의 포스팅 봇 확률의 평균이 기준 확률 이상인지의 여부에 따라 유저를 분류하며, 상기 포스팅 봇을 결정하는 단계는 상기 학습 모델에 의해 결정되는 상기 특징의 중요도에 따라 상기 신규 유저를 분류하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 방법
|
2 |
2
제1항에 있어서,상기 수집하는 데이터는 포스팅 정보, 계정 정보, 팔로우 정보 및 블록체인 코인 거래 정보를 포함하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 방법
|
3 |
3
제1항에 있어서, 상기 특징을 추출하는 단계는,상기 유저가 작성한 포스팅에 대한 시간 엔트로피를 연산하는 단계;상기 유저의 유저간 블록체인 거래 내역을 분석하는 단계; 및 SNS 특징을 추출하는 단계;를 포함하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 방법
|
4 |
4
삭제
|
5 |
5
제3항에 있어서,상기 시간 엔트로피를 연산하는 단계는 하기의 식에 따라 시간 엔트로피를 연산하며, 여기서, S는 시간 엔트로피, p는 상기 포스팅의 작성 시간에 대한 확률분포, n은 데이터 개수이고,모든 포스팅의 작성 시간, 포스팅 중 글의 작성 시간, 및 포스팅 중 댓글의 작성 시간 각각에 대한 일별 엔트로피를 특징으로 추출하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 방법
|
6 |
6
제3항에 있어서,상기 블록체인 거래 내역을 분석하는 단계는 다른 유저와의 블록체인 코인 거래를 분석하고, 블록체인 코인 거래 횟수 및 거래 시간에 대한 엔트로피를 특징으로 추출하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 방법
|
7 |
7
제3항에 있어서,상기 SNS 특징을 추출하는 단계는 초기 포스팅 내역과 최근 포스팅 내역의 시간적 차이(일), 계정이 존속된 기간, 포스팅에 포함된 해시태그(Hashtag), 멘션(Mention) 및 url의 개수, 전체 포스팅에 대한 url이 포함된 포스팅의 비율, 유저를 팔로우한 계정 수, 유저가 팔로우한 계정 수, 유저가 팔로우한 계정 수 대비 유저를 팔로우한 계정 수의 비율, 포스팅 중 글 및 댓글의 횟수, 블록체인 운영진이 유저의 계정을 생성한 여부, 일별 작성한 포스팅 개수, 및 일별 팔로우한 계정 수를 특징으로 추출하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 방법
|
8 |
8
삭제
|
9 |
9
삭제
|
10 |
10
컴퓨터에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고,상기 적어도 하나의 프로세서는, 기분류된 유저의 블록체인 계정을 이용하여 블록체인 SNS 활동 내역에 대한 데이터를 수집하고,상기 데이터에 대한 특징을 추출하되, 상기 포스팅을 제목, 내용 및 댓글로 구분하며, 자주 사용되는 단어와 포스팅들 사이의 거리를 정의하며, 상기 거리는 기준문장과 비교문장의 단어 유사도 또는 동일 단어 수로 정의되고, 상기 거리에 따라 각 포스팅을 디리클레 프로세스 가우시안 믹스처 모델을 이용하여 클러스터링하고, 상기 제목, 상기 내용 및 상기 댓글 각각에 대하여 상기 거리에 대한 최소 평균을 가지는 클러스터의 평균과 분산, 및 클러스터의 개수를 포스팅 특징으로 추출하며, 상기 기분류된 유저의 데이터를 기반으로 상기 추출된 특징을 앙상블 기계학습 기법에 적용하여 학습 모델을 생성하되, 랜덤 포레스트, XGBoost 및 CatBoost 알고리즘의 각각의 결과로 나타내어지는 포스팅 봇 여부에 대한 과반수 또는 상기 각 알고리즘의 포스팅 봇 확률의 평균이 기준 확률 이상인지의 여부에 따른 앙상블을 통하여 유저를 분류하고, 상기 생성된 학습 모델에 의해 결정되는 상기 특징의 중요도에 따라 신규 유저를 분류하여 포스팅 봇을 결정하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 장치
|
11 |
11
제10항에 있어서,상기 수집하는 데이터는 포스팅 정보, 계정 정보, 팔로우 정보 및 블록체인 코인 거래 정보를 포함하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 장치
|
12 |
12
제10항에 있어서,상기 적어도 하나의 프로세서는, 상기 유저가 작성한 포스팅에 대한 시간 엔트로피를 연산하며,상기 유저의 유저간 블록체인 거래 내역을 분석하고, SNS 특징을 추출하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 장치
|
13 |
13
삭제
|
14 |
14
제12항에 있어서,상기 적어도 하나의 프로세서는, 하기의 식에 따라 시간 엔트로피를 연산하며, 여기서, S는 시간 엔트로피, p는 상기 포스팅의 작성 시간에 대한 확률분포, n은 데이터 개수이고,모든 포스팅의 작성 시간, 포스팅 중 글의 작성 시간, 및 포스팅 중 댓글의 작성 시간 각각에 대한 일별 엔트로피를 특징으로 추출하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 장치
|
15 |
15
제12항에 있어서,상기 적어도 하나의 프로세서는, 다른 유저와의 블록체인 코인 거래를 분석하고, 블록체인 코인 거래 횟수 및 거래 시간에 대한 엔트로피를 특징으로 추출하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 장치
|
16 |
16
제12항에 있어서,상기 적어도 하나의 프로세서는 초기 포스팅 내역과 최근 포스팅 내역의 시간적 차이(일), 계정이 존속된 기간, 포스팅에 포함된 해시태그(Hashtag), 멘션(Mention) 및 url의 개수, 전체 포스팅에 대한 url이 포함된 포스팅의 비율, 유저를 팔로우한 계정 수, 유저가 팔로우한 계정 수, 유저가 팔로우한 계정 수 대비 유저를 팔로우한 계정 수의 비율, 포스팅 중 글 및 댓글의 횟수, 블록체인 운영진이 유저의 계정을 생성한 여부, 일별 작성한 포스팅 개수, 및 일별 팔로우한 계정 수를 특징으로 추출하는 기계학습 기법 기반 블록체인 SNS 포스팅 봇 검출 장치
|
17 |
17
삭제
|
18 |
18
삭제
|