1 |
1
토픽 탐지 장치가 소셜 네트워크 서비스의 데이터 스트림에서 토픽을 탐지하는 방법에 있어서, 상기 데이터 스트림을 적어도 하나 이상의 트랜잭션을 포함하는 복수의 배치(batch)로 구분하는 단계;가장 최근 배치에 포함된 각 단어에 대한 유틸리티(utility)를 산출하는 단계;각 단어에 대한 유틸리티를 이용하여 최소 유틸리티 임계치를 결정하는 단계;상기 최소 유틸리티 임계치에 기초한 하이 유틸리티 패턴 마이닝으로 후보 토픽 패턴들을 생성하는 단계;상기 후보 토픽 패턴들로부터 트리를 구축하는 단계;상기 구축된 트리의 루트노드에서 리프노드까지 경로를 탐색하여 패턴을 추출하는 단계;상기 추출된 각 패턴들의 유틸리티를 각각 산출하는 단계; 및상기 산출한 패턴 유틸리티 값을 내림차순으로 정렬하여 상위 일정 개수를 최종 토픽 패턴으로 추출하는 단계를 포함하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
2 |
2
제1항에 있어서,상기 유틸리티(utility)를 산출하는 단계 이전에, 일정 시간 간격으로 상기 소셜 네트워크 서비스의 데이터 스트림을 수집하는 단계를 더 포함하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
3 |
3
제1항에 있어서,상기 유틸리티를 산출하는 단계는, 상기 가장 최근 배치에 포함된 각 트랜잭션별로 단어 및 각 단어의 빈도수를 획득하여, 트랜잭션 테이블을 생성하는 단계; 및상기 가장 최근 배치에 포함된 각 단어마다 현재 배치와 이전 배치의 빈도수에 기초하여 각 단어에 대한 가중치를 산출하여 유틸리티 테이블을 생성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
4 |
4
제3항에 있어서,상기 유틸리티 테이블을 생성하는 단계는, 상기 가장 최근 배치에 포함된 각 단어의 최근 빈도수와 이전 배치에서의 과거 빈도수를 획득하는 단계;상기 가장 최근 배치에 포함된 각 단어에 대해, 최근 빈도수와 과거 빈도수의 빈도수 차이 및 빈도수 증가율을 산출하는 단계; 상기 빈도수 차이 및 빈도수 증가율에 기초하여 상기 가장 최근 배치에 포함된 각 단어에 대한 가중치를 각각 산출하는 단계; 및상기 각 단어에 대한 가중치를 이용하여 유틸리티 테이블을 생성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
5 |
5
제4항에 있어서, 상기 각 단어에 대한 가중치는 아래 수학식으로 산출되는 것을 특징으로 하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
6 |
6
제1항에 있어서, 상기 최소 유틸리티 임계치를 결정하는 단계는, 상기 가장 최근 배치에 포함된 단어들 중에서 가중치가 높은 순으로 일정 개수의 단어들을 선택하는 단계;상기 선택된 단어 각각에 대해, 항목집합을 포함하는 트랜잭션에 속한 항목들의 유틸리티 평균(α), 상기 항목집합을 포함하는 트랜잭션의 평균 길이(β), 상기 항목집합을 포함하는 트랜잭션 개수(γ)를 각각 산출하는 단계; 및상기 선택된 단어들에 대한 유틸리티 평균(α), 트랜잭션의 평균 길이(β), 트랜잭션 개수(γ)의 평균을 각각 산출하여, 최소 유틸리티 임계치를 산출하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
7 |
7
제6항에 있어서, 상기 최소 유틸리티 임계치(min-util)는 아래 수학식으로 산출되는 것을 특징으로 하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
8 |
8
제1항에 있어서, 상기 후보 토픽 패턴을 생성하는 단계는,상기 가장 최근 배치에서 선택된 단어를 포함하는 단어 집합에 대한 트랜잭션-가중치 유틸리티(TWU)를 산출하는 단계; 및 상기 트랜잭션-가중치 유틸리티가 최소 유틸리티 임계치 이상인 단어 집합을 후보 토픽 패턴으로 생성하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
9 |
9
토픽 탐지 장치가 소셜 네트워크 서비스의 데이터 스트림에서 토픽을 탐지하는 방법에 있어서,상기 데이터 스트림에 슬라이딩 윈도우 기법을 적용하여 적어도 하나 이상의 트랜잭션을 포함하는 복수개의 배치(batch)로 구분하는 단계;상기 복수의 배치 중 가장 최근 배치에 포함된 각 트랜잭션별로 단어 및 각 단어의 빈도수를 획득하여, 트랜잭션 테이블을 생성하는 단계;상기 가장 최근 배치에 포함된 각 단어마다 현재 배치와 이전 배치의 빈도수에 기초하여 각 단어에 대한 가중치를 산출하여 유틸리티 테이블을 생성하는 단계;각 단어에 대한 상기 유틸리티 테이블을 이용하여 최소 유틸리티 임계치를 결정하는 단계;상기 최소 유틸리티 임계치에 기초한 하이 유틸리티 패턴 마이닝으로 후보 토픽 패턴들을 생성하는 단계; 및상기 후보 토픽 패턴들중에서 최종 토픽 패턴을 추출하는 단계를 포함하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
10 |
10
제1항에 있어서, 상기 후보 토픽 패턴들로부터 트리를 구축하는 단계는, 제1 후보 토픽 패턴의 제1 프리픽스 노드가 헤더 테이블에 존재하는지를 판단하는 단계;상기 제1 프리픽스 노드가 헤더 테이블에 존재하지 않은 경우, 상기 제1 후보 토픽 패턴을 루트 노드의 서브트리로 추가하고, 상기 제1 프리픽스 노드가 헤더 테이블에 존재하는 경우, 상기 제1 프리픽스 노드의 헤더 테이블로부터 연결된 경로의 서브트리에 나머지 노드의 존재 여부를 판단하고, 나머지 노드가 존재할 경우 삽입을 종료하고, 나머지 경로가 존재하지 않을 경우 경로 마지막 노드의 서브 트리로 나머지 노드를 추가하는 단계를 포함하는 것을 특징으로 하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
11 |
11
제1항에 있어서, 패턴 유틸리티(PU)는 아래 수학식을 이용하여 산출하는 것을 특징으로 하는 소셜 네트워크 서비스의 데이터 스트림에서 토픽 탐지 방법
|
12 |
12
소셜 네트워크 서비스의 데이터 스트림에서 토픽을 탐지하는 토픽 탐지 장치에 있어서, 통신망을 통해 소셜 네트워크 서비스를 제공하는 서버와의 통신을 위한 통신부;일정 시간 간격으로 소셜 네트워크 서비스의 데이터 스트림을 수집하고, 상기 데이터 스트림에 포함된 각 단어에 대한 유틸리티를 산출하며, 각 단어에 대한 유틸리티를 이용하여 최소 유틸리티 임계치를 동적으로 결정하고, 상기 최소 유틸리티 임계치에 기초한 하이 유틸리티 패턴 마이닝으로 후보 토픽 패턴들을 생성하며, 상기 후보 토픽 패턴들로부터 트리를 구축하고, 상기 구축된 트리의 루트노드에서 리프노드까지 경로를 탐색하여 패턴을 추출하며, 상기 추출된 각 패턴들의 유틸리티를 각각 산출하고, 상기 산출한 패턴 유틸리티 값을 내림차순으로 정렬하여 상위 일정 개수를 최종 토픽 패턴으로 추출하는 토픽 패턴 추출부를 포함하는 토픽 탐지 장치
|