1 |
1
질의어를 수신하는 질의어 선택부; SNS 사용자들 간에 전송된 복수개의 메시지를 저장하는 SNS 데이터베이스에 저장된 상기 복수개의 메시지 중 상기 질의어에 대응하는 메시지를 검색하여 획득하는 메시지 검색부; 상기 메시지 검색부에서 복수개의 어휘 후보를 추출하는 어휘 추출부; 상기 복수개의 어휘 후보 각각이 상기 메시지에서의 나타난 어휘 빈도수에 대응하는 기본 자질값과, 상기 복수개의 어휘 후보 각각이 기설정된 감정 표현과 함께 나타난 빈도에 대응하는 감성 자질값 및 상기 어휘 후보들 각각이 포함된 메시지들이 재전송된 빈도를 나타내는 재전송 자질값을 계산하는 자질값 추출부; 상기 어휘 후보들 각각이 포함된 메시지들의 시간에 따른 개수의 변화를 카이제곱으로 계산하여 상기 복수개의 어휘 후보들의 중요도를 계산하는 시간 자질값 추출부; 및 상기 기본 자질값, 상기 감성 자질값 및 상기 재전송 자질값을 이용하여 통합 자질값을 계산하고, 상기 통합 자질값 및 상기 어휘 후보들의 중요도를 이용하여 핵심어휘 중요도를 계산하여, 계산된 상기 핵심어휘 중요도가 높은 상위 기설정된 개수의 어휘 후보를 핵심사건을 표현하는 핵심사건 어휘로 선택하는 핵심사건 추출부;를 포함하는 SNS 메시지 분석을 이용한 핵심사건 추출 시스템
|
2 |
2
제1 항에 있어서, 상기 어휘 추출부는 상기 메시지 검색부에서 획득된 복수개의 메시지에서 불용어를 제거하는 형태소 분석기; 및 상기 불용어가 제거된 복수개의 메시지에서 어휘간 거리가 기설정 거리 이내인 어휘들의 바이그램을 생성하여 상기 복수개의 어휘 후보를 추출하는 어휘 추출부;를 포함하는 것을 특징으로 하는 SNS 메시지 분석을 이용한 핵심사건 추출 시스템
|
3 |
3
제2 항에 있어서, 상기 자질값 추출부는 상기 복수개의 어휘 후보 각각에 대해 상기 메시지에서의 나타난 어휘 빈도수에 대응하는 기본 자질값을 계산하는 기본 자질값 추출부; 상기 복수개의 어휘 후보 각각이 기설정된 감정 표현과 함께 나타난 빈도에 대응하는 감성 자질값을 계산하는 감성 자질값 추출부; 및 상기 어휘 후보들 각각이 포함된 메시지들이 재전송된 빈도를 나타내는 재전송 자질값을 계산하는 재전송 자질값 추출부;를 포함하는 것을 특징으로 하는 소셜 네트워크 SNS 메시지 분석을 이용한 핵심사건 추출 시스템
|
4 |
4
제3 항에 있어서, 상기 기본 자질값 추출부는 상기 기본 자질값을 수학식 (여기서 Freq(w, t0)는 기본 자질값이고, w는 바이그램 어휘 후보들을 나타내며, t0는 시간 나타내며, D는 시간(t0)에 속하는 메시지를 나타내며, tf(w, D)는 어휘 후보(w)가 메시지(D)에 나타난 빈도수를 계산하는 함수이다
|
5 |
5
제4 항에 있어서, 상기 감성 자질값 추출부는 상기 감성 자질값을 수학식(여기서 OpFreq(w, s)는 감성 자질값이고, w는 바이그램 어휘 후보들을 나타내며, s는 감성 표현을 나타내고, D는 메시지를 나타내며, tf(w, s, D)는 어휘 후보(w)가 감성 표현(s)와 함께 메시지(D)에 나타난 빈도수를 계산하는 함수이다
|
6 |
6
제5 항에 있어서, 상기 재전송 자질값 추출부는 상기 재전송 자질값을 수학식(여기서 RtFreq(w, t0)는 재전송 자질값이고, w는 바이그램 어휘 후보들을 나타내며, Rt는 재전송을 나타내고, t0는 시간 나타내며, D는 시간(t0)에 속하는 메시지를 나타내며, tf(w, D)는 어휘 후보(w)가 메시지(D)에 나타난 빈도수를 계산하는 함수이다
|
7 |
7
제6 항에 있어서, 상기 시간 자질값 추출부는 상기 어휘 후보 중요도를 수학식 (여기서, ChiScore(w, t0)는 어휘 후보(w)의 중요도이고, a는 시간(t0)에 어휘 후보(w)가 포함된 메시지 개수, b는 시간(t0)에 어휘 후보가 포함되지 않은 메시지 개수, c는 시간(t0) 이전에 어휘 후보(w)가 포함된 메시지 개수, d는 시간(t0) 이전에 어휘 후보(w)가 포함되지 않은 메시지 개수(d)를 나타낸다
|
8 |
8
제7 항에 있어서, 상기 핵심사건 추출부는 상기 통합 자질값을 수학식 (여기서, α, β, γ는 각각 기본 자질 가중치, 감성 자질 가중치 및 재전송 자질 가중치이다
|
9 |
9
SNS 사용자들 간에 전송된 복수개의 메시지를 저장하는 SNS 데이터베이스 및 핵심사건 추출 장치를 포함하는 핵심사건 추출 시스템의 SNS의 메시지 분석을 이용한 핵심사건 추출 방법에 있어서, 상기 핵심사건 추출 장치가 질의어를 수신하는 단계; 상기 SNS 데이터베이스에 저장된 상기 복수개의 메시지 중 상기 질의어에 대응하는 메시지를 검색하여 획득하는 단계; 상기 메시지 검색부에서 복수개의 어휘 후보를 추출하는 단계; 상기 복수개의 어휘 후보 각각이 상기 메시지에서의 나타난 어휘 빈도수에 대응하는 기본 자질값을 계산하는 단계; 상기 복수개의 어휘 후보 각각이 기설정된 감정 표현과 함께 나타난 빈도에 대응하는 감성 자질값을 계산하는 단계; 상기 어휘 후보들 각각이 포함된 메시지들이 재전송된 빈도를 나타내는 재전송 자질값을 계산하는 단계; 상기 어휘 후보들 각각이 포함된 메시지들의 시간에 따른 개수의 변화를 카이제곱으로 계산하여 상기 복수개의 어휘 후보들의 중요도를 계산하는 단계; 상기 기본 자질값, 상기 감성 자질값 및 상기 재전송 자질값을 이용하여 통합 자질값을 계산하는 단계; 상기 통합 자질값 및 상기 어휘 후보들의 중요도를 이용하여 핵심어휘 중요도를 계산하는 단계; 및 계산된 상기 핵심어휘 중요도가 높은 상위 기설정된 개수의 어휘 후보를 핵심사건을 표현하는 핵심사건 어휘로 선택하는 단계;를 포함하는 SNS 메시지 분석을 이용한 핵심사건 추출 방법
|
10 |
10
제9 항에 있어서, 상기 복수개의 어휘 후보를 추출하는 단계는 상기 메시지 검색부에서 획득된 복수개의 메시지에서 형태소 분석을 통해 불용어를 제거하는 단계; 및 상기 불용어가 제거된 복수개의 메시지에서 어휘간 거리가 기설정 거리 이내인 어휘들의 바이그램을 생성하여 상기 복수개의 어휘 후보를 추출하는 단계;를 포함하는 것을 특징으로 하는 SNS 메시지 분석을 이용한 핵심사건 추출 방법
|
11 |
11
제10 항에 있어서, 상기 기본 자질값을 계산하는 단계는 상기 기본 자질값을 수학식 (여기서 Freq(w, t0)는 기본 자질값이고, w는 바이그램 어휘 후보들을 나타내며, t0는 시간 나타내며, D는 시간(t0)에 속하는 메시지를 나타내며, tf(w, D)는 어휘 후보(w)가 메시지(D)에 나타난 빈도수를 계산하는 함수이다
|
12 |
12
제11 항에 있어서, 상기 감성 자질값을 계산하는 단계는 상기 감성 자질값을 수학식(여기서 OpFreq(w, s)는 감성 자질값이고, w는 바이그램 어휘 후보들을 나타내며, s는 감성 표현을 나타내고, D는 메시지를 나타내며, tf(w, s, D)는 어휘 후보(w)가 감성 표현(s)와 함께 메시지(D)에 나타난 빈도수를 계산하는 함수이다
|
13 |
13
제12 항에 있어서, 상기 재전송 자질값을 계산하는 단계는 상기 재전송 자질값을 수학식(여기서 RtFreq(w, t0)는 재전송 자질값이고, w는 바이그램 어휘 후보들을 나타내며, Rt는 재전송을 나타내고, t0는 시간 나타내며, D는 시간(t0)에 속하는 메시지를 나타내며, tf(w, D)는 어휘 후보(w)가 메시지(D)에 나타난 빈도수를 계산하는 함수이다
|
14 |
14
제13 항에 있어서, 상기 통합 자질값을 계산하는 단계는 상기 통합 자질값을 수학식 (여기서, α, β, γ는 각각 기본 자질 가중치, 감성 자질 가중치 및 재전송 자질 가중치이다
|
15 |
15
제14 항에 있어서, 상기 어휘 후보 중요도를 계산하는 단계는 상기 어휘 후보 중요도를 수학식 (여기서, ChiScore(w, t0)는 어휘 후보(w)의 중요도이고, a는 시간(t0)에 어휘 후보(w)가 포함된 메시지 개수, b는 시간(t0)에 어휘 후보가 포함되지 않은 메시지 개수, c는 시간(t0) 이전에 어휘 후보(w)가 포함된 메시지 개수, d는 시간(t0) 이전에 어휘 후보(w)가 포함되지 않은 메시지 개수(d)를 나타낸다
|
16 |
16
제15 항에 있어서, 상기 핵심 어휘 중요도를 계산하는 단계는 상기 핵심 어휘 중요도를 수학식 (여기서 λ는 카이제곱 가중치이다
|