1 |
1
복수의 문서 데이터를 수신하고, 상기 수신된 문서 데이터 중 중복된 문서 데이터를 제거하는 전처리를 수행하는 전처리부;상기 전처리된 문서 데이터로부터 적어도 하나 이상의 특징 명사를 추출하고, 상기 추출된 특징 명사 각각에 대한 군집을 형성하며, 상기 형성된 군집 각각을 유형화하는 데이터 유형화부 및 상기 유형화된 군집 각각에 대한 하위 군집을 형성하고, 상기 형성된 하위 군집 각각의 실루엣 계수에 기초하여 악성민원을 검출하는 악성민원 검출부를 포함하는 악성민원 검출장치
|
2 |
2
제1항에 있어서, 상기 전처리부는, 상기 중복된 데이터가 제거된 문서 데이터에 대하여 노이즈 제거, 띄어쓰기 교정 및 맞춤법 교정 중 적어도 하나의 상기 전처리를 수행하는 악성민원 검출장치
|
3 |
3
제1항에 있어서, 상기 데이터 유형화부는, 상기 전처리된 문서 데이터로부터 복수의 명사를 추출하고, 상기 추출된 명사 각각에 대한 명사 빈도수 및 IDF(inverse document frequency) 값에 기초하여 상기 특징 명사를 추출하는 악성민원 검출장치
|
4 |
4
제3항에 있어서, 상기 데이터 유형화부는,상기 전처리된 문서 데이터의 개수와, 상기 전처리된 문서 데이터에서 상기 추출된 명사 중 어느 하나의 명사를 포함하는 문서 데이터의 개수에 기초하여 상기 어느 하나의 명사에 대한 IDF 값을 산출하는 악성민원 검출장치
|
5 |
5
제1항에 있어서, 상기 데이터 유형화부는, 상기 추출된 특징 명사 각각과 상기 전처리된 문서 데이터에 기초하여 TF-IDF(term frequency-inverse document frequency) 행렬을 구성하고, 상기 구성된 TF-IDF 행렬 각각에 대응되는 상기 군집을 형성하며, 상기 형성된 군집에 상기 수신된 문서 데이터 중 대응되는 문서 데이터를 할당하는 악성민원 검출장치
|
6 |
6
제5항에 있어서, 상기 데이터 유형화부는,K-평균 군집화 알고리즘(K-means clustering algorithm) 및 코사인 유사도에 기초하여 상기 군집을 형성하고, 상기 형성된 군집에 상기 수신된 문서 데이터 중 대응되는 문서 데이터를 할당하는악성민원 검출장치
|
7 |
7
제6항에 있어서, 상기 데이터 유형화부는,상기 K-평균 군집화 알고리즘을 통해 형성된 군집 각각의 중심점을 구성하고, 상기 구성된 중심점 각각과 상기 수신된 문서 데이터 각각에 대한 상기 코사인 유사도를 산출하며, 상기 산출된 코사인 유사도에 기초하여 상기 형성된 군집에 상기 수신된 문서 데이터 중 대응되는 문서 데이터를 할당하는악성민원 검출장치
|
8 |
8
제5항에 있어서, 상기 데이터 유형화부는,상기 형성된 군집 각각에 포함된 특징 명사 각각에 대한 TF-IDF 평균값을 산출하고, 상기 산출된 TF-IDF 평균값이 가장 높은 특징 명사를 대응되는 군집의 대표 유형으로 설정하는 상기 유형화를 수행하는악성민원 검출장치
|
9 |
9
제1항에 있어서, 상기 악성민원 검출부는, 상기 유형화된 군집 각각에 대한 하위 특징 명사를 추출하고, 상기 추출된 하위 특징 명사 각각에 대한 상기 하위 군집을 형성하는 악성민원 검출장치
|
10 |
10
제9항에 있어서, 상기 악성민원 검출부는, K-평균 군집화 알고리즘 및 유클리디안 거리에 기초하여 상기 하위 군집을 형성하는악성민원 검출장치
|
11 |
11
제1항에 있어서, 상기 악성민원 검출부는, 상기 형성된 하위 군집 각각에 대한 상기 실루엣 계수를 산출하고, 상기 산출된 실루엣 계수간의 유사도에 기초하여 상기 악성민원을 검출하는 악성민원 검출장치
|
12 |
12
전처리부에서, 복수의 문서 데이터를 수신하고, 상기 수신된 문서 데이터 중 중복된 문서 데이터를 제거하는 전처리를 수행하는 단계;데이터 유형화부에서, 상기 전처리된 문서 데이터로부터 적어도 하나 이상의 특징 명사를 추출하고, 상기 추출된 특징 명사 각각에 대한 군집을 형성하며, 상기 형성된 군집 각각을 유형화하는 단계 및 악성민원 검출부에서, 상기 유형화된 군집 각각에 대한 하위 군집을 형성하고, 상기 형성된 하위 군집 각각의 실루엣 계수에 기초하여 악성민원을 검출하는 단계를 포함하는 악성민원 검출방법
|