1 |
1
이중 클러스터링 기반 소비자 인식 분석 장치의 소비자 인식 분석 방법에 있어서,온라인 매체로부터 데이터를 수집하는 단계;상기 수집된 데이터를 전처리하는 단계;상기 전처리된 데이터로부터 도출된 단어 리스트를 벡터화하여 단어 표현(word representation)을 수행하는 단계;상기 단어 표현 결과를 기반으로 단어 클러스터링(word clustering)을 수행하는 단계;상기 단어 클러스터링 결과를 기반으로 문서 벡터를 생성하고, 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링(document clustering)을 수행하는 단계; 및상기 문서 클러스터링 결과를 기반으로 소비자 인식을 분석하는 단계를 포함하고,상기 단어 표현을 수행하는 단계는,온라인 소셜 미디어로부터 특정 주제에 관한 포스트(post)와 코멘트(comment)를 포함하는 전처리 데이터로부터 도출된 단어 리스트를 워드투벡터(Word2Vec)를 포함하는 제1 알고리즘을 통해 학습하고, 이를 통해 하나의 단어를 하나의 행렬(matrix)로 나타내며,상기 단어 클러스터링을 수행하는 단계는,상기 단어 표현 결과에 k-평균 클러스터링(k-means clustering)를 포함하는 제2 알고리즘을 통해 단어의 의미를 기반으로 단어 클러스터링을 수행하고, 가까운 코사인 거리 순서로 각 단어 클러스터에 속하는 단어를 정렬(sorting)하며,상기 문서 클러스터링을 수행하는 단계는,상기 단어 클러스터링 결과를 따른 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되는지를 확인하고,상기 확인 결과, 상기 단어 클러스터링 결과를 따른 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되면 엔-그램(N-gram)를 포함하는 제3 알고리즘을 통해 상기 단어를 엔-그램 형태로 변형하며, 상기 변형된 단어에 대한 각 단어들에 대하여 각 문서 내의 TF-IDF(Term Frequency - Inverse Document Frequency) 스코어를 산출하여 제1 결과 행렬을 생성하고, 상기 변형된 단어에 대한 각 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하여 제2 결과 행렬을 생성하며, 제1 결과 행렬과 상기 제2 결과 행렬을 곱하여 문서 벡터를 생성하고, 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행하는 것을 특징으로 하는 소비자 인식 분석 방법
|
2 |
2
삭제
|
3 |
3
삭제
|
4 |
4
삭제
|
5 |
5
삭제
|
6 |
6
삭제
|
7 |
7
삭제
|
8 |
8
삭제
|
9 |
9
하드웨어인 컴퓨터와 결합되어, 상기 제1 항의 소비자 인식 분석 방법을 수행하기 위해 매체에 저장된, 소비자 인식 분석 장치의 소비자 인식 분석 방법을 제공하는 컴퓨터 프로그램
|
10 |
10
이중 클러스터링 기반 소비자 인식 분석 장치에 있어서,온라인 매체로부터 데이터를 수집하는 데이터 수집부;상기 수집된 데이터를 전처리하는 전처리부;상기 전처리된 데이터로부터 도출된 단어 리스트를 벡터화하는 단어 표현부;상기 단어 표현 결과를 기반으로 단어 클러스터링을 수행하는 단어 클러스터링부;상기 단어 클러스터링 결과를 기반으로 문서 벡터를 생성하고, 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행하는 문서 클러스터링부; 그리고,상기 문서 클러스터링 결과를 기반으로 소비자 인식을 분석하는 소비자 인식 분석부를 포함하고,상기 단어 표현부는,온라인 소셜 미디어로부터 특정 주제에 관한 포스트(post)와 코멘트(comment)를 포함하는 전처리 데이터로부터 도출된 단어 리스트를 워드투벡터(Word2Vec)를 포함하는 제1 알고리즘을 통해 학습하고, 이를 통해 하나의 단어를 하나의 행렬(matrix)로 나타내며,상기 단어 클러스터링부는,상기 단어 표현 결과에 k-평균 클러스터링(k-means clustering)를 포함하는 제2 알고리즘을 통해 단어의 의미를 기반으로 단어 클러스터링을 수행하고, 가까운 코사인 거리 순서로 각 단어 클러스터에 속하는 단어를 정렬(sorting)하며,상기 문서 클러스터링부는,상기 단어 클러스터링 결과를 따른 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되는지를 확인하고,상기 확인 결과, 상기 단어 클러스터링 결과를 따른 단어들 중 표의문자 및 표음문자 중 적어도 어느 하나가 포함되면 엔-그램(N-gram)를 포함하는 제3 알고리즘을 통해 상기 단어를 엔-그램 형태로 변형하며, 상기 변형된 단어에 대한 각 단어들에 대하여 각 문서 내의 TF-IDF(Term Frequency - Inverse Document Frequency) 스코어를 산출하여 제1 결과 행렬을 생성하고, 상기 변형된 단어에 대한 각 단어들에 대하여 각 단어 클러스터와의 연관도를 산출하여 제2 결과 행렬을 생성하며, 제1 결과 행렬과 상기 제2 결과 행렬을 곱하여 문서 벡터를 생성하고, 상기 생성한 문서 벡터를 관련된 클러스터에 매핑하여 문서 클러스터링을 수행하는 것을 특징으로 하는 소비자 인식 분석 장치
|