1 |
1
확률 분포를 계산할 수 있는 장치를 이용하여, 하나 이상의 엔티티에 대한 의견이 기술된 문서 집합에서 시맨틱 엔티티 토픽(semantic entity topic)을 추출하는 방법에 있어서,(a) 토픽에 대한 어휘 분포 및 감정이 반영된 엔티티에 대한 어휘 분포인 감정 기반 엔티티에 대한 어휘 분포를 추출하는 단계;(b) 상기 토픽에 대한 어휘 분포와 상기 감정 기반 엔티티에 대한 어휘 분포를 이용하여 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하는 단계;(c) 상기 문서 집합에 포함된 각 문서에 대해, 토픽 분포, 감정 분포, 및 엔티티 분포를 추출하는 단계;(d) 상기 (a) 단계 내지 상기 (c) 단계에서 추출된 각 분포에 대해 통계적 추론을 수행하는 단계;(e) 상기 문서 집합에 포함된 각 문서의 각 단어에 대해, 토픽, 감정, 및 엔티티를 추출하는 단계; 및(f) 상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포에서 상기 (e) 단계에서 추출된 토픽, 감정, 및 엔티티에 대응하는 단어를 선택하는 단계를 포함하고,상기 통계적 추론에는 깁스 샘플링(Gibbs sampling) 기법이 사용되고,상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하는 단계는 수학식에 의해 정의되는 확률분포를 이용하여 상기 토픽-감정 기반 엔티티 쌍에 대한 어휘 분포를 추출하고,상기 수학식은,이고,상기 는 단어를 의미하고, 상기 는 토픽을 의미하고, 상기 는 엔티티를 의미하고, 상기 은 감정을 의미하고, 상기 는 토픽의 집합을 의미하고, 상기 는 엔티티의 집합을 의미하고, 상기 는 감정의 집합을 의미하고, 상기 는 모델에 사용되는 변수의 집합을 의미하고, 상기 은 토픽()과 감정()을 가진 엔티티()에 할당된 단어()의 개수를 의미하고, 상기 은 토픽-감정 기반 엔티티 쌍의 어휘 분포를 위한 토픽의 디리클레 사전확률을 의미하고, 상기 는 토픽()에 할당된 단어()의 개수를 의미하고, 상기 는 토픽의 어휘 분포를 위한 디리클레 사전확률을 의미하고, 상기 는 문서 집합 내의 단어의 개수를 의미하고, 상기 는 문서 집합의 단어 중 토픽()에 할당된 단어의 개수를 의미하고, 상기 는 토픽-감정 기반 엔티티 쌍의 어휘 분포를 위한 감정 기반 엔티티의 디리클레 사전확률을 의미하고, 상기 는 감정()을 가진 엔티티()에 할당된 단어()의 개수를 의미하고, 상기 는 엔티티의 어휘 분포를 위한 디리클레 사전확률을 의미하고, 상기 는 문서 집합의 단어 중 감정()을 가진 엔티티()에 할당된 단어의 개수를 의미하고, 상기 는 문서 집합의 단어 중 토픽()과 감정()을 가진 엔티티()에 할당된 단어의 개수를 의미하는,시맨틱 엔티티 토픽 추출 방법
|