1 |
1
마이크로블로그 텍스트를 수집하여 개체명을 인식하는 개체명인식부;인식된 상기 개체명 중 중의성 있는 개체명 주변 문맥의 비중의성 개체명들을 지식베이스를 이용하여 분석함에 따른 중의성 해소 결과를 출력하는 문맥모델부;웹으로부터 뉴스 기사를 수집하고, 수집된 상기 뉴스 기사에 대하여 지식베이스의 특정 엔트리에 대한 링크를 생성하여 분석함에 따른 중의성 해소 결과를 출력하는 이슈모델부; 마이크로블로그 텍스트 게시자로부터 작성된 웹 기록을 수집하여 분석함에 따른 중의성 해소 결과를 출력하는 유저모델부; 및상기 문맥모델부, 유저모델부 및 이슈모델부로부터 출력된 중의성 해소 결과를 통합 분석하여 개체명 링크 작업을 수행하는 링킹모델부를 포함하고,상기 문맥모델부는,상기 중의성 있는 개체명의 후보 엔트리 각각의 지식베이스 페이지에 대하여 상기 비중의성 개체명의 링크 출현 횟수를 계산함에 따라 중의성 해소 결과를 출력하는 것이고,상기 유저모델부는,게시자의 과거 게시글을 웹으로부터 전부 또는 일부를 추출하여 좌최장일치법, uni-gram 또는 bi-gram 자질을 이용함에 따라 지식베이스 엔트리 에 해당하는 개체명이 존재하는 개체명 집합을 구축하고, 추출된 상기 과거 게시글로부터 비중의성 개체명의 추출 빈도에 따라 중의성 해소 결과를 출력하는 것이고,상기 이슈모델부는,마이크로블로그 텍스트의 게시 날짜의 소정 일수 전후의 뉴스 기사를 수집하고, 지식베이스 엔트리 페이지의 텍스트와 뉴스 기사 페이지의 텍스트 간의 코사인 유사도를 이용하여 각각의 뉴스 기사에 대하여 특정 지식베이스 엔트리를 링크한 페이지를 기반으로 이슈 스코어링을 함에 따라 중의성 해소 결과를 출력하는 것이고,상기 링킹모델부는,상기 문맥모델부, 이슈모델부의 출력 각각에 대하여 가중치 매개변수를 곱한 결과에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것을 특징으로 하는 마이크로블로그의 개체명 링킹 시스템
|
4 |
4
제1항에 있어서,상기 문맥모델부는, (003c#D003e#는 링킹되는 문서 D에 나타나는 모든 개체 집합, 는 위키피디아 엔트리에 존재하는 j 번 째 후보 개체, 는 중의 성 개체가 나타나는 문서 D에 존재하는 i번 째 비중의성 개체임)의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고,상기 유저모델부는, (는 중의성이 해소되어야 하는 개체명에 대하여 위키피디아 엔트리에 존재하는 j번 째 후보 개체, 는 중의성 개체가 나타나는 문서에 존재하는 i번 째 비중의성 개체임)의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고,상기 이슈모델부는,( 003c#D003e#는 링킹 되는 문서 D에 나타나는 모든 개체 집합, 는 위키피디아 엔트리에 존재하는 j번 째 후보 개체, 는 를 주제로 하는 i번 째 뉴스기사, 는 모든 의 집합, 는 중의성 개체가 나타나는 문서 D에 존재하 는 k번 째 비중의성 개체임)의 식에 따라 가장 높은 점수를 가지는 중의성 해소 결과를 출력하는 것을 특징으로 하는 것이고,상기 링킹모델부는,(E는 중의성이 해소되어야 하는 개체명임)의 식에 따라 개체명의 중의성을 해소하고, 개체명 링크 작업을 수행하는 것을 특징으로 하는 마이크로블로그의 개체명 링킹 시스템
|