맞춤기술찾기

이전대상기술

리치니스를 이용한 문서 집합의 토픽 단어 추출 방법

  • 기술번호 : KST2014053736
  • 담당센터 : 경기기술혁신센터
  • 전화번호 : 031-8006-1570
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법에 관한 것으로 보다 상세하게는, 문서의 집합(예컨대 블로그 포스트의 집합) 상에서 후보 토픽 워드에 대한 커버리지 비교를 통해 토픽들 중 상대적으로 중요하고 비중있게 언급된 것을 찾아 가중치 및 랭킹을 부여하기 위한 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법에 관한 것이다. 본 발명은, 온라인 또는 사용자단말에 저장된 문서 집합에서 후보 토픽 단어(Topic Word)들을 추출하는 제 1 단계; 상기 추출된 각 토픽 단어(Topic Word)들에 대응되는 문서들에 대한 그룹핑(Grouping)을 통해 문서들의 그룹을 적어도 하나 이상 생성하는 제 2 단계; 상기 각 토픽 단어(Topic Word)들을 쿼리(Query)로 미리 설정된 온라인 검색 집합 대상에서 연관 문서를 서치하여 서치 결과를 얻은 뒤 클러스터링(Clustering)을 수행하는 제 3 단계; 상기 각 토픽 단어(Topic Word)에 따라 생성된 클러스터들은 각각 해당 토픽에 대한 서브토픽으로 가정 한 뒤, 상기 각 토픽 단어(Topic Word)를 기초로 상기 그룹핑된 문서를 구성하는 각 문서, 그리고 상기 각 토픽 단어(Topic Word)의 서브 토픽에 해당하는 클러스터들을 구성하는 각 클러스터 간의 유사도를 연산하는 제 4 단계; 상기 각 토픽 단어에 대해 상기 연산된 상기 문서 집합에 속하는 각 문서와 클러스터 간의 유사도를 이용해 상기 문서 집합에 포함된 각 문서와 가장 유사한 클러스터를 매칭하는 제 5 단계; 상기 매칭된 클러스터 수, 그리고 상기 토픽 단어에 대해 상기 문서 집합에 속하는 각 문서와 클러스터와의 유사도의 정량적 수치를 이용해 리치니스(Richness) 점수를 산출하는 제 6 단계; 및 상기 각 토픽 단어의 리치니스(Richness) 점수를 산출하여 리치니스 점수가 높은 순으로 정렬하여 제공한 뒤, 상위로부터 미리 설정된 개수(NO)를 선택하여 최종 토픽 단어로 추출하는 제 7 단계를 포함하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법을 제공함으로써, 문서의 집합(예컨대 블로그 포스트의 집합) 상에서 후보 토픽 워드에 대한 커버리지 비교를 통해 토픽들 중 상대적으로 중요하고 비중있게 언급된 것을 찾아 가중치 및 랭킹을 부여할 수 있는 효과를 제공한다.
Int. CL G06F 17/27 (2006.01) G06F 17/21 (2006.01)
CPC G06F 17/30705(2013.01) G06F 17/30705(2013.01) G06F 17/30705(2013.01)
출원번호/일자 1020120006633 (2012.01.20)
출원인 성균관대학교산학협력단
등록번호/일자 10-1266504-0000 (2013.05.15)
공개번호/일자
공고번호/일자 (20130524) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2012.01.20)
심사청구항수 12

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 성균관대학교산학협력단 대한민국 경기도 수원시 장안구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 박진희 대한민국 경기 수원시 장안구
2 정혜욱 대한민국 서울 동작구
3 이지형 대한민국 서울 용산구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 남정길 대한민국 서울특별시 강남구 테헤란로**길 **, 인화빌딩 *층 (삼성동)(특허법인(유한)아이시스)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 성균관대학교산학협력단 경기도 수원시 장안구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2012.01.20 수리 (Accepted) 1-1-2012-0055234-51
2 출원인정보변경(경정)신고서
Notification of change of applicant's information
2012.04.26 수리 (Accepted) 4-1-2012-5090770-53
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2012.06.20 수리 (Accepted) 4-1-2012-5131828-19
4 출원인정보변경(경정)신고서
Notification of change of applicant's information
2012.06.27 수리 (Accepted) 4-1-2012-5137236-29
5 등록결정서
Decision to grant
2013.05.07 발송처리완료 (Completion of Transmission) 9-5-2013-0315377-84
6 출원인정보변경(경정)신고서
Notification of change of applicant's information
2017.02.23 수리 (Accepted) 4-1-2017-5028829-43
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
온라인 또는 사용자단말에 저장된 문서 집합에서 후보 토픽 단어(Topic Word)들을 추출하는 제 1 단계;상기 추출된 각 토픽 단어(Topic Word)들에 대응되는 문서들에 대한 그룹핑(Grouping)을 통해 문서들의 그룹을 적어도 하나 이상 생성하는 제 2 단계;상기 각 토픽 단어(Topic Word)들을 쿼리(Query)로 미리 설정된 온라인 검색 집합 대상에서 연관 문서를 서치하여 서치 결과를 얻은 뒤 클러스터링(Clustering)을 수행하는 제 3 단계;상기 각 토픽 단어(Topic Word)에 따라 생성된 클러스터들은 각각 해당 토픽에 대한 서브토픽으로 가정 한 뒤, 상기 각 토픽 단어(Topic Word)를 기초로 상기 그룹핑된 문서를 구성하는 각 문서, 그리고 상기 각 토픽 단어(Topic Word)의 서브 토픽에 해당하는 클러스터들을 구성하는 각 클러스터 간의 유사도를 연산하는 제 4 단계;상기 각 토픽 단어에 대해 상기 연산된 상기 문서 집합에 속하는 각 문서와 클러스터 간의 유사도를 이용해 상기 문서 집합에 포함된 각 문서와 가장 유사한 클러스터를 매칭하는 제 5 단계; 및상기 매칭된 클러스터 수, 그리고 상기 토픽 단어에 대해 상기 문서 집합에 속하는 각 문서와 클러스터와의 유사도의 정량적 수치를 이용해 리치니스(Richness) 점수를 산출하는 제 6 단계; 및상기 각 토픽 단어의 리치니스(Richness) 점수를 산출하여 리치니스 점수를 정렬하여 제공한 뒤, 상위로부터 미리 설정된 개수(NO)를 선택하여 최종 토픽 단어로 추출하는 제 7 단계; 를 포함하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
2 2
제 1항에 있어서, 상기 제 1 단계는,상기 문서별 용어 추출(Term Extraction) 알고리즘을 적용하여 상기 문서 집합에서 상기 후보 토픽 단어들을 추출하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
3 3
제 1항에 있어서, 상기 제 3 단계의 상기 미리 설정된 온라인 검색 집합 대상은,웹(Web) 및 뉴스(News), 블로고스피어(Blogosphere) 중 적어도 하나 이상 포함하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
4 4
제 1항에 있어서, 상기 제 3 단계는,상기 서치 결과를 얻은 뒤, 클러스터링 알고리즘(Clustering Algorithm)을 적용하여 클러스터링(Clustering)을 수행하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
5 5
제 1항에 있어서, 상기 제 3 단계의 상기 클러스터링은, 같은 속성을 갖는 연관 문서들을 여러 개 모아서 하나의 대상으로 한 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
6 6
제 1항에 있어서, 상기 제 4 단계는,상기 유사도인 (Rel(d, Ci))을 에 의해 연산하며, 상기 d는 하나의 토픽 단어(Topic Word)들에 대응되는 문서들에 대한 그룹핑(Grouping)을 통해 생성된 문서들의 그룹인 C 상에서 하나의 문서를 나타내며, 상기 Ci는 해당 하나의 토픽 단어를 기초로 서칭 및 클러스터링 되어 생성된 i(i는 1 이상의 자연수)번째 클러스터를 의미하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
7 7
제 6항에 있어서, 상기 제 5 단계는,상기 서브토픽에 대한 커버리지(Coverage)를 알아보기 위해 상기 제 4 단계에서 연산된 각 문서와 클러스터 간의 유사도를 이용해 가장 유사한 클러스터에 각 토픽 단어로 설정된 각 문서를 매칭시키는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
8 8
제 7에 있어서, 상기 제 5 단계는,클러스터 Ci에 대해 그룹핑된 문서들 중 최종적으로 문서 d는 에 의해 매칭되며, 그룹 C에서 문서에 매칭된 클러스터를 의미하는 C(d)는 상기 에 의해 연산된 클러스터 중 유사도가 최대값을 갖는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
9 9
제 8항에 있어서, 상기 제 6 단계는, 그룹 C에서 문서에 매칭된 클러스터를 나타내는 "C(d)"에 대한 매칭된 문서 d와의 유사도를 나타내는 Rel(d, C(d))의 합을 나타내는 유사도 점수(Scorerel(w))를 에 의해 연산하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
10 10
제 9항에 있어서, 상기 제 6 단계는, 상기 매칭된 클러스터 수를 의미하는 Scorecluster(w)는 에 의해 연산하는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
11 11
제 10항에 있어서, 상기 제 6 단계는,상기 리치니스(Richness) 점수를 나타내는 Scorerich(W)는에 의해 상기 유사도 점수(Scorerel(w))와 상기 매칭된 클러스터 수(Scorecluster(w))의 멀티플라이에 의해 연산되는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
12 12
제 10항에 있어서, 상기 제 6 단계는,상기 리치니스(Richness) 점수를 나타내는 Scorerich(W)는상기 유사도 점수(Scorerel(w))와 상기 매칭된 클러스터 수(Scorecluster(w))의 합에 의해 연산되는 것을 특징으로 하는 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 정부)교과부 성균관대학교 2010일반기초연구지원사업(공동) 글쓰기 능력 향상을 위한 웹기반의 지능형 동료평가시스템