맞춤기술찾기

이전대상기술

크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치(Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis)

  • 기술번호 : KST2017006318
  • 담당센터 : 경기기술혁신센터
  • 전화번호 : 031-8006-1570
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 인터넷에서 생성되는 웹 페이지 또는 소셜 미디어 컨텐츠 등에 포함된 텍스트의 주제 카테고리를 자동으로 분류하는 방법과 그 장치에 관한 것이다.이를 위하여 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부, 상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부, 및 분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류부를 포함할 수 있다.
Int. CL G06F 17/30 (2015.10.31) G06F 17/27 (2015.10.31) G06Q 50/00 (2015.10.31) G06Q 50/30 (2015.10.31)
CPC G06F 16/954(2013.01) G06F 16/954(2013.01) G06F 16/954(2013.01) G06F 16/954(2013.01) G06F 16/954(2013.01) G06F 16/954(2013.01)
출원번호/일자 1020150132590 (2015.09.18)
출원인 아주대학교산학협력단
등록번호/일자
공개번호/일자 10-2017-0034206 (2017.03.28) 문서열기
공고번호/일자 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 등록
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2015.09.18)
심사청구항수 15

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 아주대학교산학협력단 대한민국 경기도 수원시 영통구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 손경아 대한민국 경기도 용인시 수지구
2 조승우 대한민국 경기도 용인시 기흥구
3 차문수 대한민국 경기도 화성시

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 특허법인우인 대한민국 서울특별시 강남구 역삼로 ***, *층(역삼동, 중평빌딩)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 아주대학교산학협력단 경기도 수원시 영통구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2015.09.18 수리 (Accepted) 1-1-2015-0912352-68
2 의견제출통지서
Notification of reason for refusal
2016.10.20 발송처리완료 (Completion of Transmission) 9-5-2016-0755911-78
3 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2016.12.15 수리 (Accepted) 1-1-2016-1230278-37
4 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2016.12.15 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2016-1230279-83
5 등록결정서
Decision to grant
2017.04.28 발송처리완료 (Completion of Transmission) 9-5-2017-0308768-17
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부;상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부; 및분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류부를 포함하며,상기 단어 사전 생성부는, 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을, 상기 단어가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서에서 상기 단어가 나타난 빈도수를 기초로, 복수개의 부분 집합들로 클러스터링하고, 상기 클러스터링 한 부분 집합들 중 상기 빈도수를 기준으로 적어도 하나 이상의 비 관련 클러스터를 선정하고,상기 비 관련 클러스터에 포함된 단어들을 상기 단어 사전에서 제거하는 비 관련 단어 제거부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
2 2
제1항에 있어서,상기 데이터 수집부는 상기 문장에서 소정의 문자 개수 이하로 구성된 문자열 또는 특수 문자 또는 숫자 문자를 제거하고, 형태소 분석을 수행하여 상기 문장으로부터 상기 단어 사전 생성부에 입력할 단어들을 선정하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
3 3
제1항에 있어서,상기 데이터 수집부는 상기 주제 카테고리 별로 미리 분류된 복수 개의 상기 문서로써, 상기 주제 카테고리 별로 미리 분류된 뉴스 기사 또는 신문 기사 또는 잡지 기사 문서들을 입력받는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
4 4
제1항에 있어서, 상기 단어 사전 생성부는,상기 데이터 수집부에서 입력받은 단어들에 대하여, 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 TF-IDF 가중치를 산출하고, 상기 산출한 TF-IDF 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 제1 단어 사전 생성부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
5 5
제4항에 있어서,상기 제1 단어 사전 생성부는 상기 입력받은 단어가 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 문장이 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 주제 카테고리의 수에 기초하여 상기 TF-IDF 가중치를 산출하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
6 6
제1항에 있어서, 상기 단어 사전 생성부는,상기 데이터 수집부에서 입력받은 단어들에 대하여 LDA 분석을 수행하고, 상기 단어들에 대하여 상기 주제 카테고리의 분포 및 상기 주제 카테고리에서 나타나는 단어들의 분포에 따른 LDA 단어 가중치를 산출하고, 상기 산출한 LDA 단어 가중치에 따라 상기 단어들을 정렬하여 상기 단어들에 소정의 수를 설정하고, 상기 소정의 수를 상기 단어들의 총 수로 나눈 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 제2 단어 사전 생성부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
7 7
제6항에 있어서, 상기 제2 단어 사전 생성부는, 상기 데이터 수집부에서 입력받은 단어들에 대하여 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 TF-IDF 가중치를 산출하고, 상기 산출한 TF-IDF 가중치가 소정의 기준값보다 작은 단어들을 상기 입력받은 단어들에서 제거하고,상기 제거 후 남은 단어들에 대하여 LDA 분석을 수행하고, 그 분석 결과에 따라 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
8 8
제4항에 있어서, 상기 단어 사전 생성부는,상기 주제 카테고리 별 상기 단어 사전에 포함된 단어들 중에서 두 개 이상의 단어 사전들에 공통으로 포함된 중복 단어를 제거하는 중복 단어 제거부를 더 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
9 9
제8항에 있어서,상기 중복 단어 제거부는 상기 중복 단어의 상기 TF-IDF 가중치 또는 상기 단어 사전에서 상기 중복 단어가 발생한 빈도수를 기준으로 상기 중복 단어를 제거할 상기 주제 카테고리를 선택하고, 상기 선택한 주제 카테고리의 상기 단어 사전에서 상기 중복 단어를 제거하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
10 10
제1항에 있어서, 상기 주제 카테고리 분류부는,상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 각 상기 가중치들을 연산한 값을 상기 특징 벡터의 각 원소로 설정하여, 상기 특징 벡터를 생성하는 특징 벡터 추출부; 및상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 결정하는 분류부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
11 11
제10항에 있어서,상기 분류부는 최대 가중치(Maximum Weight) 기법에 따라 상기 특징 벡터의 상기 원소들 중에서 최대의 값을 가지는 상기 원소에 대응하는 상기 주제 카테고리를 상기 분류 대상 문장의 상기 주제 카테고리로 결정하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
12 12
제10항에 있어서,상기 분류부는 서포트 벡터 머신(SVM)에 기반한 미리 학습된 분류기를 이용하여, 상기 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 분류하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
13 13
삭제
14 14
삭제
15 15
제1항에 있어서,상기 단어 사전 생성부에서 생성한 상기 단어사전을 저장하는 단어 사전 데이터베이스를 더 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치
16 16
서비스 서버를 포함하는 텍스트 주제 카테고리 분류 시스템에 있어서,상기 서비스 서버는,주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부; 및상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부를 포함하며,상기 단어 사전 생성부는, 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을, 상기 단어가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서에서 상기 단어가 나타난 빈도수를 기초로, 복수개의 부분 집합들로 클러스터링하고, 상기 클러스터링 한 부분 집합들 중 상기 빈도수를 기준으로 적어도 하나 이상의 비 관련 클러스터를 선정하고,상기 비 관련 클러스터에 포함된 단어들을 상기 단어 사전에서 제거하는 비 관련 단어 제거부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 시스템
17 17
서비스 서버가 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집 단계;상기 서비스 서버가 상기 주제 카테고리 별로 수집된 단어들에 대하여 가중치를 산출하고, 상기 산출한 가중치를 기준으로 상기 수집된 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성 단계; 및분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류 단계를 포함하며,상기 단어 사전 생성 단계는, 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을, 상기 단어가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서에서 상기 단어가 나타난 빈도수를 기초로, 복수개의 부분 집합들로 클러스터링하고, 상기 클러스터링 한 부분 집합들 중 상기 빈도수를 기준으로 적어도 하나 이상의 비 관련 클러스터를 선정하고,상기 비 관련 클러스터에 포함된 단어들을 상기 단어 사전에서 제거하는 단계를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 미래창조과학부 아주대학교 산학협력단 일반연구자지원사업(여성과학자) 네트워크 정보에 기반한 멀티뷰 데이터의 통합적 분석 프레임워크 개발 및 응용
2 교육부 아주대학교 산학협력단 일반연구자지원사업(기본연구지원사업) 고차원 이종 유전 및 후성유전체 데이터로부터 유전적 연관 네트워크 추론을 위한 성기고 구조화된 그래프 모델 개발 및 실용적 응용