맞춤기술찾기

이전대상기술

토픽 추출 장치 및 방법

  • 기술번호 : KST2023000964
  • 담당센터 :
  • 전화번호 :
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 토픽 추출 장치 및 방법이 개시된다. 토픽 추출 장치는 LDA(Latent Dirichlet Allocation)를 이용하여 문서로부터 최초 토픽을 추출하고, 추출한 최초 토픽에 포함된 단어 간의 유사도 비교를 통해 토픽이 중복되어 추출되거나 토픽이 혼재되는 것을 보정하여 문서의 최종적인 토픽을 추출한다.
Int. CL G06F 17/27 (2006.01.01) G06F 17/27 (2006.01.01) G06F 17/27 (2006.01.01) G06F 16/951 (2019.01.01)
CPC G06F 17/2745(2013.01) G06F 17/2745(2013.01) G06F 17/2745(2013.01) G06F 17/2745(2013.01)
출원번호/일자 1020150104390 (2015.07.23)
출원인 숭실대학교산학협력단
등록번호/일자 10-1671740-0000 (2016.10.27)
공개번호/일자
공고번호/일자 (20161116) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보 대한민국  |   1020150096801   |   2015.07.07
법적상태 등록
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2015.07.23)
심사청구항수 10

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 숭실대학교산학협력단 대한민국 서울특별시 동작구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 이수원 대한민국 서울특별시 동작구
2 김동욱 중국 서울특별시 동작구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 윤귀상 대한민국 서울특별시 금천구 디지털로*길 ** ***호 (가산동, 한신IT타워*차)(디앤특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 조인철 경기도 성남시 수정구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2015.07.23 수리 (Accepted) 1-1-2015-0716949-62
2 선행기술조사의뢰서
Request for Prior Art Search
2015.12.08 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2016.01.08 수리 (Accepted) 9-1-2016-0003446-73
4 의견제출통지서
Notification of reason for refusal
2016.04.20 발송처리완료 (Completion of Transmission) 9-5-2016-0284787-87
5 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2016.06.20 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2016-0588764-32
6 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2016.06.20 수리 (Accepted) 1-1-2016-0588759-14
7 출원인정보변경(경정)신고서
Notification of change of applicant's information
2016.08.04 수리 (Accepted) 4-1-2016-5110636-51
8 등록결정서
Decision to grant
2016.10.26 발송처리완료 (Completion of Transmission) 9-5-2016-0769213-90
9 특허고객번호 정보변경(경정)신고서·정정신고서
2021.10.28 수리 (Accepted) 4-1-2021-5282132-58
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
토픽 추출 장치에서의 토픽 추출 방법으로서,상기 토픽 추출 장치가 문서 데이터를 수집하여 명사를 추출하고,상기 토픽 추출 장치가 LDA(Latent Dirichlet Allocation) 기법을 이용하여 상기 추출한 명사 중 LDA 토픽을 추출하고,상기 토픽 추출 장치가 상기 LDA 토픽 내 토픽후보단어 간의 유사도를 산출하고, 상기 토픽후보단어 간의 유사도에 따라 상기 LDA 토픽을 분리하고,상기 토픽 추출 장치가 상기 분리된 각 LDA 토픽을 상기 분리된 각 LDA 토픽 간의 거리에 따라 병합하여 최종 토픽을 추출하되,상기 토픽후보단어 간의 유사도는 상기 토픽후보단어 간의 PMI(Pointwise Mutual Information) 값을 산출하여 이루어지고, 상기 LDA 토픽을 분리하는 것은,상기 토픽후보단어 및 상기 토픽후보단어 간의 PMI 값을 나타내는 Matrix를 생성하고, 상기 Matrix 내에서 상기 토픽후보단어의 출현빈도에 따라 초기 기준단어를 설정하여 상기 설정한 각각의 초기 기준단어에 대한 TC(Topic Clique)를 생성하여 상기 LDA 토픽을 분리하는 토픽 추출 방법
2 2
삭제
3 3
제 1 항에 있어서,상기 토픽후보단어 간의 PMI 값을 산출하는 것은,상기 토픽후보단어 중 임의의 두 단어가 한 문장 내에 동시에 출현될 확률 대비 각각 출현될 확률의 비율로 산출하는 토픽 추출 방법
4 4
삭제
5 5
제 1 항에 있어서,상기 초기 기준단어에 대한 TC(Topic Clique)를 생성하는 것은,상기 초기 기준단어와 상기 Matrix에 포함된 토픽후보단어 중 상기 초기 기준단어를 뺀 나머지 토픽후보단어 간의 PMI 값을 확인하여 상기 Matrix에서 상기 초기 기준단어와의 PMI 값이 0 이하인 토픽후보단어를 삭제하고, 상기 Matrix에서 상기 초기 기준단어를 TC(Topic Clique)의 정점단어로 이동시키는 제1 과정,상기 초기 기준단어와의 PMI 값이 0 이하인 토픽후보단어가 삭제된 Matrix에 포함된 토픽후보단어 중 상기 토픽후보단어의 출현빈도에 따라 차순위의 토픽후보단어를 비교기준단어로 설정하고, 상기 초기 기준단어와의 PMI 값이 0 이하인 토픽후보단어 및 상기 초기 기준단어가 삭제된 Matrix에 포함된 토픽후보단어와 상기 비교기준단어 간의 PMI 값을 확인하여 상기 비교기준단어와의 PMI 값이 0 이하인 토픽후보단어를 삭제하는 제2 과정,상기 제2 과정에서 상기 Matrix에 하나의 토픽후보단어가 남을 때까지 상기 제2 과정을 반복하는 제3 과정을 수행하여 상기 TC(Topic Clique)에 이동된 정점단어로 상기 초기 기준단어에 대한 TC(Topic Clique)를 생성하는 토픽 추출 방법
6 6
제 1 항에 있어서,상기 분리된 각 LDA 토픽 간의 거리에 따라 병합하는 것은,상기 각각의 초기 기준단어에 대한 TC(Topic Clique) 중 임의의 두 TC(Topic Clique)에 포함된 정점단어의 합집합으로 새로운 Matrix를 생성하고, 상기 새로운 Matrix에서 PMI 값이 0 이하인 간선을 검출하고, 상기 새로운 Matrix에서 검출한 PMI 값이 0 이하인 간선의 수 대비 상기 새로운 Matrix에 포함된 전체 간선의 수의 비율로 상기 TC(Topic Clique) 간 거리를 산출하고, 상기 TC(Topic Clique) 간 거리에 따라 상기 TC(Topic Clique)를 병합하는 토픽 추출 방법
7 7
제 6 항에 있어서,상기 TC(Topic Clique)를 병합하는 것은,상기 임의의 두 TC(Topic Clique)를 하나의 토픽으로 병합하는 토픽 추출 방법
8 8
제 6 항에 있어서,상기 TC(Topic Clique)를 병합하는 것은,상기 새로운 Matrix에서 PMI 값이 0을 초과하는 부분에 대응하는 정점단어들로 단어집합을 구성하여 상기 TC(Topic Clique)를 병합하는 토픽 추출 방법
9 9
제 6 항에 있어서,상기 TC(Topic Clique)를 병합하는 것은,상기 새로운 Matrix에서 PMI 값이 0 이하인 부분에 대응하는 음성정점단어집합에 포함된 정점단어를 상기 새로운 Matrix에서 PMI 값이 0을 초과하는 부분에 대응하는 양성정점단어집합에 포함된 정점단어와의 PMI 값에 따라 추가하여 상기 TC(Topic Clique)를 병합하는 토픽 추출 방법
10 10
제 9 항에 있어서,PMI 값에 따라 상기 음성정점단어집합에 포함된 정점단어를 상기 양성정점단어집합에 추가하는 것은,상기 음성정점단어집합에 포함된 정점단어 중 출현빈도에 따라 정점단어를 선택하여 상기 양성정점단어집합에 추가하되, 상기 양성정점단어집합에 포함된 정점단어 간의 PMI 값을 확인하여 상기 음성정점단어집합에서 출현빈도에 따른 최우선순위의 정점단어가 상기 양성정점단어집합에 포함된 정점단어 중 적어도 하나와 PMI 값이 0이하인 간선을 생성하는지 여부를 확인하고, 상기 양성정점단어집합에 포함된 정점단어 중 적어도 하나와 PMI 값이 0이하인 간선을 생성하지 않으면 상기 양성정점단어집합에 추가하는 토픽 추출 방법
11 11
제 6 항에 있어서,상기 TC(Topic Clique)를 병합하는 것은,상기 임의의 두 TC(Topic Clique) 각각의 평균 PMI 값을 산출하고, 상기 임의의 두 TC(Topic Clique) 중 평균 PMI 값이 더 큰 TC(Topic Clique)를 추출하여 상기 TC(Topic Clique)를 병합하는 토픽 추출 방법
12 12
문서 데이터를 수집하여 명사를 추출하는 명사 추출부;LDA 기법을 이용하여 상기 추출한 명사 중 LDA 토픽을 추출하는 LDA 토픽 추출부;상기 LDA 토픽 내 토픽후보단어 간의 유사도를 산출하고, 상기 토픽후보단어 간의 유사도에 따라 상기 LDA 토픽을 분리하는 토픽 분리부; 및상기 분리된 각 LDA 토픽을 상기 분리된 각 LDA 토픽 간의 거리에 따라 병합하여 최종 토픽을 추출하는 토픽 병합부를 포함하고,상기 토픽 분리부는,상기 토픽후보단어 간의 PMI(Pointwise Mutual Information) 값을 산출하여 유사도를 산출하고, 상기 토픽후보단어 및 상기 토픽후보단어 간의 PMI 값을 나타내는 Matrix를 생성하고, 상기 Matrix 내에서 상기 토픽후보단어의 출현빈도에 따라 초기 기준단어를 설정하여 상기 설정한 각각의 초기 기준단어에 대한 TC(Topic Clique)를 생성하여 상기 LDA 토픽을 분리하는 토픽 추출 장치
지정국 정보가 없습니다
순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - 패밀리정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US20170192959 US 미국 FAMILY
2 WO2017007084 WO 세계지적재산권기구(WIPO) FAMILY

DOCDB 패밀리 정보

순번, 패밀리번호, 국가코드, 국가명, 종류의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 패밀리정보 - DOCDB 패밀리 정보 표입니다.
순번 패밀리번호 국가코드 국가명 종류
1 US2017192959 US 미국 DOCDBFAMILY
2 WO2017007084 WO 세계지적재산권기구(WIPO) DOCDBFAMILY
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 미래창조과학부 숭실대학교 산학협력단 방송통신융합미디어원천기술개발 사회문제에 관한 도메인 별 이벤트 추출 및 예측 기술 개발
2 미래창조과학부 숭실대학교 산학협력단 중견연구자지원사업 Open Innovation을 통한 소비자 행동 이론 기반 데이터마이닝 융합 기술 개발