맞춤기술찾기

이전대상기술

계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법

  • 기술번호 : KST2015077607
  • 담당센터 : 대전기술혁신센터
  • 전화번호 : 042-610-2279
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 기존의 유사도를 기반으로 한 클러스터링(Clustering) 기법에 계층 단어(Hierarchy Terms) 개념을 접목하여 단어나 문서의 수평적 연계뿐만 아니라 수직적 연계, 즉 디렉토리 기반의 단어 및 문서 분류까지 가능하도록 하는 3차원 클러스터링 생성 시스템 및 그 방법을 제공하는데 그 목적이 있다.본 발명에 따르면, HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 HTML 문서의 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대한 가중치(Weight)를 부여하여 색인 파일을 생성하는 단어 추출기; 입력된 문서의 단어들 중 상기 단어 추출기에서 부여된 가중치가 한계 가중치(Threshold Weight, Wt)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군과 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 클러스터 생성기; 및 이용자의 질의어가 입력되면, 상기 클러스터 생성기에 의하여 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 단어 추출기에서 생성한 색인 파일을 이용하여 문서값을 출력하는 3-D 클러스터 처리기를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템이 제공된다.
Int. CL G06F 17/20 (2006.01)
CPC G06F 17/30598(2013.01)
출원번호/일자 1019990062419 (1999.12.27)
출원인 한국전자통신연구원
등록번호/일자 10-0341396-0000 (2002.06.07)
공개번호/일자 10-2001-0064269 (2001.07.09) 문서열기
공고번호/일자 (20020622) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (1999.12.27)
심사청구항수 25

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 한국전자통신연구원 대한민국 대전광역시 유성구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 문병주 대한민국 대전광역시대덕구
2 정현수 대한민국 대전광역시유성구
3 홍기채 대한민국 대전광역시유성구
4 송종철 대한민국 서울특별시중랑구
5 이성용 대한민국 대전광역시유성구
6 손소현 대한민국 부산광역시연제구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 전영일 대한민국 광주 북구 첨단과기로***번길**, ***호(오룡동)(특허법인세아 (광주분사무소))

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 대한민국(산업통상자원부장관) 세종특별자치시 한누리대
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 특허출원서
Patent Application
1999.12.27 수리 (Accepted) 1-1-1999-0181766-43
2 신규성(출원시의특례)증명서류제출서
Submission of Certificate of Novelty(Special Provisions for Application)
2000.01.25 수리 (Accepted) 1-1-2000-5023906-54
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2001.04.19 수리 (Accepted) 4-1-2001-0046046-20
4 의견제출통지서
Notification of reason for refusal
2001.08.21 발송처리완료 (Completion of Transmission) 9-5-2001-0219024-38
5 명세서 등 보정서
Amendment to Description, etc.
2001.10.22 보정승인 (Acceptance of amendment) 1-1-2001-0270355-29
6 의견서
Written Opinion
2001.10.22 수리 (Accepted) 1-1-2001-0270350-02
7 등록결정서
Decision to grant
2002.03.26 발송처리완료 (Completion of Transmission) 9-5-2002-0097728-78
8 출원인정보변경(경정)신고서
Notification of change of applicant's information
2002.08.08 수리 (Accepted) 4-1-2002-0065009-76
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2009.08.04 수리 (Accepted) 4-1-2009-5150899-36
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.02.02 수리 (Accepted) 4-1-2015-0006137-44
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1

HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 입력된 문서로부터 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대하여 전체 단어수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치(Weight)를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 단어 추출기;

상기 입력된 문서의 단어들 중 상기 단어 추출기에서 계산한 가중치가 미리 정하여진 한계 가중치(Threshold Weight, Wt)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군의 단어별 연관 관계를 추출한 후, 상기 생성된 단어군(클러스터)과 미리 저장된 단어군으로부터 추출한 클러스터를 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 클러스터 생성기; 및

이용자의 질의어가 입력되면, 상기 클러스터 생성기에 의하여 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 단어 추출기에서 생성한 색인 파일을 이용하여 문서값을 출력하는 3-D 클러스터 처리기;

를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템

2 2

제 1 항에 있어서,

상기 단어 추출기는,

입력된 HTML 문서 정의(DTD : Document Type Definition)에서 정의하는 태그에 따라 텍스트 기반의 문서로 변환한 후, 불용어를 처리하는 HTML 필터; 및

상기 HTML 필터에서 불용어가 처리된 문서에서 단어를 추출하고, 상기 추출된 실제 단어들에 대하여 전체 단어 수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 색인 처리부;

를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템

3 3

제 2 항에 있어서,

상기 HTML 필터는,

HTML 문서 정의에서 정의하는 태그 중에서 HTML 문서의 타이틀을 정의하는 <TITLE> 태그 및 <BODY>와 </BODY>사이에 정의되는 태그들 중 실제 내용과 관련된 태그들을 HTML 표준에 맞추어 정의하고, 실제 내용과 관련된 <BODY>와 </BODY>사이의 태그들은 HTML 표준에 맞추어 정의한 후, 상기 태그들이 담고 있는 텍스트로 변환하는 HTML 문서 변환 장치; 및

상기 HTML 문서 변환 장치로부터 변환된 텍스트로부터 불용어를 추출하여 상기 색인 처리부로 전송하는 불용어 처리 장치를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템

4 4

제 2 항에 있어서,

상기 색인 처리부는,

상기 HTML 필터에서 불용어가 처리된 문서에서 미리 저장하여 둔 명사 사전과 비교하여 상기 명사 사전에 존재하는 단어를 추출하는 단어 추출 장치; 및

문서 내에서의 해당 단어의 비율을 기본으로 각각의 단어에 대한 가중치를 계산하는 가중치 계산 장치를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템

5 5

제 4 항에 있어서,

상기 단어 추출 장치는,

복합 명사가 있는 경우를 고려하여 문서의 단어 구조가 완료되는 시점까지 N-gram 방식으로 단어를 추출하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템

6 6

제 4 항에 있어서,

상기 가중치 계산 장치는,

문서 Dj에서 특정 단어 Ti에 대한 가중치 Wi를 아래의 [식 1]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템

7 7

제 1 항에 있어서,

상기 클러스터 생성기는,

상기 단어 추출기로부터 가중치 결과 문서를 입력받아 입력된 문서에 대하여 한계 가중치를 적용하여 한계 가중치 이상인 단어만을 추출하여 클러스터링을 위한 단어군으로 지정하는 한계 가중치 적용 장치;

상기 한계 가중치 적용 장치에서 지정된 단어군 및 미리 저장하여 둔 클러스터 사전의 단어군의 단어별 연관 관계를 추출하는 단어별 연관도 계산 장치;

상기 단어별 연관도 계산 장치에 의하여 계산된 단어별 연관 관계를 이용하여 클러스터를 비교하는 클러스터 비교 장치; 및

상기 클러스터 비교 장치의 결과물을 이용하여 미리 저장하여 둔 클러스터 사전의 내용을 변경하는 클러스터 사전 변경 장치를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템

8 8

제 7 항에 있어서,

상기 단어별 연관도 계산 장치는,

특정 단어 Ti에 대한 클러스터링 연관도(Relativity) Ri는 아래의 [식 2]에 의하여 계산되는 것을 특징으로 하는 3차원 클러스터링 생성 시스템

9 9

제 7 항 또는 제 8 항에 있어서,

상기 단어별 연관도 계산 장치는,

클러스터링을 위한 한계 연관도(Rt)를 적용하여 한계 연관도 이상인 단어만을 클러스터에 포함시키는 것을 특징으로 하는 3차원 클러스터링 생성 시스템

10 10

제 9 항에 있어서,

상기 단어별 연관도 계산 장치는,

새로운 클러스터와 기존의 클러스터간의 병합을 위한 계산을 수행할 때, 평균값을 산출하는 방법에 의하여 구현하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템

11 11

제 10 항에 있어서,

상기 단어별 연관도 계산 장치는,

특정 단어 H에 대한 새로운 단어별 연관도 RHi를 아래의 [식 3]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템

12 12

제 7 항에 있어서,

상기 클러스터 비교 장치는 기존 클러스터와 비교할 클러스터간의 공통 단어를 추출한 후, Jaccard 측정식으로 측정치를 계산하여 한계 측정치 이상인 경우는 동일한 의미로 간주하고, 한계 측정치 이하인 경우는 동음이의어로 간주하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템

13 13

HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 입력된 문서로부터 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대하여 전체 단어수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치(Weight)를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 제 1 단계;

상기 입력된 문서의 단어들 중 상기 제 1 단계에서 계산한 가중치가 미리 정하여진 한계 가중치(Threshold Weight, Wt)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군의 단어별 연관 관계를 추출한 후, 상기 생성된 단어군(클러스터)과 미리 저장된 단어군으로부터 추출한 클러스터를 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 제 2 단계; 및

이용자의 질의어가 입력되면, 상기 제 2 단계에서 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 제 1 단계에서 생성한 색인 파일을 이용하여 문서값을 출력하는 제 3 단계;

를 포함하는 것을 특징으로 하는 3차원 클러스터링 생성 방법

14 14

제 13 항에 있어서,

상기 제 1 단계는,

입력된 HTML 문서 정의(DTD : Document Type Definition)에서 정의하는 태그에 따라 텍스트 기반의 문서로 변환한 후, 불용어를 처리하는 제 1 서브 단계; 및

상기 제 1 서브 단계에서 불용어가 처리된 문서에서 단어를 추출하고, 상기 추출된 실제 단어들에 대하여 전체 단어 수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 제 2 서브 단계;

를 포함하는 것을 특징으로 하는 3차원 클러스터링 생성 방법

15 15

제 14 항에 있어서,

상기 제 1 서브 단계는,

HTML 문서 정의에서 정의하는 태그 중에서 HTML 문서의 타이틀을 정의하는 <TITLE> 태그 및 <BODY>와 </BODY>사이에 정의되는 태그들 중 실제 내용과 관련된 태그들을 HTML 표준에 맞추어 정의하고, 실제 내용과 관련된 <BODY>와 </BODY>사이의 태그들은 HTML 표준에 맞추어 정의한 후, 상기 태그들이 담고 있는 텍스트로 변환하는 제 1 서브-서브 단계; 및

상기 제 1 서브-서브 단계에서 변환된 텍스트로부터 불용어를 추출하여 상기 색인 처리부로 전송하는 제 2 서브-서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법

16 16

제 14 항에 있어서,

상기 제 2 서브 단계는,

상기 제 1 서브 단계에서 불용어가 처리된 문서에서 미리 저장하여 둔 명사 사전과 비교하여 상기 명사 사전에 존재하는 단어를 추출하는 제 3 서브-서브 단계; 및

문서 내에서의 해당 단어의 비율을 기본으로 각각의 단어에 대한 가중치를 계산하는 제 4 서브-서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법

17 17

제 16 항에 있어서,

상기 제 3 서브-서브 단계는,

복합 명사가 있는 경우를 고려하여 문서의 단어 구조가 완료되는 시점까지 N-gram 방식으로 단어를 추출하는 것을 특징으로 하는 3차원 클러스터링 생성 방법

18 18

제 16 항에 있어서,

상기 제 4 서브-서브 단계는,

문서 Dj에서 특정 단어 Ti에 대한 가중치 Wi를 아래의 [식 4]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 방법

19 19

제 13 항에 있어서,

상기 제 2 단계는,

상기 제 1 단계의 가중치 결과 문서를 입력받아 입력된 문서에 대하여 한계 가중치를 적용하여 한계 가중치 이상인 단어만을 추출하여 클러스터링을 위한 단어군으로 지정하는 제 3 서브 단계;

상기 제 3 서브 단계에서 지정된 단어군 및 미리 저장하여 둔 클러스터 사전의 단어군의 단어별 연관 관계를 추출하는 제 4 서브 단계;

상기 제 4 서브 단계에서 계산된 단어별 연관 관계를 이용하여 클러스터를 비교하는 제 5 서브 단계; 및

상기 제 5 서브 단계의 결과물을 이용하여 미리 저장하여 둔 클러스터 사전의 내용을 변경하는 제 6 서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법

20 20

제 19 항에 있어서,

상기 제 4 서브 단계는,

특정 단어 Ti에 대한 클러스터링 연관도(Relativity) Ri는 아래의 [식 5]에 의하여 계산되는 것을 특징으로 하는 3차원 클러스터링 생성 방법

21 21

제 19 항 또는 제 20 항에 있어서,

상기 제 4 서브 단계는,

클러스터링을 위한 한계 연관도(Rt)를 적용하여 한계 연관도 이상인 단어만을 클러스터에 포함시키는 것을 특징으로 하는 3차원 클러스터링 생성 방법

22 22

제 21 항에 있어서,

상기 제 4 서브 단계는,

새로운 클러스터와 기존의 클러스터간의 병합을 위한 계산을 수행할 때, 평균값을 산출하는 방법에 의하여 구현하는 것을 특징으로 하는 3차원 클러스터링 생성 방법

23 23

제 22 항에 있어서,

상기 제 4 서브 단계는,

특정 단어 H에 대한 새로운 단어별 연관도 RHi를 아래의 [식 6]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 방법

24 24

제 19 항에 있어서,

상기 제 5 서브 단계는,

기존 클러스터와 비교할 클러스터간의 공통 단어를 추출한 후, Jaccard 측정식으로 측정치를 계산하여 한계 측정치 이상인 경우는 동일한 의미로 간주하고, 한계 측정치 이하인 경우는 동음이의어로 간주하는 것을 특징으로 하는 3차원 클러스터링 생성 방법

25 25

컴퓨터에,

HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 입력된 문서로부터 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대하여 전체 단어수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치(Weight)를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 제 1 단계;

상기 입력된 문서의 단어들 중 상기 제 1 단계에서 계산한 가중치가 미리 정하여진 한계 가중치(Threshold Weight, Wt)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군의 단어별 연관 관계를 추출한 후, 상기 생성된 단어군(클러스터)과 미리 저장된 단어군으로부터 추출한 클러스터를 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 제 2 단계; 및

이용자의 질의어가 입력되면, 상기 제 2 단계에서 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 제 1 단계에서 생성한 색인 파일을 이용하여 문서값을 출력하는 제 3 단계;

를 포함하는 것을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체

지정국 정보가 없습니다
패밀리정보가 없습니다
국가 R&D 정보가 없습니다.