1 |
1
HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 입력된 문서로부터 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대하여 전체 단어수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치(Weight)를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 단어 추출기; 상기 입력된 문서의 단어들 중 상기 단어 추출기에서 계산한 가중치가 미리 정하여진 한계 가중치(Threshold Weight, Wt)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군의 단어별 연관 관계를 추출한 후, 상기 생성된 단어군(클러스터)과 미리 저장된 단어군으로부터 추출한 클러스터를 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 클러스터 생성기; 및 이용자의 질의어가 입력되면, 상기 클러스터 생성기에 의하여 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 단어 추출기에서 생성한 색인 파일을 이용하여 문서값을 출력하는 3-D 클러스터 처리기; 를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
2 |
2
제 1 항에 있어서, 상기 단어 추출기는, 입력된 HTML 문서 정의(DTD : Document Type Definition)에서 정의하는 태그에 따라 텍스트 기반의 문서로 변환한 후, 불용어를 처리하는 HTML 필터; 및 상기 HTML 필터에서 불용어가 처리된 문서에서 단어를 추출하고, 상기 추출된 실제 단어들에 대하여 전체 단어 수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 색인 처리부; 를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
3 |
3
제 2 항에 있어서, 상기 HTML 필터는, HTML 문서 정의에서 정의하는 태그 중에서 HTML 문서의 타이틀을 정의하는 <TITLE> 태그 및 <BODY>와 </BODY>사이에 정의되는 태그들 중 실제 내용과 관련된 태그들을 HTML 표준에 맞추어 정의하고, 실제 내용과 관련된 <BODY>와 </BODY>사이의 태그들은 HTML 표준에 맞추어 정의한 후, 상기 태그들이 담고 있는 텍스트로 변환하는 HTML 문서 변환 장치; 및 상기 HTML 문서 변환 장치로부터 변환된 텍스트로부터 불용어를 추출하여 상기 색인 처리부로 전송하는 불용어 처리 장치를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
4 |
4
제 2 항에 있어서, 상기 색인 처리부는, 상기 HTML 필터에서 불용어가 처리된 문서에서 미리 저장하여 둔 명사 사전과 비교하여 상기 명사 사전에 존재하는 단어를 추출하는 단어 추출 장치; 및 문서 내에서의 해당 단어의 비율을 기본으로 각각의 단어에 대한 가중치를 계산하는 가중치 계산 장치를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
5 |
5
제 4 항에 있어서, 상기 단어 추출 장치는, 복합 명사가 있는 경우를 고려하여 문서의 단어 구조가 완료되는 시점까지 N-gram 방식으로 단어를 추출하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
6 |
6
제 4 항에 있어서, 상기 가중치 계산 장치는, 문서 Dj에서 특정 단어 Ti에 대한 가중치 Wi를 아래의 [식 1]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
7 |
7
제 1 항에 있어서, 상기 클러스터 생성기는, 상기 단어 추출기로부터 가중치 결과 문서를 입력받아 입력된 문서에 대하여 한계 가중치를 적용하여 한계 가중치 이상인 단어만을 추출하여 클러스터링을 위한 단어군으로 지정하는 한계 가중치 적용 장치; 상기 한계 가중치 적용 장치에서 지정된 단어군 및 미리 저장하여 둔 클러스터 사전의 단어군의 단어별 연관 관계를 추출하는 단어별 연관도 계산 장치; 상기 단어별 연관도 계산 장치에 의하여 계산된 단어별 연관 관계를 이용하여 클러스터를 비교하는 클러스터 비교 장치; 및 상기 클러스터 비교 장치의 결과물을 이용하여 미리 저장하여 둔 클러스터 사전의 내용을 변경하는 클러스터 사전 변경 장치를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
8 |
8
제 7 항에 있어서, 상기 단어별 연관도 계산 장치는, 특정 단어 Ti에 대한 클러스터링 연관도(Relativity) Ri는 아래의 [식 2]에 의하여 계산되는 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
9 |
9
제 7 항 또는 제 8 항에 있어서, 상기 단어별 연관도 계산 장치는, 클러스터링을 위한 한계 연관도(Rt)를 적용하여 한계 연관도 이상인 단어만을 클러스터에 포함시키는 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
10 |
10
제 9 항에 있어서, 상기 단어별 연관도 계산 장치는, 새로운 클러스터와 기존의 클러스터간의 병합을 위한 계산을 수행할 때, 평균값을 산출하는 방법에 의하여 구현하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
11 |
11
제 10 항에 있어서, 상기 단어별 연관도 계산 장치는, 특정 단어 H에 대한 새로운 단어별 연관도 RHi를 아래의 [식 3]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
12 |
12
제 7 항에 있어서, 상기 클러스터 비교 장치는 기존 클러스터와 비교할 클러스터간의 공통 단어를 추출한 후, Jaccard 측정식으로 측정치를 계산하여 한계 측정치 이상인 경우는 동일한 의미로 간주하고, 한계 측정치 이하인 경우는 동음이의어로 간주하는 것을 특징으로 하는 3차원 클러스터링 생성 시스템
|
13 |
13
HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 입력된 문서로부터 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대하여 전체 단어수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치(Weight)를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 제 1 단계; 상기 입력된 문서의 단어들 중 상기 제 1 단계에서 계산한 가중치가 미리 정하여진 한계 가중치(Threshold Weight, Wt)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군의 단어별 연관 관계를 추출한 후, 상기 생성된 단어군(클러스터)과 미리 저장된 단어군으로부터 추출한 클러스터를 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 제 2 단계; 및 이용자의 질의어가 입력되면, 상기 제 2 단계에서 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 제 1 단계에서 생성한 색인 파일을 이용하여 문서값을 출력하는 제 3 단계; 를 포함하는 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
14 |
14
제 13 항에 있어서, 상기 제 1 단계는, 입력된 HTML 문서 정의(DTD : Document Type Definition)에서 정의하는 태그에 따라 텍스트 기반의 문서로 변환한 후, 불용어를 처리하는 제 1 서브 단계; 및 상기 제 1 서브 단계에서 불용어가 처리된 문서에서 단어를 추출하고, 상기 추출된 실제 단어들에 대하여 전체 단어 수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 제 2 서브 단계; 를 포함하는 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
15 |
15
제 14 항에 있어서, 상기 제 1 서브 단계는, HTML 문서 정의에서 정의하는 태그 중에서 HTML 문서의 타이틀을 정의하는 <TITLE> 태그 및 <BODY>와 </BODY>사이에 정의되는 태그들 중 실제 내용과 관련된 태그들을 HTML 표준에 맞추어 정의하고, 실제 내용과 관련된 <BODY>와 </BODY>사이의 태그들은 HTML 표준에 맞추어 정의한 후, 상기 태그들이 담고 있는 텍스트로 변환하는 제 1 서브-서브 단계; 및 상기 제 1 서브-서브 단계에서 변환된 텍스트로부터 불용어를 추출하여 상기 색인 처리부로 전송하는 제 2 서브-서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
16 |
16
제 14 항에 있어서, 상기 제 2 서브 단계는, 상기 제 1 서브 단계에서 불용어가 처리된 문서에서 미리 저장하여 둔 명사 사전과 비교하여 상기 명사 사전에 존재하는 단어를 추출하는 제 3 서브-서브 단계; 및 문서 내에서의 해당 단어의 비율을 기본으로 각각의 단어에 대한 가중치를 계산하는 제 4 서브-서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
17 |
17
제 16 항에 있어서, 상기 제 3 서브-서브 단계는, 복합 명사가 있는 경우를 고려하여 문서의 단어 구조가 완료되는 시점까지 N-gram 방식으로 단어를 추출하는 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
18 |
18
제 16 항에 있어서, 상기 제 4 서브-서브 단계는, 문서 Dj에서 특정 단어 Ti에 대한 가중치 Wi를 아래의 [식 4]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
19 |
19
제 13 항에 있어서, 상기 제 2 단계는, 상기 제 1 단계의 가중치 결과 문서를 입력받아 입력된 문서에 대하여 한계 가중치를 적용하여 한계 가중치 이상인 단어만을 추출하여 클러스터링을 위한 단어군으로 지정하는 제 3 서브 단계; 상기 제 3 서브 단계에서 지정된 단어군 및 미리 저장하여 둔 클러스터 사전의 단어군의 단어별 연관 관계를 추출하는 제 4 서브 단계; 상기 제 4 서브 단계에서 계산된 단어별 연관 관계를 이용하여 클러스터를 비교하는 제 5 서브 단계; 및 상기 제 5 서브 단계의 결과물을 이용하여 미리 저장하여 둔 클러스터 사전의 내용을 변경하는 제 6 서브 단계를 포함하여 이루어진 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
20 |
20
제 19 항에 있어서, 상기 제 4 서브 단계는, 특정 단어 Ti에 대한 클러스터링 연관도(Relativity) Ri는 아래의 [식 5]에 의하여 계산되는 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
21 |
21
제 19 항 또는 제 20 항에 있어서, 상기 제 4 서브 단계는, 클러스터링을 위한 한계 연관도(Rt)를 적용하여 한계 연관도 이상인 단어만을 클러스터에 포함시키는 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
22 |
22
제 21 항에 있어서, 상기 제 4 서브 단계는, 새로운 클러스터와 기존의 클러스터간의 병합을 위한 계산을 수행할 때, 평균값을 산출하는 방법에 의하여 구현하는 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
23 |
23
제 22 항에 있어서, 상기 제 4 서브 단계는, 특정 단어 H에 대한 새로운 단어별 연관도 RHi를 아래의 [식 6]에 의하여 계산하는 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
24 |
24
제 19 항에 있어서, 상기 제 5 서브 단계는, 기존 클러스터와 비교할 클러스터간의 공통 단어를 추출한 후, Jaccard 측정식으로 측정치를 계산하여 한계 측정치 이상인 경우는 동일한 의미로 간주하고, 한계 측정치 이하인 경우는 동음이의어로 간주하는 것을 특징으로 하는 3차원 클러스터링 생성 방법
|
25 |
25
컴퓨터에, HTML(Hyper Text Markup Language) 및 텍스트 문서가 입력되면, 상기 입력된 문서로부터 실제 내용을 추출하고, 불용어를 처리함으로써, 실제 단어를 추출한 후, 상기 추출된 실제 단어들에 대하여 전체 단어수에서 해당 단어의 비율을 기본으로 각각의 단어가 차지하는 가중치(Weight)를 계산한 후, 색인 파일 및 단어별 클러스터를 생성하는 제 1 단계; 상기 입력된 문서의 단어들 중 상기 제 1 단계에서 계산한 가중치가 미리 정하여진 한계 가중치(Threshold Weight, Wt)보다 더 큰 단어를 추출하고, 상기 추출된 단어 각각을 중심어로 하는 단어군(클러스터)을 생성하여, 미리 저장된 단어군의 단어별 연관 관계를 추출한 후, 상기 생성된 단어군(클러스터)과 미리 저장된 단어군으로부터 추출한 클러스터를 비교하여 해당 단어를 중심으로 하는 새로운 단어군을 생성하는 제 2 단계; 및 이용자의 질의어가 입력되면, 상기 제 2 단계에서 생성된 새로운 단어군에서 질의어에 해당하는 클러스터 및 상기 제 1 단계에서 생성한 색인 파일을 이용하여 문서값을 출력하는 제 3 단계; 를 포함하는 것을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체
|