1 |
1
오픈 디렉터리 프로젝트 기반의 텍스트 분류기 생성 방법에 있어서,상기 오픈 디렉터리 프로젝트에 포함된 카테고리에 저장된 텍스트 집합에 기초하여 상기 카테고리의 특징 벡터를 생성하는 단계;상기 생성된 카테고리의 특징 벡터 및 상기 카테고리의 부모 카테고리의 조상 병합 특징 벡터에 대한 가중합에 기초하여 상기 카테고리의 조상 병합 특징 벡터를 생성하는 단계;상기 생성된 카테고리의 특징 벡터 및 상기 카테고리의 자식 카테고리의 후손 병합 특징 벡터에 대한 가중합에 기초하여 상기 카테고리의 후손 병합 특징 벡터를 생성하는 단계; 및상기 생성된 조상 병합 특징 벡터 및 상기 생성된 후손 병합 특징 벡터를 이용하여 상기 카테고리의 조상 후손 병합 특징 벡터를 생성하는 단계를 포함하되, 상기 오픈 디렉터리 프로젝트의 구조는 미리 정의되어 있는 것이며,상기 카테고리의 특징 벡터에 대한 가중치는 상기 부모 카테고리의 조상 병합 특징 벡터에 대한 가중치 및 상기 자식 카테고리의 후손 병합 특징 벡터에 대한 가중치보다 같거나 크게 설정되고, 상기 카테고리의 조상 병합 특징 벡터에 대한 가중치 및 상기 카테고리의 후손 병합 특징 벡터에 대한 가중치는 각각 상이하게 설정되는, 텍스트 분류기 생성 방법
|
2 |
2
제 1 항에 있어서,상기 카테고리의 특징 벡터를 생성하는 단계는,상기 카테고리에 속하는 상기 텍스트 집합에서 단어를 추출하는 단계;상기 카테고리에서 추출된 텍스트 별로 단어 발생 빈도 벡터를 생성하는 단계; 및상기 생성된 텍스트 별 단어 발생 빈도 벡터에 기초하여 상기 특징 벡터를 생성하는 단계를 포함하는, 텍스트 분류기 생성 방법
|
3 |
3
제 2 항에 있어서,상기 생성된 텍스트 별 단어 발생 빈도 벡터에 기초하여 상기 특징 벡터를 생성하는 단계는, 상기 생성된 텍스트 별 단어 발생 빈도 벡터에 기초하여, 상기 카테고리에 속한 단어 각각의 평균 발생 빈도를 생성하고, 상기 생성된 평균 발생 빈도를 이용하여 상기 특징 벡터를 생성하는 것인, 텍스트 분류기 생성 방법
|
4 |
4
제 1 항에 있어서,상기 카테고리의 조상 병합 특징 벡터를 생성하는 단계는,상기 카테고리가 최상위 카테고리인 경우, 상기 카테고리의 특징 벡터를 이용하여 상기 카테고리의 조상 병합 특징 벡터를 생성하는, 텍스트 분류기 생성 방법
|
5 |
5
제 1 항에 있어서,상기 카테고리의 후손 병합 특징 벡터를 생성하는 단계는,상기 카테고리가 최말단 카테고리인 경우, 상기 카테고리의 특징 벡터를 이용하여 상기 카테고리의 후손 병합 특징 벡터를 생성하는, 텍스트 분류기 생성 방법
|
6 |
6
삭제
|
7 |
7
오픈 디렉터리 프로젝트 환경에서 텍스트 분류기를 이용한 텍스트 분류 방법에 있어서,신규 텍스트에 기초하여 특징 벡터를 생성하는 단계; 및상기 생성된 신규 텍스트의 특징 벡터와 상기 텍스트 분류기를 이용하여 상기 신규 텍스트의 카테고리를 분류하는 단계를 포함하되, 상기 텍스트 분류기는 상기 오픈 디렉터리 프로젝트에 포함된 카테고리에 대한 특징 벡터, 상기 카테고리의 조상 병합 특징 벡터 및 상기 카테고리의 후손 병합 특징 벡터를 이용하여 생성된 상기 카테고리의 조상 후손 병합 특징 벡터에 기초하여 구축된 것이고, 상기 카테고리의 조상 병합 특징 벡터는 상기 카테고리의 특징 벡터 및 상기 카테고리의 부모 카테고리의 조상 병합 특징 벡터에 대한 가중합에 기초하여 생성되는 것이고, 상기 카테고리의 후손 병합 특징 벡터는 상기 카테고리의 특징 벡터 및 상기 카테고리의 자식 카테고리의 후손 병합 특징 벡터에 대한 가중합에 기초하여 생성되는 것이며,상기 카테고리의 특징 벡터에 대한 가중치는 상기 부모 카테고리의 조상 병합 특징 벡터에 대한 가중치 및 상기 자식 카테고리의 후손 병합 특징 벡터에 대한 가중치보다 같거나 크게 설정되고, 상기 카테고리의 조상 병합 특징 벡터에 대한 가중치 및 상기 카테고리의 후손 병합 특징 벡터에 대한 가중치는 각각 상이하게 설정되는, 텍스트 분류 방법
|
8 |
8
제 7 항에 있어서,상기 카테고리를 분류하는 단계는, 상기 신규 텍스트의 특징 벡터와 상기 오픈 디렉터리 프로젝트에 포함된 각 카테고리의 조상 후손 병합 특징 벡터에 대하여 유사도를 계산하는 단계;상기 유사도가 가장 높은 카테고리를 선택하는 단계; 및 상기 선택하는 단계에서 선택된 카테고리를 상기 신규 텍스트의 카테고리로 분류하는 단계를 포함하는, 텍스트 분류 방법
|
9 |
9
카테고리를 분류하는 텍스트 분류기에 있어서,신규 텍스트를 분류하는 프로그램이 저장된 스토리지 장치 및 상기 스토리지 장치에 저장된 상기 텍스트 분류 프로그램을 실행하는 프로세서를 포함하되,상기 프로세서는 상기 프로그램의 실행에 따라, 미리 정의된 오픈 디렉터리 프로젝트 구조에 포함된 카테고리의 특징 벡터, 상기 카테고리의 조상 병합 특징 벡터 및 상기 카테고리의 후손 병합 특징 벡터를 이용하여 상기 카테고리의 조상 후손 병합 특징 벡터를 생성하고, 상기 생성된 카테고리의 조상 후손 병합 특징 벡터를 이용하여 텍스트 분류기를 생성하며, 상기 텍스트 분류기를 이용하여 상기 신규 텍스트의 카테고리를 분류하되,상기 카테고리의 조상 병합 특징 벡터는 상기 카테고리의 특징 벡터 및 상기 카테고리의 부모 카테고리의 조상 병합 특징 벡터에 대한 가중합에 기초하여 생성되는 것이고, 상기 카테고리의 후손 병합 특징 벡터는 상기 카테고리의 특징 벡터 및 상기 카테고리의 자식 카테고리의 후손 병합 특징 벡터에 대한 가중합에 기초하여 생성되는 것이며, 상기 카테고리의 특징 벡터에 대한 가중치는 상기 부모 카테고리의 조상 병합 특징 벡터에 대한 가중치 및 상기 자식 카테고리의 후손 병합 특징 벡터에 대한 가중치보다 같거나 크게 설정되고, 상기 카테고리의 조상 병합 특징 벡터에 대한 가중치 및 상기 카테고리의 후손 병합 특징 벡터에 대한 가중치는 각각 상이하게 설정되는, 텍스트 분류기
|
10 |
10
제 9 항에 있어서,상기 프로세서는 상기 카테고리에 포함된 텍스트 집합에서 단어를 추출하고, 상기 추출된 단어에 기초하여 상기 텍스트 집합에 포함된 텍스트 별로 단어 발생 빈도 벡터를 생성하며, 상기 생성된 텍스트 별 단어 발생 빈도 벡터에 기초하여, 상기 카테고리의 특징 벡터를 생성하는, 텍스트 분류기
|
11 |
11
제 10 항에 있어서,상기 카테고리의 특징 벡터는 상기 카테고리에 속한 단어에 대한 각각의 평균 발생 빈도를 이용하여 생성되는 것인, 텍스트 분류기
|
12 |
12
제 9 항에 있어서,상기 프로세서는 상기 카테고리가 최상위 카테고리일 경우, 상기 카테고리의 특징 벡터를 이용하여 상기 카테고리의 조상 병합 특징 벡터를 생성하는, 텍스트 분류기
|
13 |
13
제 9 항에 있어서,상기 프로세서는 상기 카테고리가 최말단 카테고리일 경우, 상기 카테고리의 특징 벡터를 이용하여 상기 카테고리의 후손 병합 특징 벡터를 생성하는, 텍스트 분류기
|
14 |
14
삭제
|
15 |
15
제 9 항에 있어서,상기 프로세서는 상기 신규 텍스트의 카테고리 분류를 위하여 상기 신규 텍스트의 특징 벡터와 상기 오픈 디렉터리 프로젝트에 포함된 각 카테고리의 조상 후손 병합 특징 벡터에 대하여 유사도를 계산한 후, 상기 유사도가 가장 높은 카테고리를 상기 신규 텍스트의 카테고리로 분류하는, 텍스트 분류기
|