1 |
1
주제 범주를 할당하고자 하는 웹사이트의 홈페이지 링크정보에 의하여 도달 가능한 서버내의 웹 페이지를 검색하는 제 1과정;검색된 상기 웹 페이지들을 각각의 연결정보로 표현하여, 트리구조로 변환하는 제 2과정; 트리구조로 변환된 상기 웹 페이지 중에서 상기 웹사이트를 대표하는 소정 웹 페이지를 선택하는 웹페이지 절단을 수행하는 제 3과정;상기 웹페이지 절단에 따라 선택된 소정 웹 페이지에 대한 범주화를 실행하는 제 4과정; 및 상기 소정 웹 페이지에 대한 범주화에 따라 각 웹 페이지에 할당된 주제 범주를 이용하여 상기 웹사이트에 대한 범주화를 실행하는 제 5과정을 포함하는 것을 특징으로 하는 웹사이트 자동 분류방법
|
2 |
2
제 1 항에 있어서, 상기 제 2과정에서 연결정보는 다른 웹 페이지로부터의 참조되는 횟수와 그 웹 페이지에서 다른 웹페이지 들로 연결되는 수를 모두 기록하는 것을 특징으로 하는 웹사이트 자동 분류방법
|
3 |
3
제 1 항에 있어서, 상기 웹페이지 절단은,트리구조의 깊이, 웹 페이지가 다른 웹 페이지에 대한 참조 횟수 및 다른 웹 페이지로부터의 참조횟수를 참조하여 웹 페이지들을 웹사이트의 대표로 선택하고 나머지 웹 페이지들은 제거하는 것을 특징으로 하는 웹사이트 자동 분류방법
|
4 |
4
제 3 항에 있어서, 상기 웹 사이트의 대표는 트리구조의 깊이가 적고, 웹 페이지가 다른 웹 페이지에 대한 참조 횟수 및 다른 웹 페이지로부터의 참조횟수가 많은 것을 특징으로 하는 웹사이트 자동 분류방법
|
5 |
5
제 1 항에 있어서, 상기 제 4 과정에서의 상기 범주화는,K-nearest neighbor 방법을 이용하는 것을 특징으로 하는 웹사이트 자동 분류방법
|
6 |
6
제 1 항에 있어서, 상기 제 4과정은, 문서-문서 관련도 계산에 의해서 새로운 문서와 가장 유사한 k개의 학습문서를 추출하는 제 1단계; 및 k개의 학습 문서가 가지는 범주들을 이용하여 새로운 문서에 가장 적합한 범주들을 선택하는 제 2단계로 이루어진 것을 특징으로 하는 웹사이트 자동 분류방법
|
7 |
7
제 6 항에 있어서, 상기 제 1단계 전에 학습문서들을 범주 자질 데이터베이스에 있는 범주, 단어 쌍들을 이용하고, 범주를 새로이 할당할 새로운 문서 역시 자질 후보 데이터베이스에 있는 단어들을 이용하여 각각 내부 문서 표현으로 나타내는 것을 특징으로 하는 웹사이트 자동 분류방법
|
8 |
8
제 1 항에 있어서, 상기 제 5과정은,상기 웹사이트에 임의 주제 범주 Ck가 할당될 가능성을 구하는 조건부 확률식은 식 6과 같이 표현되는 것을 특징으로 하는 웹사이트 자동 분류방법
|
9 |
8
제 1 항에 있어서, 상기 제 5과정은,상기 웹사이트에 임의 주제 범주 Ck가 할당될 가능성을 구하는 조건부 확률식은 식 6과 같이 표현되는 것을 특징으로 하는 웹사이트 자동 분류방법
|