1 |
1
분류하고자 하는 웹 페이지로부터 상기 웹 페이지의 구조 정보를 포함하는 카테고리 태그 정보를 추출하는 단계;
상기 추출된 카테고리 태그 정보 및 상기 웹 페이지의 각각의 섹션에 관리자에 의해 미리 설정된 가중치를 부여하는 단계;
상기 부여된 가중치에 따라 상기 웹 페이지를 구성하는 구(phrase)를 이용하여 상기 웹 페이지의 다큐먼트 벡터(document vector)를 생성하는 단계;
데이터베이스에 미리 저장된 트리 형태의 자료 구조인 분류 트리(Taxonomy tree)의 각 노드를 구성하는 구를 이용하여 생성된 각 노드의 센트로이드 벡터(centroid vector)와 상기 웹 페이지의 다큐먼트 벡터의 코사인 유사도(Cosine Similarity) 함수값을 연산함으로써, 상기 웹 페이지와 유사한 복수 개의 노드들을 추출하는 단계;
상기 추출된 복수 개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 단계;
상기 연산된 상대 거리를 이용하여 상대 거리 스코어를 추출하고, 최소 상대 거리 스코어를 가지는 상기 웹 페이지와 가장 유사한 노드를 선정하는 단계; 및
상기 선정된 가장 유사한 노드에 상기 웹 페이지를 부착함으로써 상기 웹 페이지를 분류하는 단계를 포함하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법
|
2 |
2
제 1 항에 있어서,
상기 웹 페이지의 각각의 섹션은 제목(title) 및 본문(body)으로 이루어지는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법
|
3 |
3
제 1 항에 있어서,
상기 분류 트리 상의 상대 거리를 연산하는 단계는
상기 추출된 복수 개의 노드들 중 상기 관리자에 의해 미리 설정된 갯수로 상기 코사인 유사도 함수값이 큰 상위 n개의 노드를 선정하는 단계; 및
상기 상위 n개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 단계를 포함하는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법
|
4 |
4
제 1 항에 있어서,
상기 웹 페이지의 다큐먼트 벡터는
상기 웹 페이지의 구(phrase), 상기 웹 페이지의 구의 빈도 수 및 상기 미리 부여된 가중치에 의해 구성되는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법
|
5 |
5
제 1 항에 있어서,
상기 분류 트리 상의 상대 거리를 연산하는 단계는
하나의 노드와 비교하려는 비교 대상 노드가 상기 분류 트리에서 조상-후손 노드 관계인지의 판단하고, 조상-후손 노드 관계가 성립하면 상기 하나의 노드와 상기 비교 대상 노드의 뎁스 차이를 상기 상대 거리로 설정하는 단계; 및
상기 조상-후손 노드 관계가 성립하지 않으면, 상기 하나의 노드와 상기 비교 대상 노드의 공통 부모 노드를 탐색하고, 상기 하나의 노드에서 상기 공통 부모 노드까지의 뎁스 차이, 및 상기 비교 대상 노드에서 상기 공통 부모 노드까지의 뎁이 차이를 합한 값을 상기 상대 거리로 설정하는 단계를 포함하는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법
|
6 |
6
제 5 항에 있어서,
상기 상대 거리 스코어는
상기 연산된 상대 거리의 제곱합의 제곱근 값으로 설정되는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 방법
|
7 |
7
제 1 항 내지 제 6 항의 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체
|
8 |
8
분류하고자 하는 웹 페이지로부터 상기 웹 페이지의 구조 정보를 포함하는 카테고리 태그 정보를 추출하는 카테고리 태그 정보 추출부;
상기 추출된 카테고리 태그 정보 및 상기 웹 페이지의 각각의 섹션에 관리자에 의해 미리 설정된 가중치를 부여하고, 상기 부여된 가중치에 따라 상기 웹 페이지를 구성하는 구(phrase)를 이용하여 상기 웹 페이지의 다큐먼트 벡터(document vector)를 생성하는 다큐먼트 벡터 생성부;
데이터베이스에 미리 저장된 트리 형태의 자료 구조인 분류 트리(Taxonomy tree)의 각 노드를 구성하는 구를 이용하여 각 노드의 센트로이드 벡터(centroid vector)를 생성하는 센트로이드 벡터 생성부;
상기 웹 페이지의 다큐먼트 벡터와 상기 분류 트리의 각 노드의 센트로이드 벡터(centroid vector)의 코사인 유사도(Cosine Similarity) 함수값을 연산함으로써 상기 웹 페이지와 유사한 복수 개의 노드들을 추출하는 유사 노드 추출부;
상기 추출된 복수 개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 상대 거리 연산부; 및
상기 연산된 상대 거리를 이용하여 상대 거리 스코어를 추출하며, 최소 상대 거리 스코어를 가지는 상기 웹 페이지와 가장 유사한 노드를 선정하고, 상기 선정된 가장 유사한 노드에 상기 웹 페이지를 부착함으로써 상기 웹 페이지를 분류하는 웹 페이지 분류부를 포함하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템
|
9 |
9
제 8 항에 있어서,
상기 웹 페이지의 각각의 섹션은 제목(title) 및 본문(body)으로 이루어지는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템
|
10 |
10
제 8 항에 있어서,
상기 상대 거리 연산부는
상기 추출된 복수 개의 노드들 중 상기 관리자에 의해 미리 설정된 갯수로 상기 코사인 유사도 함수값이 큰 상위 n개의 노드를 선정하고, 상기 상위 n개의 노드들 간의 상기 분류 트리 상의 상대 거리를 연산하는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템
|
11 |
11
제 8 항에 있어서,
상기 웹 페이지의 다큐먼트 벡터는
상기 웹 페이지의 구(phrase), 상기 웹 페이지의 구의 빈도 수 및 상기 미리 부여된 가중치에 의해 구성되는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템
|
12 |
12
제 8 항에 있어서,
상기 상대 거리 연산부는
하나의 노드와 비교하려는 비교 대상 노드가 상기 분류 트리에서 조상-후손 노드 관계인지의 판단하고, 조상-후손 노드 관계가 성립하면 상기 하나의 노드와 상기 비교 대상 노드의 뎁스 차이를 상기 상대 거리로 설정하고,
상기 조상-후손 노드 관계가 성립하지 않으면, 상기 하나의 노드와 상기 비교 대상 노드의 공통 부모 노드를 탐색하고, 상기 하나의 노드에서 상기 공통 부모 노드까지의 뎁스 차이, 및 상기 비교 대상 노드에서 상기 공통 부모 노드까지의 뎁이 차이를 합한 값을 상기 상대 거리로 설정하는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템
|
13 |
13
제 8 항에 있어서,
상기 상대 거리 스코어는
상기 연산된 상대 거리의 제곱합의 제곱근 값으로 설정되는 것을 특징으로 하는 카테고리 태그 정보를 이용한 웹 페이지 분류 시스템
|