1 |
1
주제 분류 모듈에 있어서,공개된 디렉토리 데이터를 가공하여 주제 분류 트리를 생성하는 주제 분류 트리 생성부,상기 공개된 디렉토리 데이터 중 각 디렉토리에 포함되는 웹 사이트의 텍스트 정보에 기초하여 각 디렉토리를 대표하는 학습 데이터를 생성하는 학습 데이터 생성부 및상기 학습 데이터 생성부를 통해 생성된 디렉토리별 학습 데이터를 상기 주제 분류 트리 생성부를 통해 생성된 상기 주제 분류 트리에 포함된 디렉토리에 대응시킨 분류부를 포함하되,상기 주제 분류 트리 생성부는,상기 공개된 디렉토리 데이터에 포함된 디렉토리들 중 주제를 나타내지 않는 디렉토리를 제거하고,상기 공개된 디렉토리 데이터에 포함된 디렉토리들 중 임계값보다 작은 개수의 웹 페이지를 포함하는 디렉토리를 제거하고,상기 주제 분류 트리 생성부는 상기 공개된 디렉토리 데이터에 포함된 디렉토리들 중 각 디렉토리의 깊이에 대한 최하위 디렉토리의 깊이의 비율이 임계값보다 큰 경우 해당 디렉토리를 제거하고, 상기 공개된 디렉토리 데이터에 포함된 디렉토리에 대하여, 각 디렉토리의 웹 페이지에 대한 정보를 단어 벡터로 변환한 후 각 단어 벡터를 기초로 각 디렉토리에 대한 센트로이드 벡터를 산출하고, 부모 디렉토리와 자식 디렉토리의 센트로이드 벡터 사이의 코사인 유사도를 산출하여, 그 값이 임계값 이상인 경우에는 상기 자식 디렉토리를 제거하는 것을 특징으로 하며,상기 학습 데이터 생성부는, 상기 웹 페이지의 텍스트 정보를 단어 벡터로 변환한 후 각 단어 벡터를 기초로 각 디렉토리에 대한 센트로이드 벡터를 산출하고, 최하위 디렉토리부터 자식 디렉토리의 센트로이드 벡터와 부모 디렉토리의 센트로이드 벡터간의 벡터 합을 구하여, 각 부모 디렉토리의 병합 센트로이드 벡터를 산출하는 것을 특징으로 하며,상기 분류부는,분류 대상 웹 페이지 또는 분류 대상 광고의 텍스트를 대표하는 단어 벡터와 상기 분류부의 디렉토리를 대표하는 벡터 간의 유사도를 산출하여 상기 웹 페이지 또는 광고의 주제를 결정하는 주제 분류 모듈
|
2 |
2
삭제
|
3 |
3
삭제
|
4 |
4
삭제
|
5 |
5
삭제
|
6 |
6
삭제
|
7 |
7
제 1 항에 있어서,상기 분류부는 상기 산출된 병합 센트로이드 벡터를 추출하여 상기 주제 분류 트리에 포함된 디렉토리에 대응시키는 것인 주제 분류 모듈
|
8 |
8
제 7 항에 있어서,상기 분류부는 상기 분류 대상 웹 페이지 또는 분류 대상 광고의 텍스트를 대표하는 단어 벡터와 상기 분류부의 디렉토리를 대표하는 센트로이드 벡터 간의 유사도를 산출하여 상기 웹 페이지 또는 광고의 주제를 결정하는 주제 분류 모듈
|
9 |
9
문맥 광고 시스템에 있어서, 광고가 게재될 하나 이상의 웹 페이지를 관리하는 웹 페이지 집합 관리부, 웹 페이지에 게재될 하나 이상의 광고를 관리하는 광고 집합 관리부 및상기 웹 페이지의 주제와 상기 광고의 주제의 유사도에 기초하여 상기 광고와 상기 웹 페이지를 매칭시켜, 상기 광고가 상기 웹 페이지 상에서 실행되도록 하는 주제 분류 모듈을 포함하되,상기 주제 분류 모듈은 상기 청구항 1 항, 청구항 7 항 및 청구항 8 항 중 어느 한 항에 해당하는 주제 분류 모듈인 것인 문맥 광고 시스템
|
10 |
10
주제 분류 모듈을 이용한 웹 페이지 또는 광고의 주제별 분류 방법에 있어서,주제 분류 트리 생성부가, 공개된 디렉토리 데이터를 가공하여 주제 분류 트리를 생성하는 단계,학습 데이터 생성부가, 상기 공개된 디렉토리 데이터 중 각 디렉토리에 포함되는 웹 사이트의 텍스트 정보에 기초하여 각 디렉토리를 대표하는 학습 데이터를 생성하는 단계,상기 디렉토리별 학습 데이터를 상기 주제 분류 트리에 포함된 디렉토리에 대응시켜 분류부를 생성하는 단계 및상기 생성된 분류부를 이용하여 분류 대상 웹 페이지 또는 분류 대상 광고의 텍스트를 대표하는 단어 벡터와 상기 분류부의 디렉토리를 대표하는 벡터 간의 유사도를 산출하여 상기 웹 페이지 또는 광고의 주제를 결정하는 단계를 포함하되,상기 주제 분류 트리를 생성하는 단계는, 상기 공개된 디렉토리 데이터에 포함된 디렉토리들 중 주제를 나타내지 않는 디렉토리를 제거하는 제 1 단계,상기 공개된 디렉토리 데이터에 포함된 디렉토리들 중 임계값보다 작은 개수의 웹 페이지를 포함하는 디렉토리를 제거하는 제 2 단계,상기 공개된 디렉토리 데이터에 포함된 디렉토리들 중 각 디렉토리의 깊이에 대한 최하위 디렉토리의 깊이의 비율이 임계값보다 큰 경우 해당 디렉토리를 제거하는 제 3 단계 및상기 공개된 디렉토리 데이터에 포함된 디렉토리에 대하여, 각 디렉토리의 웹 페이지에 대한 정보를 단어 벡터로 변환한 후 각 단어 벡터를 기초로 각 디렉토리에 대한 센트로이드 벡터를 산출하고, 부모 디렉토리와 자식 디렉토리의 센트로이드 벡터 사이의 코사인 유사도를 산출하여, 그 값이 임계값 이상인 경우에는 상기 자식 디렉토리를 제거하는 제 4 단계를 포함하는 것을 특징으로 하며,상기 학습 데이터를 생성하는 단계는,상기 웹 페이지의 텍스트 정보를 단어 벡터로 변환한 후 각 단어 벡터를 기초로 각 디렉토리에 대한 센트로이드 벡터를 산출하는 단계 및최하위 디렉토리부터 자식 디렉토리의 센트로이드 벡터와 부모 디렉토리의 센트로이드 벡터간의 벡터 합을 구하여, 각 부모 디렉토리의 병합 센트로이드 벡터를 산출하는 단계를 포함하는 것을 특징으로 하는 웹 페이지 또는 광고의 주제별 분류 방법
|
11 |
11
삭제
|
12 |
12
삭제
|
13 |
13
제 10 항에 있어서,상기 분류부를 생성하는 단계는,상기 산출된 병합 센트로이드 벡터를 추출하여 상기 주제 분류 트리에 포함된 디렉토리에 대응시키는 것인 웹 페이지 또는 광고의 주제별 분류 방법
|
14 |
14
제 13 항에 있어서,상기 주제를 결정하는 단계는,상기 분류 대상 웹 페이지 또는 분류 대상 광고의 텍스트를 대표하는 단어 벡터와 상기 분류부의 디렉토리를 대표하는 센트로이드 벡터 간의 유사도를 산출하여 상기 웹 페이지 또는 광고의 주제를 결정하는 웹 페이지 또는 광고의 주제별 분류 방법
|