1 |
1
대상 문서에서 키워드를 생성하는 방법에 있어서,상기 대상 문서에서 단일 주요 단어를 추출하는 단계;상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하는 단계;상기 후보 키워드에 속하는 제 1 단어 및 제 2 단어 간의 응집력을 산출하는 단계, 상기 응집력은 상기 대상문서 및 이웃 문서 중 적어도 하나에서 제 1 단어와 제 2 단어와의 거리가 기설정된 윈도우 범위 내에 포함되는 경우의 빈도 수를 나타냄;이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수를 산출하는 단계, 상기 문맥 평가 점수는 상기 두 문맥의 단어를 벡터 형태로 나타낸 수치와 전체 문서 집합에서 각 단어의 동시 출현 빈도를 곱하여 산출됨; 및상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 단계를 포함하는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법
|
2 |
2
삭제
|
3 |
3
제 1 항에 있어서, 상기 응집력은 상기 제 1 단어 및 상기 제 2 단어의 거리가 가까울수로 높은 응집력을 갖도록 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법
|
4 |
4
제 1 항에 있어서,상기 응집력은 상기 대상 문서뿐만 아니라 이웃 문서에서의 응집력도 함께 이용하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법
|
5 |
5
제 4 항에 있어서,상기 이웃 문서에서의 응집력은 상기 대상 문서와 상기 이웃 문서의 유사도가 높을수록 가중치를 높게 하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법
|
6 |
6
삭제
|
7 |
7
제 1 항에 있어서,상기 문맥의 단어를 벡터 형태로 나타낸 수치로 변환함에 있어서, bag-of-words 모델을 이용하는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법
|
8 |
8
제 1 항에 있어서, 상기 후보 키워드에 대한 최종 점수는 상기 응집력 및 상기 문맥 평가 점수를 각각 정규화한 후, 가중치를 두어 합산하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 방법
|
9 |
9
제 1 항에 있어서, 상기 이웃 문서는 상기 대상 문서와의 유사도를 기반으로 산출되는 상위 n개(n은 임의의 자연수)의 문서인 것을 특징으로 하는 문서에서 키워드를 생성하는 방법
|
10 |
10
대상 문서에서 키워드를 생성하는 장치에 있어서,상기 대상 문서에서 단일 주요 단어를 추출하는 주요 단어 추출부;상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하는 후보 키워드 생성부;상기 후보 키워드에 속하는 개별 단어 중 제 1 단어 및 제 2 단어 간의 응집력 점수를 산출하는 응집력 점수 산출부, 상기 응집력은 상기 대상문서 및 이웃 문서 중 적어도 하나에서 제 1 단어와 제 2 단어와의 거리가 기설정된 윈도우 범위 내에 포함되는 경우의 빈도 수를 나타냄;이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수를 산출하는 문맥 평가 점수 산출부, 상기 문맥 평가 점수는 상기 두 문맥의 단어를 벡터 형태로 나타낸 수치와 전체 문서 집합에서 각 단어의 동시 출현 빈도를 곱하여 산출됨; 및상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 최종 키워드 선별부를 포함하는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치
|
11 |
11
삭제
|
12 |
12
제 10 항에 있어서, 상기 응집력은 상기 제 1 단어 및 상기 제 2 단어의 거리가 가까울수로 높은 응집력을 갖도록 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치
|
13 |
13
제 10 항에 있어서,상기 응집력은 상기 대상 문서뿐만 아니라 이웃 문서에서의 응집력도 함께 이용하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치
|
14 |
14
제 13 항에 있어서,상기 이웃 문서에서의 응집력은 상기 대상 문서와 상기 이웃 문서의 유사도가 높을수록 가중치를 높게 하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치
|
15 |
15
삭제
|
16 |
16
제 10 항에 있어서,상기 문맥의 단어를 벡터 형태로 나타낸 수치로 변환함에 있어서, bag-of-words 모델을 이용하는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치
|
17 |
17
제 10 항에 있어서, 상기 후보 키워드에 대한 최종 점수는 상기 응집력 및 상기 문맥 평가 점수를 각각 정규화한 후, 가중치를 두어 합산하여 산출되는 것을 특징으로 하는 문서에서 키워드를 생성하는 장치
|
18 |
18
제 10 항에 있어서, 상기 이웃 문서는 상기 대상 문서와의 유사도를 기반으로 산출되는 상위 n개(n은 임의의 자연수)의 문서인 것을 특징으로 하는 문서에서 키워드를 생성하는 장치
|
19 |
19
대상 문서에서 키워드를 생성하는 시스템에 있어서,복수의 전자 문서를 저장하고 있는 웹 데이터베이스;상기 웹 데이터베이스 상의 상기 대상 문서에서 단일 주요 단어를 추출하고, 상기 주요 단어 간의 결합을 통해 후보 키워드를 생성하며, 상기 후보 키워드에 속하는 제 1 단어 및 제 2 단어 간의 응집력 - 상기 응집력은 상기 대상문서 및 이웃 문서 중 적어도 하나에서 제 1 단어와 제 2 단어와의 거리가 기설정된 윈도우 범위 내에 포함되는 경우의 빈도 수를 나타냄 - 을 산출하고, 상기 대상 문서의 이웃 문서에서 상기 제 1 단어와 상기 제 2 단어가 동시에 나타나는 단어의 주변을 하나의 문맥으로 보고 상기 대상 문서를 다른 하나의 문맥으로 보아, 두 문맥의 유사도를 기반으로 상기 제 1 단어 및 상기 제 2 단어의 문맥 평가 점수 - 문맥 평가 점수는 상기 두 문맥의 단어를 벡터 형태로 나타낸 수치와 전체 문서 집합에서 각 단어의 동시 출현 빈도를 곱하여 산출됨 - 를 산출하며, 상기 응집력 및 상기 문맥 평가 점수를 기반으로 최종 키워드를 선별하는 키워드 생성 장치를 포함하는 것을 특징으로 하는 문서에서 키워드를 생성하는 시스템
|