1 |
1
복수의 원본 전자 문서에 대한 요약문을 생성하는 장치에 있어서,입력받은 사용자 쿼리를 기반으로 상기 사용자 쿼리와 유사한 문서를 검색하여 문서 세트를 생성하는 문서 세트 생성부;상기 문서 세트 내의 복수의 원본 전자 문서 각각의 요약문을 생성하기 위해, 상기 복수의 원본 전자 문서에 포함된 문장 및 단어를 추출하는 문장 및 단어 추출부;상기 추출된 단어를 기반으로 각각의 원본 전자 문서에 대한 후보 요약문을 생성하는 후보 요약문 생성부;상기 원본 전자 문서의 단어 가중치 - 단어 가중치는 개별 문서에서 해당 단어가 핵심적인 단어인지를 나타내는 지표임 - 와 상기 후보 요약문의 단어 가중치를 비교하는 가중치 비교부; 및상기 단어 가중치 비교 결과를 기반으로 후보 요약문을 수정하여 최종 요약문을 생성하는 최종 요약문 생성부를 포함하는 것을 특징으로 하는 요약문 생성 장치
|
2 |
2
제 1 항에 있어서, 상기 후보 요약문 내의 각 문장의 중요도를 산출하는 문장 중요도 산출부; 및문장 간의 중복되는 내용을 상기 문장 중요도에서 제외하여 최종 중요도 점수를 산출하는 점수 산출부를 더 포함하는 것을 특징으로 하는 요약문 생성 장치
|
3 |
3
제 2 항에 있어서, 상기 문장 중요도 산출부는 TextRank 알고리즘 - TextRank 알고리즘은 각 문장의 상대적 중요성을 측정하기 위해 각 문장을 노드로, 문장 간의 유사도를 이용하여 간선을 만들어 최초 모든 노드에 동일한 점수를 부여하고, 모든 노드에 대해 동시에 진출 간선 개수만큼 점수를 나누어서 각각의 진출간선에 연결되어 있는 노드에게 분배하는 연산을 반복하여 각 노드들의 최종 점수를 산출하는 알고리즘임 - 을 이용하여 각 문장의 중요도를 산출하는 것을 특징으로 하는 요약문 생성 장치
|
4 |
4
제 2 항에 있어서, 상기 단어 가중치는 TF-IDF(Term Frequency-Inverse Document Frequency)를 통해 산출되는 것을 특징으로 하는 요약문 생성 장치
|
5 |
5
제 4 항에 있어서, 상기 단어 가중치 비교 결과는 상기 원본 전자 문서의 TF-IDF 확률 분포와 상기 후보 요약문의 TF-IDF 확률 분포의 유사도를 기준으로 판단되는 것을 특징으로 하는 요약문 생성 장치
|
6 |
6
제 2 항에 있어서, 상기 최종 요약문 생성부는상기 단어 가중치 비교 결과와 상기 문장의 중요도를 반영하여 최종 요약문의 최종 점수를 산출하고, 산출된 최종 점수를 이전 후보 요약문의 최종 점수와 비교하여 최종 요약문을 생성하는 것을 특징으로 하는 요약문 생성 장치
|
7 |
7
제 6 항에 있어서, 상기 최종 요약문 생성부는 유전 알고리즘 - 유전 알고리즘은 하나의 전자 문서를 유전체로 하여, 문서를 이루는 문장들이 후보 요약문으로 추출된 경우를 1로, 추출되지 않을 경우를 0으로 표현하여, 반복적인 세대 생성을 통해 최적 요약문을 생성하는 알고리즘임 - 을 이용하여 최적 요약문을 생성하는 것을 특징으로 하는 요약문 생성 장치
|
8 |
8
제 7 항에 있어서, 상기 최종 요약문 생성부는 상기 산출된 최종 점수가 이전 후보 요약문의 최종 점수와 비교하여 수렴하는 형태를 갖는 경우, 최종 요약문으로 확정하여 출력하고, 상기 산출된 최종 점수가 이전 후보 요약문의 최종 점수와 비교하여 수렴하는 형태를 갖지 않는 경우, 상기 유전 알고리즘에 따라 일부 변형된 후보 요약문을 생성하여 상기 단어 가중치 비교 값 및 상기 문장의 중요도 값을 산출하여 유전 알고리즘을 적용하는 루프를 반복 수행하는 것을 특징으로 하는 요약문 생성 장치
|
9 |
9
제 1 항에 있어서, 상기 문장 및 단어 추출부는 상기 문서 세트 내에 존재하는 각 문장과 단어를 분석 가능한 형태로 전처리하기 위해, 상기 추출된 문장에서 불용어를 제거하고 상기 추출된 단어에 대한 어근을 추출하는 것을 특징으로 하는 요약문 생성 장치
|
10 |
10
복수의 원본 전자 문서에 대한 요약문을 생성하는 방법에 있어서,입력받은 사용자 쿼리를 기반으로 상기 사용자 쿼리와 유사한 문서를 검색하여 문서 세트를 생성하는 문서 세트 생성 단계;상기 문서 세트 내의 복수의 원본 전자 문서 각각의 요약문을 생성하기 위해, 상기 복수의 원본 전자 문서에 포함된 문장 및 단어를 추출하는 문장 및 단어 추출 단계;상기 추출된 단어를 기반으로 각각의 원본 전자 문서에 대한 후보 요약문을 생성하는 후보 요약문 생성 단계;상기 원본 전자 문서의 단어 가중치 - 단어 가중치는 개별 문서에서 해당 단어가 핵심적인 단어인지를 나타내는 지표임 - 와 상기 후보 요약문의 단어 가중치를 비교하는 가중치 비교 단계; 및상기 단어 가중치 비교 결과를 기반으로 최종 요약문을 생성하는 최종 요약문 생성 단계를 포함하는 것을 특징으로 하는 요약문 생성 방법
|
11 |
11
제 10 항에 있어서, 상기 후보 요약문 내의 각 문장의 중요도를 산출하는 문장 중요도 산출 단계; 및문장 간의 중복되는 내용을 상기 문장 중요도에서 제외하여 최종 중요도 점수를 산출하는 점수 산출 단계를 더 포함하는 것을 특징으로 하는 요약문 생성 방법
|
12 |
12
제 11 항에 있어서, 상기 문장 중요도 산출 단계는 TextRank 알고리즘 - TextRank 알고리즘은 각 문장의 상대적 중요성을 측정하기 위해 각 문장을 노드로, 문장 간의 유사도를 이용하여 간선을 만들어, 모든 노드에 동일한 점수를 최초 부여하고, 상기 모든 노드에 대해 동시에 진출 간선 개수만큼 점수를 각각의 진출간선에 연결되어 있는 노드에게 분배하는 연산을 반복하여 각 노드들의 최종 점수를 산출하는 알고리즘임 - 을 이용하여 각 문장의 중요도를 산출하는 단계를 포함하는 것을 특징으로 하는 요약문 생성 방법
|
13 |
13
제 11 항에 있어서, 상기 단어 가중치는 TF-IDF(Term Frequency-Inverse Document Frequency)를 통해 산출되는 것을 특징으로 하는 요약문 생성 방법
|
14 |
14
제 10 항에 있어서, 상기 단어 가중치 비교 결과는 상기 원본 전자 문서의 TF-IDF 확률 분포와 상기 후보 요약문의 TF-IDF 확률 분포의 유사도를 기준으로 판단되는 것을 특징으로 하는 요약문 생성 방법
|
15 |
15
제 11 항에 있어서, 상기 최종 요약문 생성 단계는상기 단어 가중치 비교 결과와 상기 문장의 중요도를 반영하여 최종 요약문의 최종 점수를 산출하고, 산출된 최종 점수를 이전 후보 요약문의 최종 점수와 비교하여 최종 요약문을 생성하는 단계를 포함하는 것을 특징으로 하는 요약문 생성 방법
|
16 |
16
제 15 항에 있어서, 상기 최종 요약문 생성 단계는 유전 알고리즘 - 유전 알고리즘은 하나의 전자 문서를 유전체로 하여, 문서를 이루는 문장들이 후보 요약문으로 추출된 경우를 1로, 추출되지 않을 경우를 0으로 표현하여, 반복적인 세대 생성을 통해 최적 요약문을 생성하는 알고리즘임 - 을 이용하여 최적 요약문을 생성하는 단계를 포함하는 것을 특징으로 하는 요약문 생성 방법
|
17 |
17
제 16 항에 있어서, 상기 최종 요약문 생성 단계는 상기 산출된 최종 점수가 이전 후보 요약문의 최종 점수와 비교하여 수렴하는 형태를 갖는 경우, 최종 요약문으로 확정하여 출력하고, 상기 산출된 최종 점수가 이전 후보 요약문의 최종 점수와 비교하여 수렴하는 형태를 갖지 않는 경우, 상기 유전 알고리즘에 따라 일부 변형된 후보 요약문을 생성하여 상기 단어 가중치 비교 값 및 상기 문장의 중요도 값을 산출하여 유전 알고리즘을 적용하는 루프를 반복 수행하는 단계를 포함하는 것을 특징으로 하는 요약문 생성 방법
|
18 |
18
제 10 항에 있어서, 상기 문장 및 단어 추출 단계는 상기 문서 세트 내에 존재하는 각 문장과 단어를 분석 가능한 형태로 전처리하기 위해, 상기 추출된 문장에서 불용어를 제거하고 상기 추출된 단어에 대한 어근을 추출하는 단계를 포함하는 것을 특징으로 하는 요약문 생성 방법
|