1 |
1
웹사이트에 접속 가능한 정책정보 제공 시스템이 파일 형태의 정책정보 문서를 크롤링하고 요지(要旨) 정보를 생성하여 제공하는 방법으로서,1) 크롤링한 정책정보 문서에 포함된 텍스트 데이터를 텍스트 추출기를 이용하여 추출하는 단계; 2) 상기 텍스트 데이터에 포함된 메타 데이터를 메타 추출기를 이용하여 추출하는 단계- 상기 메타 데이터는 상기 정책정보 문서의 문서 유형, 작성 기관, 작성 연도 및 문서 주제 키워드를 메타 요소로 포함함-; 3) 패턴 추출 모델을 이용하여 상기 메타 데이터로부터 제목 패턴 정보를 수득하는 단계- 상기 제목 패턴 정보는 복수의 메타 요소를 미리 준비된 제목 패턴에 따라 결합하여 상기 정책정보 문서의 제목을 생성하기 위한 정보임-; 4) 상기 메타 데이터에 포함된 문서 주제 키워드를 검색 조건으로 하여 제목 데이터베이스에 저장된 하나 이상의 제목을 검색하는 단계; 5) 상기 4)단계의 검색 결과로 수득한 제목 중에서, 해당 제목의 제목 패턴이 상기 3)단계에서 수득한 제목 패턴 정보의 제목 패턴과 미리 설정된 유사도 기준을 충족하는 하나 이상의 제목을 추출하는 단계; 6) 상기 5)단계에서 추출한 하나 이상의 제목의 제목 패턴에 상기 2)단계에서 추출한 메타 데이터를 결합하여 하나 이상의 제목을 생성하는 단계; 및 7) 상기 생성한 제목을 포함하는 정책정보 문서의 요지 정보를 제공하는 단계;를 포함하여 구성된 정책정보 문서의 요지 정보 제공 방법
|
2 |
2
제1항에 있어서, 상기 6)단계 이후에, 61) 요약문 생성기를 이용하여, 상기 생성한 제목에 포함된 메타 요소와 상기 메타 데이터에 포함된 메타 요소를 결합하여 요약문 정보를 생성하는 단계;를 더욱 포함하며, 상기 정책정보 문서의 요지 정보는 상기 요약문 정보를 더욱 포함하는 것을 특징으로 하는 정책정보 문서의 요지 정보 제공 방법
|
3 |
3
제1항에 있어서, 상기 텍스트 추출기 및 메타 추출기는, 문서 파일을 파싱(parsing)하고 텍스트 데이터 또는 메타 데이터를 추출(extracting)하는 기능을 갖는 컨텐츠 추출 라이브러리에 기반하여 구성된 것임을 특징으로 하는 정책정보 문서의 요지 정보 제공 방법
|
4 |
4
제1항에 있어서, 상기 2)단계에서 메타 추출기는 문서의 원본 제목을 더욱 추출하며, 상기 3)단계에서 상기 패턴 추출 모델은 추출이 이뤄진 정책정보 문서의 원본 제목을 구성하는 복수의 메타 요소와 제목 패턴을 학습 데이터로써 기계학습하여 생성한 기계학습 모델임을 특징으로 하는 정책정보 문서의 요지 정보 제공 방법
|
5 |
5
제1항에 있어서, 상기 2)단계에서, 상기 문서 주제 키워드는 상기 메타 추출기에 포함된 키워드 추출기를 이용하여 추출한 것이며, 상기 키워드 추출기는, 문서 파일로부터 통계 기반 방법 또는 그래프 기반 랭킹 방법에 의해 문서 주제 키워드를 추출하는 것을 특징으로 하는 정책정보 문서의 요지 정보 제공 방법
|
6 |
6
제1항에 있어서, 상기 2)단계에서, 상기 문서 주제 키워드는 상기 메타 추출기에 포함된 키워드 추출기를 이용하여 추출한 것이며, 상기 문서 주제 키워드는 n 개의 단어가 하나의 세트로서 하나의 문서 주제 키워드를 구성하며(단, n ≥ 1인 정수), 상기 키워드 추출기는, 상기 텍스트 데이터에 포함된 단어에 대해 n-gram 알고리즘을 이용하여 1개~n개의 연속적인 단어가 조합된 단어 나열을 추출하고, 상기 단어 나열에 대해 TFIDF 알고리즘을 이용하여 각각의 단어 나열의 정책정보 문서에서의 중요도를 통계적으로 측정하여 문서 주제 키워드를 추출하는 것을 특징으로 하는 정책정보 문서의 요지 정보 제공 방법
|
7 |
7
제6항에 있어서, 상기 키워드 추출기는, 더 많은 개수의 단어가 포함된 단어 나열이 더 적은 개수의 단어가 포함된 단어 나열보다 상대적으로 중요도가 높게 판단되도록 가중치를 부여하여 문서 주제 키워드를 추출하는 것을 특징으로 하는 정책정보 문서의 요지 정보 제공 방법
|
8 |
8
제1항에 있어서, 상기 제목 데이터베이스는 웹에서 검색된 하나 이상의 문서의 제목을 저장한 데이터베이스이며, 상기 4)단계는, 상기 메타 데이터에 포함된 문서 주제 키워드를 검색 조건으로 하여 제목 데이터베이스에 저장된 제목을 검색하고, 미리 설정된 유사도 기준을 충족하는 하나 이상의 문서의 제목을 검색 결과로 수득하는 것을 특징으로 하는 정책정보 문서의 요지 정보 제공 방법
|
9 |
9
제1항에 있어서, 각각의 상기 메타 요소에는 분류 태그가 부여되며, 상기 제목 패턴은 제목을 구성하는 복수의 메타 요소의 분류 태그 상호간의 위치 관계 및 연결 단어를 정의하는 패턴인 것을 특징으로 하는 정책정보 문서의 요지 정보 제공 방법
|
10 |
10
하나 이상의 명령을 저장하는 메모리; 및상기 메모리에 저장된 상기 하나 이상의 명령을 실행하는 프로세서를 포함하고, 상기 프로세서는, 웹사이트에 접속하여 크롤링한 파일 형태의 정책정보 문서에 포함된 텍스트 데이터를 텍스트 추출기를 이용하여 추출하고; 상기 텍스트 데이터에 포함된 메타 데이터를 메타 추출기를 이용하여 추출하며- 상기 메타 데이터는 상기 정책정보 문서의 문서 유형, 작성 기관, 작성 연도 및 문서 주제 키워드를 메타 요소로 포함함-; 패턴 추출 모델을 이용하여 상기 메타 데이터로부터 제목 패턴 정보를 수득하고- 상기 제목 패턴 정보는 복수의 메타 요소를 미리 준비된 제목 패턴에 따라 결합하여 상기 정책정보 문서의 제목을 생성하기 위한 정보임-; 상기 메타 데이터에 포함된 문서 주제 키워드를 검색 조건으로 하여 제목 데이터베이스에 저장된 하나 이상의 제목을 검색하며; 상기 검색 결과로 수득한 제목 중에서, 해당 제목의 제목 패턴이 상기 수득한 제목 패턴 정보의 제목 패턴과 미리 설정된 유사도 기준을 충족하는 하나 이상의 제목을 추출하고; 상기 추출한 하나 이상의 제목의 제목 패턴에 상기 추출한 메타 데이터를 결합하여 하나 이상의 제목을 생성하며; 상기 생성한 제목을 포함하는 정책정보 문서의 요지 정보를 제공하는 것을 특징으로 하는 정책정보 제공 시스템
|
11 |
11
하나 이상의 명령을 저장하는 메모리와 상기 메모리에 저장된 상기 하나 이상의 명령을 실행하는 프로세서를 포함하는 하드웨어와 결합되어 정책정보 문서의 요지 정보 제공 방법을 실행하도록 매체에 저장된 컴퓨터 프로그램으로서, 상기 정책정보 문서의 요지 정보 제공 방법은,1) 웹사이트에 접속하여 크롤링한 파일 형태의 정책정보 문서에 포함된 텍스트 데이터를 텍스트 추출기를 이용하여 추출하는 단계; 2) 상기 텍스트 데이터에 포함된 메타 데이터를 메타 추출기를 이용하여 추출하는 단계- 상기 메타 데이터는 상기 정책정보 문서의 문서 유형, 작성 기관, 작성 연도 및 문서 주제 키워드를 메타 요소로 포함함-; 3) 패턴 추출 모델을 이용하여 상기 메타 데이터로부터 제목 패턴 정보를 수득하는 단계- 상기 제목 패턴 정보는 복수의 메타 요소를 미리 준비된 제목 패턴에 따라 결합하여 상기 정책정보 문서의 제목을 생성하기 위한 정보임-; 4) 상기 메타 데이터에 포함된 문서 주제 키워드를 검색 조건으로 하여 제목 데이터베이스에 저장된 하나 이상의 제목을 검색하는 단계; 5) 상기 4)단계의 검색 결과로 수득한 제목 중에서, 해당 제목의 제목 패턴이 상기 3)단계에서 수득한 제목 패턴 정보의 제목 패턴과 미리 설정된 유사도 기준을 충족하는 하나 이상의 제목을 추출하는 단계; 6) 상기 5)단계에서 추출한 하나 이상의 제목의 제목 패턴에 상기 2)단계에서 추출한 메타 데이터를 결합하여 하나 이상의 제목을 생성하는 단계; 및 7) 상기 생성한 제목을 포함하는 정책정보 문서의 요지 정보를 제공하는 단계;를 포함하여 구성된 것을 특징으로 하는 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램
|