1 |
1
개체명 사전 구축 시스템에 의한 개체명 사전 구축 방법에 있어서,수집된 웹문서의 구조를 분석하여, 상기 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계;추출된 상기 테이블 형식 또는 리스트 형식의 정보에 관한 헤더를 분석하고, 분석된 헤더 정보에 기초하여, 개체명이 포함될 확률을 점수화하는 제1점수화 단계;추출된 상기 테이블 형식 또는 리스트 형식의 정보에 대하여 개체명 인식을 수행하고, 상기 인식된 개체명의 비율을 점수화하는 제2점수화 단계;상기 제1점수화 단계와 상기 제2 점수화 단계의 점수들의 토대로 상기 인식된 개체명을 상기 개체명 사전에 등록할지 여부를 결정하는 단계;등록이 결정된 상기 개체명에 대하여 카테고리를 설정하는 단계; 및카테고리가 설정된 상기 개체명을 개체명 사전으로 데이터베이스화하는 단계를 포함하는 개체명 사전 구축 방법
|
2 |
2
제1항에 있어서, 상기 추출하는 단계 이전에,수집된 상기 웹문서의 주소를 추출하여 저장하는 단계;를 더 포함하는 개체명 사전 구축 방법
|
3 |
3
제1항에 있어서, 상기 추출하는 단계 이전에,기등록된 웹문서에서 업데이트된 웹문서를 수집하는 단계; 및상기 업데이트된 웹문서의 구조를 분석하여, 상기 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 단계를 포함하는 것이 개체명 사전 구축 방법
|
4 |
4
제1항에 있어서, 상기 등록 여부를 결정하는 단계는,상기 제1점수화 단계의 점수와 상기 제2점수화 단계의 점수를 합산하여, 상기 합산한 점수가 기준점수를 초과하는지 판단하는 단계; 및상기 판단 결과 상기 합산한 점수가 상기 기준점수를 초과하는 경우에 상기 인식된 개체명을 상기 개체명 사전에 등록할 개체명으로 결정하는 단계;를 포함하는 것인 개체명 사전 구축 방법
|
5 |
5
제1항에 있어서, 상기 카테고리를 설정하는 단계는,상기 카테고리가 설정된 개체명을 포함한 웹문서의 주소를 추출하여 관리하는 단계를 더 포함하는 개체명 사전 구축 방법
|
6 |
6
웹문서를 수집하는 웹문서 수집기;상기 웹문서 수집기에 의해 수집된 상기 웹문서로부터 테이블 형식 또는 리스트 형식의 정보를 추출하는 정보 추출기;상기 정보 추출기에 의해 추출된 상기 테이블 형식 또는 리스트 형식의 정보로부터 개체명을 추출하는 개체명 추출기; 및상기 개체명 추출기에 의해 추출된 상기 개체명을 저장하는 개체명 사전; 을 포함하고, 상기 개체명 추출기는,상기 웹문서 수집기에 의해 수집된 상기 웹문서 내에 존재하는 테이블 형식 또는 리스트 형식의 정보 중에서 헤더 정보를 분석하는 헤더분석부;상기 정보 추출기에 의해 추출된 상기 테이블 또는 리스트 형식의 정보로부터 개체명을 인식하는 개체명 인식부; 및상기 헤더분석부에 의해 분석된 상기 헤더 정보와 상기 개체명 인식부의 상기 개체명의 인식결과를 토대로 상기 인식된 개체명을 상기 개체명 사전에 등록할지 여부를 결정하는 결정부;를 포함하며, 상기 결정부는 상기 헤더분석부에 의해 분석된 상기 헤더정보를 토대로 상기 웹문서에 상기 개체명이 포함될 확률을 반영한 제1점수와 상기 개체명 인식부의 상기 개체명 인식의 빈도를 반영한 제2점수의 합을 기초로, 상기 인식된 개체명을 상기 개체명 사전에 등록할지 여부를 결정하는 것인 개체명 사전 구축 시스템
|
7 |
7
삭제
|
8 |
8
삭제
|
9 |
9
삭제
|
10 |
10
삭제
|
11 |
11
삭제
|
12 |
12
삭제
|