1 |
1
개체간 암묵적 관계 추론을 통해 정보를 추출하는 시스템에 있어서,텍스트 또는 구조화된 데이터베이스로부터 추출된 정보 튜플에 포함된 개체를 병합하거나 분류하고, 분포 유사도를 기반으로 개체간 유사도를 측정하여 상기 정보 튜플에 포함되어 있는 관계명간 유사도를 측정하며, 측정한 유사도를 토대로 상기 관계명을 군집화하며, 상기 병합하거나 분류한 상기 정보 튜플의 개체를 그래프의 노드로 설정하고, 정보 튜플의 두 개체에 그래프의 변을 설정하여 그래프의 구조 정보로 저장하는 의미 저장부;정보 튜플 중 임의의 대상 개체와 상기 대상 개체와 관계를 가지는 복수의 후보 개체들을 개체쌍으로 추출하는 개체쌍 추출부; 및상기 개체쌍 추출부에서 추출한 복수의 개체쌍에서 최종 튜플을 추출하고, 상기 추출한 최종 튜플에 상기 의미 저장부에 저장되어 있는 그래프의 연결 구조 정보를 활용하여 관계명을 부여하는 관계명 부여부를 포함하는 정보 추출 시스템
|
2 |
2
제1항에 있어서,상기 관계명 부여부는,추출하고자 하는 최종 튜플의 그래프상 최단 경로를 파악하고, 최단 경로상의 중개 개체 및 관계명을 저장하며,상기 임의의 대상 개체와 복수의 후보 개체 그리고, 저장한 중개 개체와 제1 관계명과 제2 관계명을 기반으로, 제1 관계명과 제2 관계명을 요소로 가지는 그래프 연결 구조를 추출하고,추출한 그래프 연결 구조로부터 상기 임의의 대상 개체와 후보 개체 사이의 관계명을 부여하고,미리 설정한 제약 조건을 통과한 관계명 후보군만을 최종 튜플로 추출하는 정보 추출 시스템
|
3 |
3
정보 추출 시스템이 개체간 암묵적 관계 추론을 통해 정보를 추출하는 방법에 있어서,텍스트 또는 구조화된 데이터베이스로부터 추출된 정보 튜플에 포함되어 있는 복수의 개체 중 개체의 출현 빈도에 따라 개체들을 병합하고, 분포 유사도(distributional similarity)를 기반으로 개체간 유사도를 측정하는 단계;개체 범주를 결정하고 동일한 범주의 개체를 군집화하기 위하여, 개체를 분류하는 단계;상기 정보 튜플에 포함되어 있는 복수의 관계명 간의 분포 유사도를 기반으로 관계명간 유사도를 측정하고, 측정한 유사도를 토대로 복수의 관계명을 군집화하는 단계;개체가 병합되고 분류되며 관계명이 군집화된 정보 튜플의 개체를 그래프의 노드로 설정하고, 상기 정보 튜플의 두 개체에 그래프의 변을 설정하여 그래프의 구조 정보로 저장하는 단계;상기 추출한 정보 튜플 중 임의의 대상 개체와 상기 대상 개체와 관계를 가지는 것으로 여겨지는 복수의 후보 개체들을 개체쌍으로 추출하는 단계; 및상기 추출한 개체쌍에서 최종 정보 튜플을 추출하고, 상기 추출한 최종 정보 튜플에 관계명을 부여하는 단계를 포함하는 정보 추출 방법
|
4 |
4
삭제
|
5 |
5
제3항에 있어서,상기 개체간 유사도는 개체와 결합된 관계명의 단어 리스트를 기반으로 생성한 벡터의 코사인 유사도를 토대로 계산하고,상기 그래프의 변에 대한 명칭과 방향은 상기 정보 튜플의 관계명과 동일하게 설정하는 정보 추출 방법
|
6 |
6
제3항에 있어서,상기 복수의 후보 개체들을 개체쌍으로 추출하는 단계는,상기 복수의 정보 튜플에 포함되어 있는 복수의 개체 중 임의의 대상 개체와 관계가 있는 것으로 여겨져 추출한 복수의 후보 개체에 연관도 점수를 부여하는 단계; 및 상기 임의의 대상 개체와 상기 복수의 후보 개체 사이의 연관도를 측정하기 위해 정규화된 근접성(Normalized Closeness)와 고유값(Distinct)을 측정하여, 상기 임의의 대상 개체와 복수의 후보 개체와의 연관도를 계산하는 단계 를 포함하는 정보 추출 방법
|
7 |
7
제3항에 있어서,상기 추출한 최종 정보 튜플에 관계명을 부여하는 단계는,상기 추출한 개체쌍에 대하여 의미 네트워크상 최단 경로를 확인하는 단계;상기 확인한 최단 경로상의 중개 개체와 관계명을 저장하는 단계;임의의 대상 개체와 복수의 후보 개체 그리고, 저장되어 있는 중개 개체와 제1 관계명과 제2 관계명을 기반으로, 상기 제1 관계명과 제2 관계명을 요소로 가지는 의미 네트워크 연결 구조를 추출하는 단계;상기 추출한 의미 네트워크 연결 구조로부터 상기 임의의 대상 개체와 후보 개체 사이의 관계명을 부여하는 단계; 및상기 부여한 관계명을 보유한 정보 튜플을 최종 튜플로 추출하는 단계를 포함하는 정보 추출 방법
|
8 |
8
제7항에 있어서,상기 네트워크 연결구조를 추출하는 단계는,연결 구조의 방향성을 측정하는 단계;해당 연결 구조와 암묵적 개체쌍의 그래프상 최단 경로와 유사도를 측정하는 단계;연결구조에 포함된 관계명 공통 점수를 비교하는 단계; 및찾고자 하는 관계명의 개체 범주와 추출한 연결 구조가 가지고 있는 개체 범주를 비교하는 단계를 포함하는 정보 추출 방법
|
9 |
9
제8항에 있어서,상기 연결 구조의 방향성을 측정하는 단계는,찾고자 하는 개체쌍에 대한 그래프상의 최단 경로와, 상기 찾고자 하는 개체쌍의 연결구조 사이의 개체간 연관도 점수를 토대로 연결구조 유사도 점수를 계산하는 단계를 포함하는 정보 추출 방법
|
10 |
10
제8항에 있어서,상기 공통 점수는 임의의 관계명이 가지고 있는 평균 PMI(Pointwise Mutual Information) 값과 임의의 관계명과 함께 등장하는 개체 집합의 근접성의 합계를 토대로 계산되는 정보 추출 방법
|
11 |
11
제8항에 있어서,상기 개체 범주는 해당 개체명과 함께 등장하는 관계명의 패턴 분석을 통해 추출하는 정보 추출 방법
|
12 |
12
제7항에 있어서,상기 관계명을 부여하는 단계는,제1 관계명, 제2 관계명 및 제3 관계명으로 이루어진 그래프 연결 구조에서, 상기 제3 관계명을 상기 임의의 대상 개체와 후보 개체 사이의 관계명 후보군으로 추출하는 단계;관계명 후보군이 없는 경우, 상기 제1 관계명 및 제2 관계명과 유사도 점수가 높은 제4 관계명 및 제5 관계명을 설정하고, 설정한 제4 관계명과 제5 관계명을 요소로 가지는 그래프 연결 구조를 추출하는 단계; 및추출한 관계명 후보군이 복수인 경우, 복수의 관계명에 대한 신뢰도 점수를 각각 측정하고, 가장 높은 신뢰도 점수를 갖는 관계명을 상기 임의의 대상 개체와 후보 개체 사이의 관계명으로 부여하는 단계를 포함하는 정보 추출 방법
|
13 |
13
제7항에 있어서,상기 최종 튜플로 추출하는 단계는,상기 추출한 최종 튜플의 신뢰도 점수를 계산하는 단계를 포함하며,상기 신뢰도 점수는 관계명의 공통 점수, 관계명과 개체쌍의 언어적 연관성, 상기 관계명의 연결 구조 유사도 점수, 상기 관계명이 가지는 대표성 값 및 상기 관계명이 가지는 단어의 수를 토대로 계산하는 정보 추출 방법
|