1 |
1
대용량 데이터의 구조화에 사용되는 트리플 데이터의 생성 방법에 있어서,패턴 생성부가 자연어 문장 내 주어 및 목적어를 포함하는 트리플 데이터로 구성된 지식 베이스와 코퍼스(corpus)를 입력받고, 이에 기초하여 패턴을 생성하는 단계;패턴 학습부가 생성된 패턴 중 상기 주어와 목적어 간에 관계를 나타내는 어휘별 패턴 후보를 추출하여 학습하는 단계; 및트리플 생성부가 학습된 패턴에 기초하여 신규 트리플 데이터를 생성하는 단계;를 포함하되, 상기 패턴은 상기 자연어 문장 내 존재하는 주어 조사, 목적어 조사 및 서술어를 포함하거나, 상기 자연어 문장 내 주어와 목적어 사이에 위치하는 적어도 하나의 어휘를 나타내는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
2 |
2
제1항에 있어서,상기 패턴 생성부가 자연어 문장 내 주어 및 목적어를 포함하는 트리플 데이터로 구성된 지식 베이스와 코퍼스(corpus)를 입력받고, 이에 기초하여 패턴을 생성하는 단계는상기 자연어 문장 내 주어 및 목적어를 포함하는 트리플 데이터로 구성된 지식 베이스와 코퍼스를 입력받는 단계;상기 지식 베이스와 코퍼스로부터 주어 및 목적어를 포함하는 적어도 하나의 문장을 추출하는 단계; 추출한 문장 내 주어 또는 목적어를 각각 포함하는 적어도 하나의 어절을 추출하는 단계;추출한 어절 내 존재하는 조사 정보에 기초하여 주어 조사 및 목적어 조사를 각각 추출하는 단계;상기 추출한 문장 내 존재하는 서술어를 추출하는 단계; 및추출한 상기 주어 조사, 목적어 조사 및 서술어를 포함하는 패턴을 생성하거나, 또는 상기 추출한 문장 내 주어와 목적어 사이에 위치하는 적어도 하나의 어휘를 추출하여 패턴으로 생성하는 단계;를 포함하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
3 |
3
제2항에 있어서,상기 추출한 문장 내 존재하는 서술어를 추출하는 단계는 상기 추출한 문장 내 서술어가 복수 개 존재하는 경우, 추출한 주어 조사에 해당하는 주어와, 상기 목적어 조사에 해당하는 목적어간에 관계를 나타내는 서술어를 추출하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
4 |
4
제3항에 있어서,상기 추출한 문장 내 존재하는 서술어를 추출하는 단계는 상기 주어 조사에 해당하는 주어와, 상기 목적어 조사에 해당하는 목적어간에 의존 관계를 분석하고, 그 분석결과에 따라 서술어를 추출하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
5 |
5
제4항에 있어서, 상기 추출한 문장 내 존재하는 서술어를 추출하는 단계는 상기 주어와 목적어간 의존 관계 정보에 기초하여 의존 관계 트리 구조를 생성하고, 생성한 의존 관계 트리 구조 내 존재하는 복수 개의 서술어 노드 중 상기 주어와 목적어에 각각 해당하는 주어 노드 및 목적어 노드와 가장 가까운 곳에 위치하는 하나의 서술어 노드를 선택한 후, 선택한 서술어 노드에 해당하는 서술어를 추출하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
6 |
6
제5항에 있어서, 상기 트리플 생성부가 학습된 패턴에 기초하여 신규 트리플 데이터를 생성하는 단계는상기 주어와 목적어간 의존 관계 정보에 기초하여 생성된 의존 관계 트리 구조 중 추출한 서술어를 기준으로 하는 부분 트리 구조를 추출하고, 추출된 부분 트리 구조 중 주어 및 목적어에 해당하는 노드를 각각 선택하여, 선택한 노드에 해당하는 주어, 목적어 및 추출한 서술어를 포함하는 신규 트리플 데이터를 생성하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
7 |
7
제1항에 있어서,상기 패턴 학습부가 생성된 패턴 중 상기 주어와 목적어 간에 관계를 나타내는 어휘별 패턴 후보를 추출하여 학습하는 단계는 학습한 패턴 후보 중 오류 패턴을 제거하는 것을 더 포함하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
8 |
8
제7항에 있어서,상기 패턴 학습부가 생성된 패턴 중 상기 주어와 목적어 간에 관계를 나타내는 어휘별 패턴 후보를 추출하여 학습하는 단계는 추출한 문장 내 주어와 목적어 사이에 위치하는 적어도 하나의 어휘 중 상기 주어와 목적어간의 관계를 나타내는 서술어 또는 상기 문장 내 레이블, 식별자 또는 속성을 나타내는 어휘 중 적어도 하나를 프로퍼티로 생성하는 단계;상기 패턴과 프로퍼티간에 의미 유사도를 측정하는 단계; 및상기 패턴과 프로퍼티간 의미 유사도 측정결과에 기초하여 오류 패턴을 결정하고, 결정한 오류 패턴을 제거하는 단계;를 포함하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
9 |
9
제8항에 있어서,상기 패턴과 프로퍼티간에 의미 유사도를 측정하는 단계는 워드 임베딩 공간에 각각 맵핑된 상기 패턴과 프로퍼티간에 벡터 유사도를 연산하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
10 |
10
제9항에 있어서,상기 패턴과 프로퍼티간에 의미 유사도를 측정하는 단계는상기 패턴 및 프로퍼티가 서로 다른 언어로 이루어지는 경우, 상기 패턴 및 프로퍼티와 동일한 의미를 갖는 기설정된 어휘 쌍들에 기초하여 상기 패턴과 프로퍼티간 상관계수가 높아지도록 투영행렬을 학습하여 상기 패턴 및 프로퍼티를 동일한 워드 임베딩 공간으로 투영시키는 것을 더 포함하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
11 |
11
제10항에 있어서,상기 패턴은 한국어로 이루어지고, 상기 프로퍼티는 영어로 이루어지는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
12 |
12
제9항에 있어서,상기 패턴과 프로퍼티간에 의미 유사도를 측정하는 단계는 상기 패턴과 프로퍼티가 각각 하나의 어휘로 이루어진 경우, 상기 패턴과 프로퍼티간에 코사인 유사도를 연산하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
13 |
13
제9항에 있어서,상기 패턴과 프로퍼티간에 의미 유사도를 측정하는 단계는 상기 패턴과 프로퍼티가 복수 개 어절 또는 복수 개의 어휘로 이루어지는 경우, 상기 패턴과 프로퍼티를 이루는 구성 요소들의 평균 벡터를 정의하고, 정의된 평균 벡터에 기초하여 상기 패턴 및 프로퍼티간에 벡터 유사도를 연산하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
14 |
14
제9항에 있어서,상기 워드 임베딩 공간은복수 개의 어휘를 N 차원(이때, 상기 N은 자연수이다
|
15 |
15
제1항에 있어서,저장부가 상기 패턴 생성부로부터 생성된 패턴과, 상기 트리플 생성부로부터 생성된 신규 트리플 데이터를 저장하는 단계;를 더 포함하는 것을 특징으로 하는 트리플 데이터의 생성 방법
|
16 |
16
제1항 내지 제15항 중 어느 한 항에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체
|
17 |
17
대용량 데이터의 구조화에 사용되는 트리플 데이터의 생성 시스템에 있어서,자연어 문장 내 주어 및 목적어를 포함하는 트리플 데이터로 구성된 지식 베이스와 코퍼스(corpus)를 입력받고, 이에 기초하여 패턴을 생성하는 패턴 생성부;생성된 패턴 중 상기 주어와 목적어 간에 관계를 나타내는 어휘별 패턴 후보를 추출하여 학습하는 패턴 학습부; 및학습된 패턴에 기초하여 신규 트리플 데이터를 생성하는 트리플 생성부;를 포함하되, 상기 패턴은 상기 자연어 문장 내 존재하는 주어 조사, 목적어 조사 및 서술어를 포함하거나, 상기 자연어 문장 내 주어와 목적어 사이에 위치하는 적어도 하나의 어휘를 나타내는 것을 특징으로 하는 트리플 데이터의 생성 시스템
|
18 |
18
제17항에 있어서,상기 패턴 생성부는상기 주어 조사에 해당하는 주어와, 상기 목적어 조사에 해당하는 목적어간에 의존 관계를 분석하고, 그 분석결과에 따라 서술어를 추출하는 것을 특징으로 하는 트리플 데이터의 생성 시스템
|
19 |
19
제18항에 있어서,상기 패턴 생성부는 상기 주어와 목적어간 의존 관계 정보에 기초하여 의존 관계 트리 구조를 생성하고, 생성한 의존 관계 트리 구조 내 존재하는 복수 개의 서술어 노드 중 상기 주어와 목적어에 각각 해당하는 주어 노드 및 목적어 노드와 가장 가까운 곳에 위치하는 하나의 서술어 노드를 선택한 후, 선택한 서술어 노드에 해당하는 서술어를 추출하는 것을 특징으로 하는 트리플 데이터의 생성 시스템
|
20 |
20
제17항에 있어서,상기 패턴 학습부는추출한 문장 내 주어와 목적어 사이에 위치하는 적어도 하나의 어휘 중 상기 주어와 목적어간의 관계를 나타내는 서술어 또는 상기 문장 내 레이블, 식별자 또는 속성을 나타내는 어휘 중 적어도 하나를 프로퍼티로 생성하고, 상기 패턴과 프로퍼티간에 의미 유사도를 측정하며, 상기 패턴과 프로퍼티간 의미 유사도 측정결과에 기초하여 오류 패턴을 결정하고, 결정한 오류 패턴을 제거하는 것을 특징으로 하는 트리플 데이터의 생성 시스템
|
21 |
21
제19항에 있어서,상기 트리플 생성부는상기 주어와 목적어간 의존 관계 정보에 기초하여 생성된 의존 관계 트리 구조 중 추출한 서술어를 기준으로 하는 부분 트리 구조를 추출하고, 추출된 부분 트리 구조 중 주어 및 목적어에 해당하는 노드를 각각 선택하여, 선택한 노드에 각각 해당하는 주어, 목적어 및 추출한 서술어를 포함하는 신규 트리플 데이터를 생성하는 것을 특징으로 하는 트리플 데이터의 생성 시스템
|
22 |
22
제17항에 있어서,상기 패턴 생성부로부터 생성된 패턴과, 상기 트리플 생성부로부터 생성된 신규 트리플 데이터를 저장하는 저장부;를 더 포함하는 것을 특징으로 하는 트리플 데이터의 생성 시스템
|