1 |
1
입력 문서를 소정 크기의 대상 문서 데이터로 분할하여 슬레이브 서버 장치에 각각 분배하는 마스터 서버 장치; 및상기 마스터 서버 장치로부터의 대상 문서 데이터에 MapReduce 함수를 적용하여 멀티 스레드 방식으로 병렬 처리한 후 통합하여 개체들을 추출하고, 각 개체들의 관계를 부여하는 복수 개의 슬레이브 서버 장치;를 포함하되, 상기 슬레이브 서버 장치는, 상기 대상 문서 데이터를 MapReduce 프레임워크에서 처리 가능한 데이터 형식으로 변환하고, 상기 변환된 문서의 내용을 문장으로 분리하며, 상기 분리된 문장들을 구문 단위로 분리하고, 각 구문들의 조합을 개체 후보로 추출한 후, 상기 추출된 개체 후보들 중에서 검증된 개체들을 추출하고, 상기 추출된 개체들 간의 관계를 정의하는 것을 특징으로 하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출 시스템
|
2 |
2
삭제
|
3 |
3
제1항에 있어서, 상기 슬레이브 서버 장치는, 입력 데이터로부터 키/값 쌍을 추출하는 맵 함수를 복수 개 실행하는 맵 함수 실행기;각 맵 함수 실행기에서 추출된 키/값 쌍에 중복 키를 제거하고 비즈니스 로직을 사용하여 원하는 최종 키/값 쌍으로 구성되는 연산 과정을 수행하는 리듀스 함수를 복수 개 실행하는 리듀스 함수 실행기를 포함하는 것을 특징으로 하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출 시스템
|
4 |
4
대상 문서 데이터를 MapReduce 프레임워크에서 처리 가능하도록 문서 ID 및 문서 내용으로 구성된 레코드로 변환하는 문서 전처리 모듈;상기 문서 전처리 모듈에서 변환된 레코드에 MapReduce 함수를 적용하여 문서 내용을 문장으로 분리하고, 문서 ID 및 문장으로 구성된 레코드를 생성하는 문장 분리 모듈;상기 문장 분리 모듈에서 생성된 레코드에 기록된 문장별로 MapReduce 함수를 적용하여 각 문장에서 구문을 분석하고, 문서ID, 문장 ID 및 구문들로 구성된 레코드를 생성하는 구문 분석 모듈;상기 구문 분석 모듈에서 생성된 레코드에 기록된 구문별로 MapReduce 함수를 적용하여 구문들의 조합을 개체 후보로 추출하고, 문서 ID, 문장 ID 및 구문 조합으로 구성된 레코드를 생성하는 개체 후보 생성 모듈;상기 개체 후보 생성 모듈에서 생성된 레코드에 기록된 개체 후보가 기 구축된 사전 또는 웹 검색 엔진을 통해 개체인지를 확인하고, 개체로 확인된 경우 문서ID, 문장 ID 및 개체로 구성된 레코드를 생성하는 개체 추출 모듈; 및상기 개체 추출 모듈에서 생성된 레코드에 기록된 개체간 관계를 확인하여, 문서ID, 개체들 및 그 개체들의 관계로 구성된 레코드를 생성하는 관계 부여 모듈;을 포함하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출을 위한 슬레이브 서버 장치
|
5 |
5
제4항에 있어서, 상기 관계 부여 모듈에서 생성된 레코드를 문서 ID별로 분리한 후, 문서 ID에 기록된 해당 경로에 사용자 정의 출력 포맷으로 출력하는 출력 파일 생성 모듈을 더 포함하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출을 위한 슬레이브 서버 장치
|
6 |
6
제4항에 있어서, 상기 문서 전처리 모듈은,상기 대상 문서 데이터에 맵 함수를 적용하여 문서 ID 및 문서 내용을 추출하고, 그 추출된 문서 ID 및 문서 내용으로 구성된 레코드를 Immediate file에 기록하는 복수 개의 맵 함수 실행기; 및각 맵 함수 실행기에서 기록한 레코드를 읽어와, 각 레코드를 문서 ID별로 하나의 파일로 병합하는 리듀스 함수 실행기를 포함하는 것을 특징으로 하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출을 위한 슬레이브 서버 장치
|
7 |
7
제4항에 있어서, 상기 문장 분리 모듈은,상기 문서 전처리 모듈에서 변환된 레코드의 문서 내용을 분석하여 문장으로 분리한 후, 문서ID 및 문장으로 구성된 레코드를 Immediate file에 기록하는 복수 개의 맵 함수 실행기; 및각 맵 함수 실행기에서 기록한 레코드를 읽어와, 각 레코드를 문서 ID 별로 하나의 파일로 병합하는 리듀스 함수 실행기를 포함하는 것을 특징으로 하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출을 위한 슬레이브 서버 장치
|
8 |
8
제4항에 있어서,상기 구문 분석 모듈은,상기 문장 분리 모듈에서 변환된 레코드의 문장을 분석하여 구문 단위로 분리하고, 한 문장에서 분석된 구문을 문서ID, 문장 ID 및 구문들로 구성된 레코드로 Immediate file에 기록하는 맵 함수 실행기; 및각 맵 함수 실행기에서 기록한 레코드를 읽어와, 각 레코드를 문서 ID별로 하나의 파일로 병합하는 리듀스 함수 실행기를 포함하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출을 위한 슬레이브 서버 장치
|
9 |
9
제8항에 있어서,상기 구문 분석 모듈은 상기 문장 분리 모듈에서 문장 분리 수행 시 계산된 문장의 개수에 따라 문장 ID의 할당 범위를 각 맵 함수 실행기마다 지정하는 것을 특징으로 하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출을 위한 슬레이브 서버 장치
|
10 |
10
제4항에 있어서, 상기 개체 후보 생성 모듈은,상기 구문 분석 모듈에서 변환된 레코드에 기록된 구문들을 이용하여 구문조합들을 생성하고, 각 구문 조합별로 문서ID, 문장 ID, 구문 조합들로 구성된 레코드를 Immediate file에 기록하는 맵 함수 실행기;각 맵 함수 실행기에서 기록한 레코드를 읽어와, 각 레코드를 문서 ID별로 하나의 파일로 병합하는 리듀스 함수 실행기를 포함하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출을 위한 슬레이브 서버 장치
|
11 |
11
제4항에 있어서, 상기 개체 추출 모듈은, 상기 개체 후보 생성 모듈에서 생성된 레코드에 기록된 구문 조합을 읽어와, 그 구문 조합들이 기 구축된 사전 또는 웹 검색 엔진에 등록된 개체인지를 검증하고, 검증된 개체인 경우 문서ID, 문장 ID 및 개체로 구성된 레코드를 Immediate file에 기록하는 맵 함수 실행기; 및각 맵 함수 실행기에서 기록한 레코드를 읽어와, 각 레코드를 문서 ID별로 하나의 파일로 병합하는 리듀스 함수 실행기를 포함하는 것을 특징으로 하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출을 위한 슬레이브 서버 장치
|
12 |
12
제4항에 있어서, 상기 관계 부여 모듈은,상기 개체 추출 모듈에서 생성된 레코드에 기록된 개체들을 이용하여 개체 조합들을 생성하고, 각 개체 조합들의 관계를 기 구축된 시소러스 또는 관계 패턴 DB로부터 확인하여 문서ID, 개체, 개체 및 관계로 구성된 레코드를 Immediate file에 기록하는 복수 개의 맵 함수 실행기;각 맵 함수 실행기에서 기록한 레코드를 읽어와, 각 레코드를 문서 ID 별로 하나의 파일로 병합하는 리듀스 함수 실행기를 포함하는 것을 특징으로 하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출을 위한 슬레이브 서버 장치
|
13 |
13
(a) 마스터 서버 장치가 입력 문서를 소정 크기의 대상 문서 데이터로 분할하여 슬레이브 서버 장치에 각각 분배하는 단계; 및(b) 각 슬레이브 서버 장치가 상기 마스터 서버 장치로부터의 문서 데이터에 MapReduce 함수를 적용하여 멀티 스레드 방식으로 병렬 처리한 후 통합하여 개체들을 추출하고, 각 개체들의 관계를 부여하는 단계;를 포함하되, 상기 (b) 단계는, 상기 문서 데이터를 MapReduce 프레임워크에서 처리 가능한 데이터 형식으로 변환하는 단계;상기 변환된 문서의 내용을 문장 단위로 분리하는 단계;상기 분리된 문장들을 구문 단위로 분리하는 단계;각 구문들의 조합을 개체 후보로 추출하고, 상기 추출된 개체 후보들 중에서 검증된 개체들을 추출하는 단계; 및기 구축된 시소러스 또는 관계 패턴 DB로부터 상기 추출된 개체들간의 관계를 확인 및 부여하는 단계를 포함하는 것을 특징으로 하는 맵리듀스(MapReduce) 기반 분산 병렬 개체 추출 방법
|
14 |
14
삭제
|
15 |
15
슬레이브 서버 장치가 맵리듀스(MapReduce) 기반으로 개체를 추출하는 방법에 있어서, (a) 대상 문서 데이터를 MapReduce 프레임워크에서 처리 가능하도록 문서 ID 및 문서 내용으로 구성된 레코드로 변환하는 단계;(b) 상기 (a)단계에서 변환된 레코드에 MapReduce 함수를 적용하여 문서 내용을 문장으로 분리하고, 문서 ID 및 문장으로 구성된 레코드를 생성하는 단계;(c) 상기 (b)단계에서 생성된 레코드에 기록된 문장별로 MapReduce 함수를 적용하여 각 문장에서 구문을 분석하고, 문서ID, 문장 ID 및 구문들로 구성된 레코드를 생성하는 단계;(d) 상기 (c)단계에서 생성된 레코드에 기록된 구문별로 MapReduce 함수를 적용하여 구문들의 조합을 개체 후보로 추출하고, 문서 ID, 문장 ID 및 구문 조합으로 구성된 레코드를 생성하는 단계;(e) 상기 (d)단계에서 생성된 레코드에 기록된 개체 후보가 기 구축된 사전 또는 웹 검색 엔진을 통해 개체인지를 확인하고, 개체로 확인된 경우 문서ID, 문장 ID 및 개체로 구성된 레코드를 생성하는 단계;(f) 상기 (e)단계에서 생성된 레코드에 기록된 개체간 관계를 확인하여, 문서ID, 개체들 및 그 개체들의 관계로 구성된 레코드를 생성하는 단계; 를 포함하는 슬레이브 서버 장치의 맵리듀스(MapReduce) 기반 개체 추출 방법
|
16 |
16
제15항에 있어서, 상기 (f) 단계 이후, 상기 (f)단계에서 생성된 레코드를 문서 ID별로 분리한 후, 문서 ID에 기록된 해당 경로에 사용자 정의 출력 포맷으로 출력하는 단계를 더 포함하는 것을 특징으로 하는 슬레이브 서버 장치의 맵리듀스(MapReduce) 기반 개체 추출 방법
|
17 |
17
(a) 대상 문서 데이터를 MapReduce 프레임워크에서 처리 가능하도록 문서 ID 및 문서 내용으로 구성된 레코드로 변환하는 단계;(b) 상기 (a)단계에서 변환된 레코드에 MapReduce 함수를 적용하여 문서 내용을 문장으로 분리하고, 문서 ID 및 문장으로 구성된 레코드를 생성하는 단계;(c) 상기 (b)단계에서 생성된 레코드에 기록된 문장별로 MapReduce 함수를 적용하여 각 문장에서 구문을 분석하고, 문서ID, 문장 ID 및 구문들로 구성된 레코드를 생성하는 단계;(d) 상기 (c)단계에서 생성된 레코드에 기록된 구문별로 MapReduce 함수를 적용하여 구문들의 조합을 개체 후보로 추출하고, 문서 ID, 문장 ID 및 구문 조합으로 구성된 레코드를 생성하는 단계;(e) 상기 (d)단계에서 생성된 레코드에 기록된 개체 후보가 기 구축된 사전 또는 웹 검색 엔진을 통해 개체인지를 확인하고, 개체로 확인된 경우 문서ID, 문장 ID 및 개체로 구성된 레코드를 생성하는 단계;(f) 상기 (e)단계에서 생성된 레코드에 기록된 개체간 관계를 확인하여, 문서ID, 개체들 및 그 개체들의 관계로 구성된 레코드를 생성하는 단계를 포함하는 슬레이브 서버 장치의 맵리듀스(MapReduce) 기반 개체 추출 방법이 프로그램으로 기록되고 전자장치에서 판독 가능한 기록매체
|