1 |
1
입력 데이터를 맵(Map) 함수에 의하여 처리가능한 소정크기의 데이터로 분할하는 단계;
상기 소정크기의 데이터를 각각 하나 이상의 맵(Map) 태스크에 입력하고, 상기 맵 함수를 적용하여 하나 이상의 키/값 쌍을 각각 추출하는 단계;
각각 추출된 상기 하나 이상의 키/값 쌍에 리듀스(Reduce) 태스크를 적용하여 태스크 수준에서 중복 키를 제거한 하나 이상의 제1 중간 결과를 생성하는 단계; 및
상기 소정크기의 데이터에 대한 상기 각 맵 태스크의 상기 맵 함수 처리가 완료되면, 상기 하나 이상의 제1 중간 결과에 대한 중복 키를 제거하여 하나의 노드에서는 중복 키가 포함되지 않는 하나 이상의 제2 중간 결과를 생성하는 단계
를 포함하는 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 방법
|
2 |
2
제1항에 있어서, 상기 분할하는 단계는,
상기 소정크기의 데이터를 메모리에 적재하는 단계
를 포함하는 것인 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 방법
|
3 |
3
제1항에 있어서, 상기 각각 추출하는 단계는,
상기 추출된 키/값 쌍을 메모리 내 버퍼에 적재하는 단계; 및
상기 버퍼에 일정량의 데이터가 쌓이면 상기 추출된 키/값 쌍을 정렬하는 단계
를 포함하는 것인 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 방법
|
4 |
4
제1항에 있어서, 상기 제1 중간 결과를 생성하는 단계는,
상기 키/값 쌍을 상기 각 리듀스 태스크를 위한 부분 파일로 분할하는 단계; 및
분할된 상기 부분 파일의 중복 키를 제거하며 결합하여 상기 제1 중간 결과를 생성하는 단계
를 포함하는 것인 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 방법
|
5 |
5
제1항에 있어서, 상기 하나 이상의 제2 중간 결과를 생성하는 단계에서는,
상기 각 맵 태스크로부터 맵 태스크 수행 완료 정보를 통보받아 상기 입력 데이터로부터 분할된 상기 소정크기의 데이터에 대한 제1 중간 결과의 생성이 완료됨이 판단되는 것인 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 방법
|
6 |
6
맵(Map) 태스크를 할당받으면 맵 태스크 수행기를 생성하여 분할 입력 데이터에 대해 분산 병렬 처리를 통해 키/값 쌍을 추출하고, 중간 결과 파일을 생성하는 다수 개의 맵 수행 태스크 관리기;
상기 각 맵 수행 태스크 관리기가 생성한 중간 결과 파일에 리듀스(Reduce) 함수를 적용하여 중복 키를 제거한 후 정렬하여 중간 결과를 생성하는 하나 이상의 태스크 수준 결합기;
할당된 전체 맵 태스크가 완료되면 상기 생성된 중간 결과들을 통합하고, 중복 키를 제거한 후 정렬하여 최종 중간 결과 파일을 생성하는 노드 수준 결합기; 및
리듀스(Reduce) 태스크 수행기를 생성하여 리듀스 태스크를 수행하여 원하는 최종 키/값 쌍으로 구성되는 최종 결과를 생성하는 리듀스 수행 태스크 관리기를 포함하되,
상기 최종 중간 파일의 중복 키 제거로 리듀스 태스크의 처리 부하가 적으며,
상기 노드 수준 결합기는, 상기 맵 수행 태스크 관리기의 맵 태스크가 완료되어 중간 결과가 생성되었으나 상기 리듀스 태스크 수행기로 전달되지 않은 맵 태스크 중간 결과를 "결합 예정 중간 결과 목록"에 삽입하여 관리하는 것인 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 장치
|
7 |
7
제6항에 있어서,
상기 맵 태스크의 수행을 위해 상기 분할 입력 데이터를 기설정된 크기로 분할하여 적재하는 메모리
를 더 포함하는 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 장치
|
8 |
8
제6항에 있어서,
상기 맵 수행 태스크 관리기, 상기 하나 이상의 태스크 수준 결합기 및 상기 노드 수준 결합기에서 수행되는 전체 작업과정의 제어 및 관리를 수행하는 작업 관리기
를 더 포함하는 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 장치
|
9 |
9
제6항에 있어서, 상기 맵 태스크 수행기는,
상기 맵 태스크의 수행이 완료되면, 상기 맵 수행 태스크 관리기에 003c#맵 태스크 식별자, 중간 결과 파일 경로003e#를 포함하는 맵 태스크 완료 정보를 통보하는 것
을 특징으로 하는 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 장치
|
10 |
10
삭제
|
11 |
11
삭제
|
12 |
12
제9항에 있어서, 상기 리듀스 태스크 수행기는,
상기 맵 태스크 수행기가 전달한 상기 맵 태스크 완료 정보로부터 "전송 예정 중간 결과 목록"을 생성하여 관리하는 것인 분산 병렬 처리 시스템의 다중 맵 태스크 중간 결과 정렬 및 결합 장치
|