1 |
1
m 개의 컬럼 및 복수 개의 행(row)으로 구성된 테이블 형태의 입력 데이터를 수신하는 단계-상기 m은 2 이상의 자연수임-;상기 입력 데이터를 레코드가 포함되도록 행(row) 방향으로 분할하여 복수 개의 샤드(shard)를 생성하는 단계-상기 복수 개의 샤드 각각은 상기 m개의 칼럼 각각에 대응되게 상기 샤드 생성시에 생성된m개의 컬럼 파일을 포함하고, 상기 컬럼 파일의 크기는 하둡 분산 파일 시스템(Hadoop Distributed File System) 블록의 크기를 초과하지 않도록 결정됨-;상기 복수 개의 샤드를 n 개의 노드에 분산시켜 저장하는 단계- 상기 n은 2 이상의 자연수임-를 포함하는 것을 특징으로 하는 컬럼 기반 데이터 처리 방법
|
2 |
2
제 1 항에 있어서, 상기 복수 개의 샤드를 노드에 저장하는 단계는상기 복수 개의 샤드를 각각 복제하는 단계;상기 복제된 샤드를 상기 n 개의 노드에 분산시켜 저장하는 단계를 포함하는 것을 특징으로 하는 컬럼 기반 데이터 처리 방법
|
3 |
3
삭제
|
4 |
4
제 1 항에 있어서, 상기 복수 개의 샤드(shard) 생성 단계는 상기 입력 데이터에 포함된 m 개의 컬럼 중 데이터의 크기가 가장 큰 컬럼을 베이스 컬럼으로 선택하는 단계; 및상기 베이스 컬럼을 기준으로 상기 입력 데이터를 복수 개의 샤드(shard)로 행방향으로 분할하는 단계를 포함하는 것을 특징으로 하는 컬럼 기반 데이터 처리 방법
|
5 |
5
제 4 항에 있어서, 상기 베이스 컬럼에 대한 컬럼 파일의 크기는 상기 하둡 분산 파일 시스템 블록의 크기를 초과하지 않으면서 최대값을 갖도록 설정되는 것을 특징으로 하는 컬럼 기반 데이터 처리 방법
|
6 |
6
제 1 항에 있어서, 상기 컬럼 기반 데이터 처리 방법은사용자 쿼리를 수신하는 단계; 및상기 사용자 쿼리에 근거하여 스플릿(split)의 크기를 조정하는 단계- 상기 스플릿은 하나의 쿼리를 처리하기 위한 태스크에서 처리하는 데이터를 의미함-를 더 포함하는 것을 특징으로 하는 컬럼 기반 데이터 처리 방법
|
7 |
7
제 6 항에 있어서, 상기 스플릿의 크기는 하기 수학식 1에 의해 결정되는 것을 특징으로 하는 컬럼 기반 데이터 처리 방법
|
8 |
8
제 1 항에 있어서, 상기 컬럼 파일은 청크(chunk) 단위로 나누어진 복수 개의 벡터- 상기 청크는 하둡 분산 파일 시스템에서 한 번에 읽어 들일 수 있는 데이터 크기를 의미함-;상기 컬럼 파일의 시작 레코드 식별자 및 상기 복수 개의 벡터 각각의 저장 위치에 대한 정보인 오프셋을 포함하는 인덱스; 및상기 컬럼 파일에 대한 메타 데이터를 포함하는 헤더를 포함하는 것을 특징으로 하는 컬럼 기반 데이터 처리 방법
|
9 |
9
제 1 항에 있어서, 상기 입력 데이터에 포함된 레코드는동일 노드에 저장되는 것을 특징으로 하는 컬럼 기반 데이터 처리 방법
|
10 |
10
마스터 처리 장치 및 n 개의 노드를 포함하는 컬럼 기반 데이터 처리 장치에 관한 것으로서-상기 n은 2 이상의 자연수임-,상기 마스터 처리 장치는 m 개의 컬럼 및 복수 개의 행(row)으로 구성된 테이블 형태의 입력 데이터를 수신하는 데이터 수신부- 상기 m은 2 이상의 자연수임-; 상기 입력 데이터를 레코드가 포함되도록 행(row) 방향으로 분할하여 복수 개의 샤드(shard)를 생성하는 샤드 생성부- 상기 복수 개의 샤드 각각은 상기 m개의 칼럼 각각에 대응되게 상기 샤드 생성시에 생성된m개의 컬럼 파일을 포함하고, 상기 컬럼 파일의 크기는 하둡 분산 파일 시스템(Hadoop Distributed File System) 블록의 크기를 초과하지 않도록 결정됨-; 상기 복수 개의 샤드를 상기 n 개의 노드에 분산시켜 저장하는 샤드 할당부; 및 상기 데이터 수신부, 상기 샤드 생성부, 및 상기 샤드 할당부를 제어하는 제어부를 포함하는 것을 특징으로 하는 컬럼 기반 데이터 처리 장치
|
11 |
11
제 10 항에 있어서, 상기 샤드 할당부는상기 복수 개의 샤드를 각각 복제하고, 상기 복제된 샤드를 상기 n 개의 노드에 분산시켜 저장하는 것을 특징으로 하는 컬럼 기반 데이터 처리 장치
|
12 |
12
삭제
|
13 |
13
제 10 항에 있어서, 상기 샤드 생성부는 상기 입력 데이터에 포함된 m 개의 컬럼 중 데이터의 크기가 가장 큰 컬럼을 베이스 컬럼으로 선택하고, 상기 베이스 컬럼을 기준으로 상기 입력 데이터를 복수 개의 샤드(shard)로 행방향으로 분할하는 것을 특징으로 하는 컬럼 기반 데이터 처리 장치
|
14 |
14
제 13 항에 있어서, 상기 베이스 컬럼의 컬럼 파일의 크기는 상기 하둡 분산 파일 시스템 블록의 크기를 초과하지 않으면서 최대값을 갖도록 설정되는 것을 특징으로 하는 컬럼 기반 데이터 처리 장치
|
15 |
15
제 10 항에 있어서, 상기 마스터 처리 장치는 사용자 쿼리를 수신하는 쿼리 수신부; 및 상기 사용자 쿼리에 근거하여 스플릿(split)의 크기를 조정하는 스플릿 생성부- 상기 스플릿은 하나의 쿼리를 처리하기 위한 태스크에서 처리하는 데이터를 의미함-를 더 포함하는 것을 특징으로 하는 컬럼 기반 데이터 처리 장치
|
16 |
16
제 15 항에 있어서, 상기 스플릿의 크기는 하기 수학식 1에 의해 결정되는 것을 특징으로 하는 컬럼 기반 데이터 처리 장치
|
17 |
17
제 10 항에 있어서, 상기 컬럼 파일은 청크(chunk) 단위로 나누어진 복수 개의 벡터- 상기 청크는 하둡 분산 파일 시스템에서 한 번에 읽어 들일 수 있는 데이터 크기를 의미함-;상기 컬럼 파일의 시작 레코드 식별자 및 상기 복수 개의 벡터 각각의 저장 위치에 대한 정보인 오프셋을 포함하는 인덱스; 및 상기 컬럼 파일에 대한 메타 데이터를 포함하는 헤더를 포함하는 것을 특징으로 하는 컬럼 기반 데이터 처리 장치
|
18 |
18
제 10 항에 있어서, 상기 입력 데이터에 포함된 레코드는동일 노드에 저장되는 것을 특징으로 하는 컬럼 기반 데이터 처리 장치
|