기술개요
|
데이터 스트림은 다른 응용범위에서의 데이터와는 다르게 실시간에 지속적으로 방대한 양의 데이터가 생성되며, 데이터의 분포적 특성이 빠르게 변한다는 특징을 가지고 있다. 따라서 실시간에 방대하게 발생되는 스트림 데이터를 한정된 메모리 공간에 모두 저장하는 것은 불가능 하다. 이미 많은 연구에서 오랜 동안 데이터 스트림 처리기술을 연구해 Aurora, STREAM, 그리고 Telegraph CQ(Tiny DB)등과 같은 DSMS(Data Stream Management System)가 개발된바 있다. 이런 시스템들은 모두 데이터 스트림의 처리를 목적으로 만들어졌으며 효과적인 질의 처리를 위해서, 질의 계획을 최적화 하고 슬라이딩 윈도우를 유지하면서 특정 연산을 통해 연속 질의로 입력되는 데이터 스트림에 대한 질의를 처리한다. 또한 과다한 입력 데이터로 인한 시스템 부하를 방지하기 위해 데이터를 선택적으로 처리 할 수 있는 기능을 제공한다. 그 가운데 Pane 기법은 데이터 스트림의 집계 함수 처리를 위해서 제안된 기법으로서 Pane(sub-window)이라는 기법을 제안하고, Pane을 통해 슬라이딩 윈도우(Sliding Window)를 구현하여 연속적으로 집계함수가 포함된 질의를 처리하도록 하였다. 집계 함수에는 크게 합계(SUM), 평균(AVG), 최대 값(MAX), 최소 값(MIN) 함수가 있다. 이중에서도 특히 합계 함수 처리를 위해 Pane기법을 이용할 때 윈도우 범위에서 일부 투플이 벗어난 Pane을 버림으로써 집계 질의 문 처리시 큰 오류를 발생한다. 또한 평균 함수의 처리 방법은 합계 함수를 처리하는 방법과 동일한 구조로 Pane을 이용한다. Pane 기법은 합계 함수와 더불어 평균 함수의 처리에 큰 오류를 발생시킨다. 본 특허는 분산 데이터 스트림 환경에서 Pane 기법을 응용하여 집계 함수 연산을 포함하는 연속 질의의 처리를 하기 위한 방법을 제안한다. 데이터 발생 지점에서 미리 집계된 데이터를 모니터링 하여 유사한 분포의 슬라이딩 윈도우로 나누고, 윈도우를 일부 벗어난 패인에 벗어나지 않은 투플을 예측 함으로서 정확도를 향상 시키는 방법을 제안한다.
|