1 |
1
컴퓨터 장치로 구현되는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법에 있어서, 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계; 분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계; 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계; 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계; 및 정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 단계를 포함하는, FASTQ 데이터 압축 방법
|
2 |
2
제1항에 있어서, 상기 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계는, 상기 식별자를 식별자의 고유번호와 식별자의 기타정보로 다시 분리하는 단계를 포함하고, 상기 압축된 유전체 서열 데이터의 생성을 위해 상기 압축 프로그램을 통해 압축 시, 상기 식별자의 기타정보를 상기 식별자의 정보로 사용하는 것을 특징으로 하는, FASTQ 데이터 압축 방법
|
3 |
3
제1항에 있어서, 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계는, 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 분포를 각각 측정하여, 측정된 상기 글자 분포가 임계 값보다 낮은 경우 제외시키는 단계를 포함하는, FASTQ 데이터 압축 방법
|
4 |
4
제1항에 있어서, 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는, 단일 염기서열 리드에 대한 문자 빈도를 측정하고 점수를 제작하는 단계; 및 상기 단일 염기서열 리드의 반복으로 이루어진 전체 염기서열 리드에 대해 점수 측정을 반복하는 단계를 포함하는, FASTQ 데이터 압축 방법
|
5 |
5
제1항에 있어서, 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는, 단일 예측품질정보에 대한 문자 빈도를 측정하고 점수를 제작하는 단계; 및 상기 단일 예측품질정보의 반복으로 이루어진 전체 예측품질정보에 대해 점수 측정을 반복하는 단계를 포함하는, FASTQ 데이터 압축 방법
|
6 |
6
제1항에 있어서, 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는, 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 통해 획득한 우선순위 정보 및 제외대상 정보 중 적어도 어느 하나 이상의 정보를 이용하여 점수를 제작하고, 문자 빈도 정보인 문자 분포 값 및 상기 문자 분포 값을 반올림한 분포 값을 함께 사용하여 점수를 제작하는 것을 특징으로 하는, FASTQ 데이터 압축 방법
|
7 |
7
제4항에 있어서, 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계는, 상기 전체 염기서열 리드를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 단계를 포함하는, FASTQ 데이터 압축 방법
|
8 |
8
제5항에 있어서, 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계는, 상기 예측품질정보를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 단계를 포함하는, FASTQ 데이터 압축 방법
|
9 |
9
제1항에 있어서, 상기 압축된 유전체 서열 데이터를 생성하는 단계는, 순서를 기억하기 위해 정렬된 상기 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장시키고, 정렬된 상기 예측품질정보와 상기 예측품질정보의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장하는 것을 특징으로 하는, FASTQ 데이터 압축 방법
|
10 |
10
제1항에 있어서, 상기 압축된 유전체 서열 데이터를 상기 일반 압축 프로그램을 이용하여 복원하는 단계; 복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시키는 단계; 및 정렬된 상기 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터를 제작하는 단계를 더 포함하는, FASTQ 데이터 압축 방법
|
11 |
11
문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 장치에 있어서, 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 유전체 서열 데이터 분리부; 분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 문자 빈도 측정부; 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 점수 제작부; 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 점수 기반 정렬부; 및 정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 유전체 서열 데이터 압축부를 포함하는, FASTQ 데이터 압축 장치
|
12 |
12
제11항에 있어서, 상기 유전체 서열 데이터 분리부는, 상기 식별자를 식별자의 고유번호와 식별자의 기타정보로 다시 분리하고, 상기 압축된 유전체 서열 데이터의 생성을 위해 상기 압축 프로그램을 통해 압축 시, 상기 식별자의 기타정보를 상기 식별자의 정보로 사용하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
|
13 |
13
제11항에 있어서, 상기 문자 빈도 측정부는, 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 분포를 각각 측정하여, 측정된 상기 글자 분포가 임계 값보다 낮은 경우 제외시키는 것을 특징으로 하는, FASTQ 데이터 압축 장치
|
14 |
14
제11항에 있어서, 상기 점수 제작부는, 단일 염기서열 리드에 대한 문자 빈도를 측정하고 점수를 제작하고, 상기 단일 염기서열 리드의 반복으로 이루어진 전체 염기서열 리드에 대해 점수 측정을 반복하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
|
15 |
15
제11항에 있어서, 상기 점수 제작부는, 단일 예측품질정보에 대한 문자 빈도를 측정하고 점수를 제작하고, 상기 단일 예측품질정보의 반복으로 이루어진 전체 예측품질정보에 대해 점수 측정을 반복하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
|
16 |
16
제11항에 있어서, 상기 점수 제작부는, 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 통해 획득한 우선순위 정보 및 제외대상 정보 중 적어도 어느 하나 이상의 정보를 이용하여 점수를 제작하고, 문자 빈도 정보인 문자 분포 값 및 상기 문자 분포 값을 반올림한 분포 값을 함께 사용하여 점수를 제작하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
|
17 |
17
제14항에 있어서, 상기 점수 기반 정렬부는, 상기 전체 염기서열 리드를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
|
18 |
18
제15항에 있어서, 상기 점수 기반 정렬부는, 상기 예측품질정보를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
|
19 |
19
제11항에 있어서, 상기 유전체 서열 데이터 압축부는, 순서를 기억하기 위해 정렬된 상기 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장시키고, 정렬된 상기 예측품질정보와 상기 예측품질정보의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
|
20 |
20
제11항에 있어서, 상기 압축된 유전체 서열 데이터를 상기 일반 압축 프로그램을 이용하여 복원한 후, 복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시키며, 정렬된 상기 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터를 제작하는 유전체 서열 데이터 복원부를 더 포함하는, FASTQ 데이터 압축 장치
|