맞춤기술찾기

이전대상기술

문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법 및 장치

  • 기술번호 : KST2022009310
  • 담당센터 : 부산기술혁신센터
  • 전화번호 : 051-606-6561
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법 및 장치가 제시된다. 일 실시예에 따른 컴퓨터 장치로 구현되는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법은, 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계; 분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계; 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계; 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계; 및 정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 단계를 포함하여 이루어질 수 있다.
Int. CL G16B 50/50 (2019.01.01) G16B 30/10 (2019.01.01) G16B 30/20 (2019.01.01) G16B 40/20 (2019.01.01) H03M 7/30 (2006.01.01)
CPC G16B 50/50(2013.01) G16B 30/10(2013.01) G16B 30/20(2013.01) G16B 40/20(2013.01) H03M 7/6023(2013.01) H03M 7/70(2013.01)
출원번호/일자 1020200179632 (2020.12.21)
출원인 부산대학교 산학협력단
등록번호/일자
공개번호/일자 10-2022-0089211 (2022.06.28) 문서열기
공고번호/일자
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 공개
심사진행상태 수리
심판사항
구분 국내출원/신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2020.12.21)
심사청구항수 20

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 부산대학교 산학협력단 대한민국 부산광역시 금정구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 송길태 부산광역시 금정구
2 이도현 부산광역시 금정구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 양성보 대한민국 서울특별시 강남구 선릉로***길 ** (논현동) 삼성빌딩 *층(피앤티특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
최종권리자 정보가 없습니다
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2020.12.21 수리 (Accepted) 1-1-2020-1387968-97
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
컴퓨터 장치로 구현되는 문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 방법에 있어서, 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계; 분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계; 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계; 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계; 및 정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 단계를 포함하는, FASTQ 데이터 압축 방법
2 2
제1항에 있어서, 상기 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 단계는, 상기 식별자를 식별자의 고유번호와 식별자의 기타정보로 다시 분리하는 단계를 포함하고, 상기 압축된 유전체 서열 데이터의 생성을 위해 상기 압축 프로그램을 통해 압축 시, 상기 식별자의 기타정보를 상기 식별자의 정보로 사용하는 것을 특징으로 하는, FASTQ 데이터 압축 방법
3 3
제1항에 있어서, 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 단계는, 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 분포를 각각 측정하여, 측정된 상기 글자 분포가 임계 값보다 낮은 경우 제외시키는 단계를 포함하는, FASTQ 데이터 압축 방법
4 4
제1항에 있어서, 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는, 단일 염기서열 리드에 대한 문자 빈도를 측정하고 점수를 제작하는 단계; 및 상기 단일 염기서열 리드의 반복으로 이루어진 전체 염기서열 리드에 대해 점수 측정을 반복하는 단계를 포함하는, FASTQ 데이터 압축 방법
5 5
제1항에 있어서, 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는, 단일 예측품질정보에 대한 문자 빈도를 측정하고 점수를 제작하는 단계; 및 상기 단일 예측품질정보의 반복으로 이루어진 전체 예측품질정보에 대해 점수 측정을 반복하는 단계를 포함하는, FASTQ 데이터 압축 방법
6 6
제1항에 있어서, 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 단계는, 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 통해 획득한 우선순위 정보 및 제외대상 정보 중 적어도 어느 하나 이상의 정보를 이용하여 점수를 제작하고, 문자 빈도 정보인 문자 분포 값 및 상기 문자 분포 값을 반올림한 분포 값을 함께 사용하여 점수를 제작하는 것을 특징으로 하는, FASTQ 데이터 압축 방법
7 7
제4항에 있어서, 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계는, 상기 전체 염기서열 리드를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 단계를 포함하는, FASTQ 데이터 압축 방법
8 8
제5항에 있어서, 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 단계는, 상기 예측품질정보를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 단계를 포함하는, FASTQ 데이터 압축 방법
9 9
제1항에 있어서, 상기 압축된 유전체 서열 데이터를 생성하는 단계는, 순서를 기억하기 위해 정렬된 상기 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장시키고, 정렬된 상기 예측품질정보와 상기 예측품질정보의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장하는 것을 특징으로 하는, FASTQ 데이터 압축 방법
10 10
제1항에 있어서, 상기 압축된 유전체 서열 데이터를 상기 일반 압축 프로그램을 이용하여 복원하는 단계; 복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시키는 단계; 및 정렬된 상기 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터를 제작하는 단계를 더 포함하는, FASTQ 데이터 압축 방법
11 11
문자 빈도 기반 서열 재정렬을 통한 FASTQ 데이터 압축 장치에 있어서, 유전체 서열 데이터를 식별자, 염기서열 리드 및 예측품질정보의 구성요소로 분리하는 유전체 서열 데이터 분리부; 분리된 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 빈도를 각각 측정하는 문자 빈도 측정부; 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 반영하여 점수를 제작하는 점수 제작부; 상기 점수를 기반으로 기설정된 조건에 따라 상기 염기서열 리드 및 상기 예측품질정보를 정렬하는 점수 기반 정렬부; 및 정렬된 상기 염기서열 리드 및 정렬된 상기 예측품질정보를 포함하여, 상기 식별자의 정보, 염기서열 리드의 식별자 및 예측품질정보의 식별자 중 적어도 어느 하나 이상을 압축 프로그램을 통해 압축함에 따라 압축된 유전체 서열 데이터를 생성하는 유전체 서열 데이터 압축부를 포함하는, FASTQ 데이터 압축 장치
12 12
제11항에 있어서, 상기 유전체 서열 데이터 분리부는, 상기 식별자를 식별자의 고유번호와 식별자의 기타정보로 다시 분리하고, 상기 압축된 유전체 서열 데이터의 생성을 위해 상기 압축 프로그램을 통해 압축 시, 상기 식별자의 기타정보를 상기 식별자의 정보로 사용하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
13 13
제11항에 있어서, 상기 문자 빈도 측정부는, 상기 염기서열 리드 및 상기 예측품질정보의 전체 데이터에 대해 문자 분포를 각각 측정하여, 측정된 상기 글자 분포가 임계 값보다 낮은 경우 제외시키는 것을 특징으로 하는, FASTQ 데이터 압축 장치
14 14
제11항에 있어서, 상기 점수 제작부는, 단일 염기서열 리드에 대한 문자 빈도를 측정하고 점수를 제작하고, 상기 단일 염기서열 리드의 반복으로 이루어진 전체 염기서열 리드에 대해 점수 측정을 반복하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
15 15
제11항에 있어서, 상기 점수 제작부는, 단일 예측품질정보에 대한 문자 빈도를 측정하고 점수를 제작하고, 상기 단일 예측품질정보의 반복으로 이루어진 전체 예측품질정보에 대해 점수 측정을 반복하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
16 16
제11항에 있어서, 상기 점수 제작부는, 측정된 상기 염기서열 리드 및 상기 예측품질정보에 대한 상기 문자 빈도를 통해 획득한 우선순위 정보 및 제외대상 정보 중 적어도 어느 하나 이상의 정보를 이용하여 점수를 제작하고, 문자 빈도 정보인 문자 분포 값 및 상기 문자 분포 값을 반올림한 분포 값을 함께 사용하여 점수를 제작하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
17 17
제14항에 있어서, 상기 점수 기반 정렬부는, 상기 전체 염기서열 리드를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
18 18
제15항에 있어서, 상기 점수 기반 정렬부는, 상기 예측품질정보를 상기 식별자와 결합한 후, 제작한 상기 점수를 기반으로 사전식 정렬을 수행하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
19 19
제11항에 있어서, 상기 유전체 서열 데이터 압축부는, 순서를 기억하기 위해 정렬된 상기 염기서열 리드와 염기서열 리드의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장시키고, 정렬된 상기 예측품질정보와 상기 예측품질정보의 식별자를 결합한 상태로 상기 압축 프로그램을 통해 저장하는 것을 특징으로 하는, FASTQ 데이터 압축 장치
20 20
제11항에 있어서, 상기 압축된 유전체 서열 데이터를 상기 일반 압축 프로그램을 이용하여 복원한 후, 복원된 전체 염기서열 리드 및 전체 예측품질정보를 각각의 식별자를 기준으로 정렬시키며, 정렬된 상기 전체 염기서열 리드 및 전체 예측품질정보를 각각 식별자와 분리 후 결합하여 원본 유전체 서열 데이터를 제작하는 유전체 서열 데이터 복원부를 더 포함하는, FASTQ 데이터 압축 장치
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 과학기술정보통신부 부산대학교 산학협력단 Grand ICT연구센터지원사업 IoT 및 지능정보 기반 동남권 제조 IT 기술 혁신 및 인재양성
2 과학기술정보통신부 부산대학교산학협력단 인공지능융합연구센터 인공지능융합연구센터지원(부산대학교)