맞춤기술찾기

이전대상기술

버로우즈-휠러 변환과 FM-인덱스를 이용한 초고속 유사구간 탐색 장치 및 방법

  • 기술번호 : KST2017003944
  • 담당센터 : 부산기술혁신센터
  • 전화번호 : 051-606-6561
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 버로우즈-휠러 변환과 FM-인덱스를 이용하여 한글로된 대용량의 문서 뭉치에 대해 탐색하고자 하는 소용량의 질의문서와의 유사구간을 빠르고 자동으로 검출하기 위한 버로우즈-휠러 변환과 FM-인덱스를 이용한 초고속 유사구간 탐색 장치 및 방법을 제공하기 위한 것으로서, 사용자로부터 유사도 비교를 위한 문서를 입력받는 문서 입력부와, 입력된 문서에서 초성을 추출하고, 추출된 초성을 1바이트로 맵핑하고 압축하여 초성만으로 이루어진 스킨파일을 생성하는 전처리 모듈과, 상기 전처리 모듈에서 생성된 스킨파일을 이용하여 버로우즈-휠러 변환(burrows-wheeler transform) 및 FM-Index 자료구조를 사용하여 색인을 생성하고, 입력된 질의 문서를 분할한 후, 상기 생성한 색인을 이용하여 분할된 각 문서조각들이 본문에서 나타나는 위치를 탐색하는 본처리 모듈과, 상기 본처리 모듈에서 탐색된 각 문서조각들의 위치정보를 이용하여 분포 밀도를 계산하여 밀집된 구간을 검출하여 유사구간을 판정하는 후처리 모듈을 포함하여 구성되는데 있다.
Int. CL G06F 17/21 (2006.01) G06F 17/27 (2006.01) G06F 17/30 (2006.01)
CPC G06F 17/30619(2013.01)G06F 17/30619(2013.01)G06F 17/30619(2013.01)G06F 17/30619(2013.01)
출원번호/일자 1020130007725 (2013.01.23)
출원인 부산대학교 산학협력단
등록번호/일자 10-1448803-0000 (2014.10.01)
공개번호/일자 10-2014-0094986 (2014.07.31) 문서열기
공고번호/일자 (20141008) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2013.01.23)
심사청구항수 8

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 부산대학교 산학협력단 대한민국 부산광역시 금정구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 조환규 대한민국 부산 동래구
2 옥창석 대한민국 부산 남구
3 박선영 대한민국 부산 부산진구

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 정기택 대한민국 서울특별시 서초구 강남대로**길 **, *층 (반포동, 새로나빌딩)(스카이특허법률사무소)
2 오위환 대한민국 서울특별시 서초구 강남대로**길 **, *층 (반포동, 새로나빌딩)(스카이특허법률사무소)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 부산대학교 산학협력단 부산광역시 금정구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2013.01.23 수리 (Accepted) 1-1-2013-0068158-17
2 선행기술조사의뢰서
Request for Prior Art Search
2013.12.24 수리 (Accepted) 9-1-9999-9999999-89
3 출원인정보변경(경정)신고서
Notification of change of applicant's information
2014.01.02 수리 (Accepted) 4-1-2014-0000027-56
4 선행기술조사보고서
Report of Prior Art Search
2014.02.11 수리 (Accepted) 9-1-2014-0011900-64
5 의견제출통지서
Notification of reason for refusal
2014.04.26 발송처리완료 (Completion of Transmission) 9-5-2014-0285442-40
6 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2014.06.18 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2014-0568540-85
7 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2014.06.18 수리 (Accepted) 1-1-2014-0568461-76
8 등록결정서
Decision to grant
2014.09.12 발송처리완료 (Completion of Transmission) 9-5-2014-0621261-76
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2016.01.13 수리 (Accepted) 4-1-2016-5004891-78
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2017.01.09 수리 (Accepted) 4-1-2017-5004005-98
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2017.01.10 수리 (Accepted) 4-1-2017-5004797-18
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
사용자로부터 유사도 비교를 위한 문서를 입력받는 문서 입력부와,입력된 문서에서 초성을 추출하고, 추출된 초성을 1바이트로 맵핑하고 압축하여 초성만으로 이루어진 스킨파일을 생성하는 전처리 모듈과,상기 전처리 모듈에서 생성된 스킨파일을 이용하여 버로우즈-휠러 변환(burrows-wheeler transform) 및 FM-Index 자료구조를 사용하여 색인을 생성하고, 입력된 질의 문서를 분할한 후, 상기 생성한 색인을 이용하여 분할된 각 문서조각들이 본문에서 나타나는 위치를 탐색하는 본처리 모듈과,상기 본처리 모듈에서 탐색된 각 문서조각들의 위치정보를 이용하여 분포 밀도를 계산하여 밀집된 구간을 검출하여 유사구간을 판정하는 후처리 모듈을 포함하여 구성되고,이때, 상기 본처리 모듈은상기 전처리 모듈에서 생성된 스킨파일을 이용하여 버로우즈-휠러 변환(burrows-wheeler transform) 및 FM-index 자료구조를 사용하여 색인을 생성하는 색인 생성부와,입력된 질의 문서를 N-gram 또는 게놈 집합체(genome assembly) 기법을 이용하여 분할하는 문서 분할부와,상기 색인 생성부에서 생성된 색인을 이용하여 문서 분할부에서 분할된 각 문서조각들이 본문에서 나타나는 위치를 탐색하는 위치 탐색부를 포함하는 것을 특징으로 하는 초고속 유사구간 탐색 장치
2 2
제 1 항에 있어서, 상기 전처리 모듈은원문에서 공백문자를 제거하고 초성만을 추출하는 초성 추출부와,상기 초성 추출부에서 추출된 초성을 1바이트로 표현할 수 있는 0~255의 숫자로 맵핑하고 압축하여 초성만으로 이루어진 스킨파일을 생성하는 스킨파일 생성부를 포함하는 것을 특징으로 하는 초고속 유사구간 탐색 장치
3 3
삭제
4 4
제 1 항에 있어서,상기 게놈 집합체(genome assembly) 기법은 질의 문서의 사본을 여러 개 만들고, 각 사본을 임의의 길이로 자른 후 생성된 색인을 이용하여 본문에서 나타나는 위치를 탐색하는 것을 특징으로 하는 초고속 유사구간 탐색 장치
5 5
(A) 문서가 입력되면, 입력된 문서의 문서뭉치에서 초성을 추출하는 단계와,(B) 상기 추출된 초성을 1바이트로 맵핑하고 압축하여 스킨파일을 생성하는 단계와, (C) 상기 생성된 스킨파일을 이용하여 버로우즈-휠러 변환(burrows-wheeler transform) 및 FM-Index 자료구조를 사용하여 색인을 생성하는 단계와, (D) 입력된 질의 문서를 N-gram 또는 게놈 집합체(genome assembly) 기법을 이용하여 분할하는 단계와,(E) 상기 분할된 질의 문서를 앞서 생성한 색인을 이용하여 본문에서 검색하여 분할된 각 문서조각들이 본문에서 나타나는 위치를 탐색하는 단계와,(F) 상기 탐색된 각 문서조각들의 위치정보를 이용하여 분포 밀도를 계산하여 밀집된 구간을 검출하여 가장 많이 나타는 구간을 유사구간으로 판정하는 단계를 포함하여 이루어지고,이때, 상기 게놈 집합체 기법은찾고자 하는 질의 문서의 사본을 생성하는 단계와,상기 생성된 각 사본을 임의의 길이로 잘라 분할하는 단계를 포함하는 것을 특징으로 하는 초고속 유사구간 탐색 방법
6 6
제 5 항에 있어서,상기 1바이트로의 맵핑은 0~255의 숫자로 맵핑하는 것을 특징으로 하는 초고속 유사구간 탐색 방법
7 7
제 5 항에 있어서,상기 버로우즈-휠러 변환은 입력된 문자열에 대해 한 글자씩 쉬프트시켜 생성된 모든 문자열을 알파벳순으로 정렬하는 단계와,상기 정렬된 상태에서 가장 마지막 열을 추출하는 단계를 포함하는 것을 특징으로 하는 초고속 유사구간 탐색 방법
8 8
제 7 항에 있어서, 상기 추출되는 가장 마지막열의 길이는 원문의 길이와 동일한 것을 특징으로 하는 초고속 유사구간 탐색 방법
9 9
제 7 항에 있어서,상기 FM-Index 자료구조는 각 알파벳 별 해당 알파벳이 버로우즈-휠러 변환 문자열에서 처음 나타나는 위치 C[c]와, 특정 위치까지의 누적 출현 회수 Occ(c,k)로 이루어져 있으며, 상기 C[c]는 버로우즈-휠러 변환의 결과 문자열에서 알파벳 순서로 정렬했을 때 각 알파벳이 처음으로 나타나는 위치를 저장하고, Occ(c,k)는 버로우즈-휠러 변환의 결과 문자열에서 각 알파벳이 출현하는 횟수를 누적하는 것을 특징으로 하는 초고속 유사구간 탐색 방법
10 10
삭제
11 11
삭제
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 교육과학기술부 부산대학교 산학협력단 중견연구자지원사업(핵심연구_공동연구) 유전체 분석용 버로우-휠러 변환과 다단계 정렬을 이용한 초고속 한글 문서 탐색 시스템