맞춤기술찾기

이전대상기술

특징 벡터에 기반한 훈련 데이터의 중복 제거 방법(FEATURE VECTOR-BASED METHOD FOR REMOVING REDUNDANCY IN A TRAINING DATASET)

  • 기술번호 : KST2014051933
  • 담당센터 : 인천기술혁신센터
  • 전화번호 : 032-420-3580
요약, Int. CL, CPC, 출원번호/일자, 출원인, 등록번호/일자, 공개번호/일자, 공고번호/일자, 국제출원번호/일자, 국제공개번호/일자, 우선권정보, 법적상태, 심사진행상태, 심판사항, 구분, 원출원번호/일자, 관련 출원번호, 기술이전 희망, 심사청구여부/일자, 심사청구항수의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 서지정보 표입니다.
요약 본 발명은 특징 벡터에 기반하여, 중복 데이터가 제거된 훈련 데이터를 생성하는 방법에 관한 것으로, 해결하고자 하는 기술적 과제는 종래의 서열 유사성을 바탕으로 한 방법보다 불필요한 중복 데이터를 포함하지 않으면서도 더욱 큰 규모의 데이터 세트를 생성할 수 있고, 특징 벡터에 단백질과 RNA 서열 모두의 특징을 포함함으로써 단백질의 특징만을 사용하는 종래의 방법보다 더욱 효과적으로 단백질 서열에 존재하는 RNA-결합 아미노산을 예측할 수 있는 특징 벡터에 기반한 훈련 데이터 생성 방법을 제공하는데 있다.이를 위해 본 발명에 따른 본 발명에 따른 특징 벡터에 기반한 훈련 데이터 생성 방법은 (1) RNA와 수소결합으로 상호작용하는 RNA-결합 아미노산을 결정하여 단백질-RNA 결합 부위를 결정하는 단계와, (2) 상기 RNA와 상호작용하는 아미노산 트리플릿의 경향성을 계산하는 단계와, (3) 단백질 서열에 있는 상기 RNA-결합 아미노산을 예측하기 위해 단백질 및 RNA 서열의 다양한 특징을 특징 벡터에 코드화하는 단계와, (4) 상기 코드화된 특징 벡터를 기반으로 데이터의 불필요한 중복을 제거한 훈련 데이터 세트를 구축하는 단계를 포함하는 것을 특징으로 한다.
Int. CL G06F 19/10 (2011.01)
CPC G06F 19/22(2013.01) G06F 19/22(2013.01)
출원번호/일자 1020110100228 (2011.09.30)
출원인 인하대학교 산학협력단
등록번호/일자 10-1278211-0000 (2013.06.18)
공개번호/일자 10-2013-0035732 (2013.04.09) 문서열기
공고번호/일자 (20130701) 문서열기
국제출원번호/일자
국제공개번호/일자
우선권정보
법적상태 소멸
심사진행상태 수리
심판사항
구분 신규
원출원번호/일자
관련 출원번호
심사청구여부/일자 Y (2011.09.30)
심사청구항수 12

출원인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 출원인 표입니다.
번호 이름 국적 주소
1 인하대학교 산학협력단 대한민국 인천광역시 미추홀구

발명자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 발명자 표입니다.
번호 이름 국적 주소
1 한경숙 대한민국 서울시 강서구
2 최성욱 대한민국 경기도 과천시 별양로 ***

대리인

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 대리인 표입니다.
번호 이름 국적 주소
1 이원희 대한민국 서울특별시 강남구 테헤란로 ***, 성지하이츠빌딩*차 ***호 (역삼동)

최종권리자

번호, 이름, 국적, 주소의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 인명정보 - 최종권리자 표입니다.
번호 이름 국적 주소
1 한경숙 서울특별시 양천구
번호, 서류명, 접수/발송일자, 처리상태, 접수/발송일자의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 행정처리 표입니다.
번호 서류명 접수/발송일자 처리상태 접수/발송번호
1 [특허출원]특허출원서
[Patent Application] Patent Application
2011.09.30 수리 (Accepted) 1-1-2011-0768817-58
2 선행기술조사의뢰서
Request for Prior Art Search
2012.09.26 수리 (Accepted) 9-1-9999-9999999-89
3 선행기술조사보고서
Report of Prior Art Search
2012.10.24 수리 (Accepted) 9-1-2012-0080002-16
4 의견제출통지서
Notification of reason for refusal
2012.11.26 발송처리완료 (Completion of Transmission) 9-5-2012-0716474-19
5 [지정기간연장]기간연장(단축, 경과구제)신청서
[Designated Period Extension] Application of Period Extension(Reduction, Progress relief)
2013.01.28 수리 (Accepted) 1-1-2013-0080501-68
6 [명세서등 보정]보정서
[Amendment to Description, etc.] Amendment
2013.01.31 보정승인간주 (Regarded as an acceptance of amendment) 1-1-2013-0095688-26
7 [거절이유 등 통지에 따른 의견]의견(답변, 소명)서
[Opinion according to the Notification of Reasons for Refusal] Written Opinion(Written Reply, Written Substantiation)
2013.01.31 수리 (Accepted) 1-1-2013-0095687-81
8 등록결정서
Decision to grant
2013.06.14 발송처리완료 (Completion of Transmission) 9-5-2013-0408795-14
9 출원인정보변경(경정)신고서
Notification of change of applicant's information
2015.07.22 수리 (Accepted) 4-1-2015-5098802-16
10 출원인정보변경(경정)신고서
Notification of change of applicant's information
2016.09.05 수리 (Accepted) 4-1-2016-5127132-49
11 출원인정보변경(경정)신고서
Notification of change of applicant's information
2018.03.02 수리 (Accepted) 4-1-2018-5036549-31
12 출원인정보변경(경정)신고서
Notification of change of applicant's information
2018.12.27 수리 (Accepted) 4-1-2018-5266647-91
번호, 청구항의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 청구항 표입니다.
번호 청구항
1 1
(1) RNA와 수소결합으로 상호작용하는 RNA-결합 아미노산을 결정하여 단백질-RNA 결합 부위를 결정하는 단계;(2) 상기 RNA와 상호작용하는 아미노산 트리플릿의 경향성을 계산하는 단계;(3) 단백질 서열에 있는 상기 RNA-결합 아미노산을 예측하기 위해 단백질 및 RNA 서열의 복수의 특징을 특징 벡터에 코드화하는 단계; 및(4) 상기 코드화된 특징 벡터를 기반으로 데이터의 불필요한 중복을 제거한 훈련 데이터 세트를 구축하는 단계;를 포함하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
2 2
제 1항에 있어서,상기 (4) 단계 후,(5) 상기 단백질 서열에 있는 RNA-결합 아미노산의 예측 성과를 복수의 예측 성능 척도를 사용해 평가하는 단계를 더 포함하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
3 3
제 1항 또는 제 2항에 있어서,상기 (1) 단계에서,단백질과 RNA의 수소원자 (H), 수소 공여자 (D, donor), 수소 수용자 (A, acceptor), acceptor antecedent (AA)에 해당하는 원자들은 다음 기하학적 조건에 만족하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법,기하학적 조건 : 상기 수소 공여자 (D)의 중심점에서 상기 수소 수용자 (A)의 중심점 사이의 거리인 D-A 거리 003c# 3
4 4
제 1항 또는 제 2항에 있어서,상기 (2) 단계에서,상기 아미노산 트리플릿과 뉴클레오티드 사이에 존재하는 상호 작용 경향성( IPtb)은 하기의 수학식에 의해 결정되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
5 5
제 1항 또는 제 2항에 있어서,상기 (3) 단계에서,특징 벡터에 구성요소로서 코드화되는 단백질 및 RNA 서열의 특징은,목표 아미노산의 전체 서열 정보를 표현하는 단백질 서열의 전역적인 특징;아미노산 개개의 특징을 대표하는 아미노산의 국지적인 특징; 및상기 단백질과 상호 작용하는 RNA 서열의 특징을 포함하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
6 6
제 5항에 있어서,전역적인 특징으로는 해당 단백질 서열의 길이 및 각 아미노산의 빈도수가 특징 벡터 코드화에 구성요소로 사용되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
7 7
제 5항에 있어서,국지적 특징으로는 해당 서열에서의 목표 아미노산의 정규화된 위치 (Normalized position), 소수성 (Hydropathy), 접근 가능한 표면적 (Accessible surface area), 분자량 (molecular mass), 아미노산 곁사슬의 pKa 값, 계산된 아미노산 트리플릿의 상호 작용 경향성(IP)값이 특징 벡터 코드화에 구성요소로 사용되고,여기서, pKa 값은 약산의 해리 상수(Ka)를 나타내는 상수대수의 절대치 값인 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
8 8
제 5항에 있어서,상호 작용 상대방인 RNA 서열의 특징으로는 RNA 서열에서 각각의 뉴클레오티드의 정규화된 위치의 합을 코드화 구성요소로서 사용되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
9 9
제 6항에 있어서,상기 (4) 단계는1) 단백질-RNA 상호 작용 쌍들에 존재하는 모든 단백질 서열에서 슬라이딩 윈도우(sliding window) 기법을 이용한 서열 조각을 생성하는 공정;2) 생성된 서열 조각을 상기 구성요소들을 이용하여 특정 벡터에 코드화하는 공정; 및3) 코드화된 특정 벡터에서 특징 벡터 기반의 중복 제거 기법을 통한 훈련 데이터 세트를 구축하는 공정을 포함하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
10 10
제 9항에 있어서,같은 결합 라벨을 지닌 동일한 구성 요소 수치를 갖는 특징 벡터들은 중복 데이터로서 고려되어 이러한 특징 벡터들 중 하나의 특징 벡터만이 학습 데이터에 포함되고, 각각 다른 결합 라벨을 지닌 동일한 구성 요소 수치를 갖는 특징 벡터들이 존재할 경우에는, 결합 특징 벡터 및 비결합 특징 벡터 모두가 훈련 데이터 세트에 포함되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
11 11
제 10항에 있어서,상기 라벨은 상기 서열 조각의 중간에 위치한 아미노산이 결합 아미노산이라면 결합 (+)으로 취급되고, 그 외의 경우는 비결합 (-)으로 취급되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
12 12
제 2항에 있어서,상기 (5) 단계에서,상기 RNA-결합 아미노산의 예측 성과를 평가하기 위해 사용되는 복수의 예측 성능 척도는 민감도 (Sensitivity), 특이도 (Specificity), 정밀도 (Precision rate), 정확도(Accuracy), Net prediction, F-measure 및 상관 계수 (Correlation coefficient)를 포함하고,여기서, 상기 민감도(Sensitivity)는 실제 RNA-결합 아미노산이면서 RNA-결합으로 올바르게 예측된 아미노산들의 퍼센트이고, 상기 특이도(Specificity)는 실제 RNA-비결합 아미노산이면서 RNA-비결합으로 올바르게 예측된 아미노산들의 퍼센트이며, 상기 정밀도(Precision rate)는 RNA-결합 아미노산으로 예측된 RNA-결합 아미노산들 및 RNA-결합으로 예측된 RNA-비결합 아미노산들의 합에 대한 RNA-결합 아미노산으로 예측된 RNA-결합 아미노산들의 퍼센트이고, 상기 정확도(Accuracy)는 올바르게 결합 여부가 예측된 아미노산들의 퍼센트이며, Net prediction은 민감도와 특이도의 평균이고, 상기 F-measure 은 상기 민감도 및 상기 특이도를 기초로 산출된 척도이며, 상기 상관 계수는 각기 다른 방법들의 성과들을 모두 비교하는 척도인 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
지정국 정보가 없습니다
패밀리정보가 없습니다
순번, 연구부처, 주관기관, 연구사업, 연구과제의 정보를 제공하는 이전대상기술 뷰 페이지 상세정보 > 국가R&D 연구정보 정보 표입니다.
순번 연구부처 주관기관 연구사업 연구과제
1 교육과학기술부 인하대학교 산학협력단 중견연구자지원사업 상호작용하는 RNA와 단백질에서의 결합부위의 예측