1 |
1
(1) RNA와 수소결합으로 상호작용하는 RNA-결합 아미노산을 결정하여 단백질-RNA 결합 부위를 결정하는 단계;(2) 상기 RNA와 상호작용하는 아미노산 트리플릿의 경향성을 계산하는 단계;(3) 단백질 서열에 있는 상기 RNA-결합 아미노산을 예측하기 위해 단백질 및 RNA 서열의 복수의 특징을 특징 벡터에 코드화하는 단계; 및(4) 상기 코드화된 특징 벡터를 기반으로 데이터의 불필요한 중복을 제거한 훈련 데이터 세트를 구축하는 단계;를 포함하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
2 |
2
제 1항에 있어서,상기 (4) 단계 후,(5) 상기 단백질 서열에 있는 RNA-결합 아미노산의 예측 성과를 복수의 예측 성능 척도를 사용해 평가하는 단계를 더 포함하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
3 |
3
제 1항 또는 제 2항에 있어서,상기 (1) 단계에서,단백질과 RNA의 수소원자 (H), 수소 공여자 (D, donor), 수소 수용자 (A, acceptor), acceptor antecedent (AA)에 해당하는 원자들은 다음 기하학적 조건에 만족하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법,기하학적 조건 : 상기 수소 공여자 (D)의 중심점에서 상기 수소 수용자 (A)의 중심점 사이의 거리인 D-A 거리 003c# 3
|
4 |
4
제 1항 또는 제 2항에 있어서,상기 (2) 단계에서,상기 아미노산 트리플릿과 뉴클레오티드 사이에 존재하는 상호 작용 경향성( IPtb)은 하기의 수학식에 의해 결정되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
5 |
5
제 1항 또는 제 2항에 있어서,상기 (3) 단계에서,특징 벡터에 구성요소로서 코드화되는 단백질 및 RNA 서열의 특징은,목표 아미노산의 전체 서열 정보를 표현하는 단백질 서열의 전역적인 특징;아미노산 개개의 특징을 대표하는 아미노산의 국지적인 특징; 및상기 단백질과 상호 작용하는 RNA 서열의 특징을 포함하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
6 |
6
제 5항에 있어서,전역적인 특징으로는 해당 단백질 서열의 길이 및 각 아미노산의 빈도수가 특징 벡터 코드화에 구성요소로 사용되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
7 |
7
제 5항에 있어서,국지적 특징으로는 해당 서열에서의 목표 아미노산의 정규화된 위치 (Normalized position), 소수성 (Hydropathy), 접근 가능한 표면적 (Accessible surface area), 분자량 (molecular mass), 아미노산 곁사슬의 pKa 값, 계산된 아미노산 트리플릿의 상호 작용 경향성(IP)값이 특징 벡터 코드화에 구성요소로 사용되고,여기서, pKa 값은 약산의 해리 상수(Ka)를 나타내는 상수대수의 절대치 값인 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
8 |
8
제 5항에 있어서,상호 작용 상대방인 RNA 서열의 특징으로는 RNA 서열에서 각각의 뉴클레오티드의 정규화된 위치의 합을 코드화 구성요소로서 사용되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
9 |
9
제 6항에 있어서,상기 (4) 단계는1) 단백질-RNA 상호 작용 쌍들에 존재하는 모든 단백질 서열에서 슬라이딩 윈도우(sliding window) 기법을 이용한 서열 조각을 생성하는 공정;2) 생성된 서열 조각을 상기 구성요소들을 이용하여 특정 벡터에 코드화하는 공정; 및3) 코드화된 특정 벡터에서 특징 벡터 기반의 중복 제거 기법을 통한 훈련 데이터 세트를 구축하는 공정을 포함하는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
10 |
10
제 9항에 있어서,같은 결합 라벨을 지닌 동일한 구성 요소 수치를 갖는 특징 벡터들은 중복 데이터로서 고려되어 이러한 특징 벡터들 중 하나의 특징 벡터만이 학습 데이터에 포함되고, 각각 다른 결합 라벨을 지닌 동일한 구성 요소 수치를 갖는 특징 벡터들이 존재할 경우에는, 결합 특징 벡터 및 비결합 특징 벡터 모두가 훈련 데이터 세트에 포함되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
11 |
11
제 10항에 있어서,상기 라벨은 상기 서열 조각의 중간에 위치한 아미노산이 결합 아미노산이라면 결합 (+)으로 취급되고, 그 외의 경우는 비결합 (-)으로 취급되는 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|
12 |
12
제 2항에 있어서,상기 (5) 단계에서,상기 RNA-결합 아미노산의 예측 성과를 평가하기 위해 사용되는 복수의 예측 성능 척도는 민감도 (Sensitivity), 특이도 (Specificity), 정밀도 (Precision rate), 정확도(Accuracy), Net prediction, F-measure 및 상관 계수 (Correlation coefficient)를 포함하고,여기서, 상기 민감도(Sensitivity)는 실제 RNA-결합 아미노산이면서 RNA-결합으로 올바르게 예측된 아미노산들의 퍼센트이고, 상기 특이도(Specificity)는 실제 RNA-비결합 아미노산이면서 RNA-비결합으로 올바르게 예측된 아미노산들의 퍼센트이며, 상기 정밀도(Precision rate)는 RNA-결합 아미노산으로 예측된 RNA-결합 아미노산들 및 RNA-결합으로 예측된 RNA-비결합 아미노산들의 합에 대한 RNA-결합 아미노산으로 예측된 RNA-결합 아미노산들의 퍼센트이고, 상기 정확도(Accuracy)는 올바르게 결합 여부가 예측된 아미노산들의 퍼센트이며, Net prediction은 민감도와 특이도의 평균이고, 상기 F-measure 은 상기 민감도 및 상기 특이도를 기초로 산출된 척도이며, 상기 상관 계수는 각기 다른 방법들의 성과들을 모두 비교하는 척도인 것을 특징으로 하는 특징 벡터에 기반한 훈련 데이터의 중복 제거 방법
|