1 |
1
1) RNA 서열에서 단백질과 결합할 가능성이 높은 RNA 염기를 예측하기 위해, RNA 및 단백질의 다양한 특징을 특징 벡터(feature vector)로 표현하는 단계;2) 상기 단계 1)의 표현된 특징 벡터로 표현한 데이터에서 특징 벡터를 기반으로 중복 데이터를 제거하여 학습 데이터를 생성하는 단계; 및3) 상기 단계 2)의 학습 데이터를 이용하여 SVM(support vector machine) 모델을 학습시키고, 학습된 SVM 모델을 이용하여 단백질과 결합하는 RNA 염기를 예측하는 단계를 포함하는, RNA 서열에서 단백질과 결합하는 염기 예측방법
|
2 |
2
제 1항에 있어서, 상기 단계 1)의 특징 벡터는 단백질 및 RNA 서열 데이터만 주어졌을 때, 결합부위 예측에 효과적인 특징을 표현하는 것을 특징으로 하는 RNA 서열에서 단백질과 결합하는 염기 예측방법
|
3 |
3
제 1항에 있어서, 상기 단계 1)의 특징 벡터(feature vector)의 구성요소로서 표현되는 단백질 및 RNA 서열의 특징은,전체 RNA 서열에 대한 정보를 표현하는 RNA 전체 특징(global features);RNA 개별 염기 또는 RNA 염기 트리플렛(nucleotide triplets)에 대한 정보를 표현하는 RNA 국소적 특징(local features); 및RNA에 결합하는 단백질의 특징을 표현하는 결합 상대방 특징(partner features)을 포함하는 것을 특징으로 하는 RNA 서열에서 단백질과 결합하는 염기 예측방법
|
4 |
4
제 3항에 있어서, RNA 전체 특징은 RNA 서열 길이 및 염기 구성이 특징 벡터 표현에 구성요소로 사용되는 것을 특징으로 하는 RNA 서열에서 단백질과 결합하는 염기 예측방법
|
5 |
5
제 3항에 있어서, 상기 RNA 국소적 특징은 염기의 분자량(molecular mass), 염기의 pKa 값, 염기 트리플렛과 20개의 아미노산의 상호작용 성향(interaction prppensity; IP)값 및 염기 트리플렛 구성이 특징 벡터 표현에 구성요소로 사용되는 것을 특징으로 하는 RNA 서열에서 단백질과 결합하는 염기 예측방법
|
6 |
6
제 3항에 있어서, 상기 결합 상대방 특징은 아미노산의 정규화된 위치(normalized) 및 단백질의 다이펩타이드 구성(dipeptide composition)이 특징 벡터 표현에 구성요소로 사용되는 것을 특징으로 하는 RNA 서열에서 단백질과 결합하는 염기 예측방법
|
7 |
7
제 1항에 있어서, 상기 단계 2)는 1) 단백질-RNA 상호 작용 쌍들에 존재하는 모든 RNA 및 단백질 서열에서 슬라이딩 윈도우(sliding window) 기법을 이용한 서열 조각을 생성하는 공정;2) 생성된 서열 조각을 상기 구성요소들을 이용하여 특정 벡터에 표현하는 공정; 및3) 표현된 특정 벡터에서 특징 벡터 기반의 중복 제거 기법을 통한 학습 데이터를 구축하는 것을 특징으로 하는 RNA 서열에서 단백질과 결합하는 염기 예측방법
|
8 |
8
제 1항에 있어서, 상기 방법은,1) 결합 상대방 단백질 서열을 지정하지 않은 경우, 상대방을 고려하지 않는 모델로 단백질 결합 RNA 염기 예측; 및2) 결합 상대방 단백질 서열이 주어지는 경우, 상대방을 고려한 모델로 단백질 결합 RNA 염기를 예측하는 것을 특징으로 하는 RNA 서열에서 단백질과 결합하는 염기 예측방법
|
9 |
9
1) 단백질과 상호작용하는 단백질 결합 RNA 염기를 결정하여 단백질-RNA 결합 부위를 결정하는 단계; 2) RNA 서열에 있는 상기 단백질 결합 RNA 염기를 예측하기 위해, RNA 및 단백질의 다양한 특징을 특징 벡터로 표현하고, 테스트 데이터를 생성하는 단계; 및3) 상기 단계 2)의 테스트 데이터를 복수의 척도를 이용하여, 학습된 예측 모델의 예측성과를 평가하는 단계를 포함하는 상호작용 단백질을 고려한 RNA 서열에서 단백질과 결합하는 RNA 염기 예측 방법
|
10 |
10
제 9항에 있어서, 상기 단계 3)의 복수의 척도는 민감도(Sensitivity, Sn), 특이도(Specificity, Sp), 정확도(Accuracy, Acc), 양성예측도(Positive predictive value, PPV), 음성예측도(Negative predictive value, NPV) 및 매튜 상관관계 계수(Matthews correlation coefficient, MCC)인 것을 특징으로 하는 상호작용 단백질을 고려한 RNA 서열에서 단백질과 결합하는 RNA 염기 예측 방법
|