1 |
1
1) DNA 서열에서 단백질과 결합할 가능성이 높은 염기를 예측하기 위해, DNA 및 단백질의 다양한 특징을 특징 벡터(feature vector)로 표현하는 단계;2) 상기 단계 1)의 표현된 특징 벡터로 표현한 데이터에서 특징 벡터를 기반으로 중복 데이터를 제거하여 학습 데이터를 생성하는 단계; 및3) 상기 단계 2)의 학습 데이터를 이용하여 SVM(support vector machine) 모델을 학습시키고, 학습된 SVM 모델을 이용하여 단백질과 결합하는 DNA 염기를 예측하는 단계를 포함하는, DNA 서열에서 단백질과 결합하는 염기 예측방법
|
2 |
2
제 1항에 있어서, 상기 단계 1)의 특징 벡터는 단백질 및 DNA 서열 데이터만 주어졌을 때, 결합부위 예측에 효과적인 특징을 표현하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법
|
3 |
3
제 1항에 있어서, 상기 단계 1)의 특징 벡터의 구성요소로서 표현되는 단백질 및 DNA 서열의 특징은,전체 DNA 서열에 대한 정보를 표현하는 DNA 전체적 특징(global features);DNA 개별 염기 또는 DNA 염기 트리플렛(nucleotide triplets)에 대한 정보를 표현하는 DNA 국소적 특징(local features); 및DNA에 결합하는 단백질의 특징을 표현하는 결합 상대방 특징(partner features)을 포함하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법
|
4 |
4
제 3항에 있어서, DNA 전체적 특징은 서열 길이 및 서열 구성요소(composition)를 포함하는 전체 DNA 서열 정보(information)를 특징 벡터 표현에 구성요소로 사용하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법
|
5 |
5
제 3항에 있어서, 상기 DNA 국소적 특징은 염기 분자량(molecular mass, M), 염기 pKa(P), 및 염기 트리플렛의 결합성향(IP)을 특징 벡터 표현에 구성요소로 사용하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법
|
6 |
6
제 5항에 있어서, 상기 염기 트리플렛의 결합성향(interaction propensity, IP)은 하기 수학식 1로 계산되는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법:[수학식 1]
|
7 |
7
제 3항에 있어서, 상기 결합 상대방 특징 Pb는 하기 수학식 2 및 3으로 계산되는 DNA와 결합하는 단백질 서열의 정보를 포함하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법:[수학식 2], 및[수학식 3](상기 식에서, i는 단백질 서열에서 아미노산의 위치번호, b는 20개 아미노산 중 하나, bi는 단백질의 i번째 아미노산 b를 나타낸다
|
8 |
8
제 1항에 있어서, 상기 단계 2)는,1) 단백질-DNA 상호작용 쌍들에 존재하는 모든 DNA 및 단백질 서열에서 슬라이딩 윈도우(silding window) 기법을 이용한 서열 조각을 생성하는 공정;2) 생성된 서열 조각을 DNA 서열의 전체적 특징, DNA 염기의 국소적 특징 및 결합 상대방의 특징을 이용하여 특징 벡터에 표현하는 공정; 및3) 표현된 특징 벡터에서 특징 벡터 기반의 중복 제거 기법을 통한 학습 데이터를 구축하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측 방법
|
9 |
9
제 1항에 있어서, 상기 방법은,1) DNA의 결합 상대방인 단백질 서열을 지정하지 않은 경우, 상대방을 고려하지 않은 모델로 단백질 결합 DNA 염기 예측; 및2) DNA의 결합 상대방인 단백질 서열이 주어지는 경우, 상대방을 고려한 모델로 단백질 결합 DNA 염기를 예측하는 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 염기 예측방법
|
10 |
10
1) 단백질과 상호작용하는 단백질 결합 DNA 염기를 결정하여 단백질-DNA 결합 부위를 결정하는 단계;2) DNA 서열에서 상기 단백질 결합 DNA 염기를 예측하기 위해, DNA 및 단백질의 다양한 특징을 특징 벡터로 표현하고, 테스트 데이터를 구축하는 단계;3) 상기 단계 2)의 테스트 데이터를 복수의 척도로 사용하여 예측성과를 평가하는 단계를 포함하는 상호작용 단백질을 고려한 DNA 서열에서 단백질과 결합하는 DNA 염기 예측 평가 방법
|
11 |
11
제 10항에 있어서, 상기 단계 3)의 복수의 척도는 민감도(sensitivity, Sn), 특이도(specificity, Sp), 정확도(accuracy, Acc), 양성예측도(positive predictive value, PPV), 음성예측도(negative predictive value, NPV), F-측정(F-measure) 및 매튜 상관관계 계수(matthews correlation coefficient, MCC)인 것을 특징으로 하는 DNA 서열에서 단백질과 결합하는 DNA 염기 예측 평가 방법
|