1 |
1
컴퓨터에서 구현되는, RNA 서열에서 단백질 결합 영역을 예측하는 방법으로서, a) 훈련 데이터(training data)를 포함하는 학습 데이터를 추출하는 단계로서, 상기 훈련 데이터로서 단백질과 결합하는 RNA 영역을 가지는 포지티브 데이터와, 단백질과 결합하지 않는 RNA 영역인 네거티브 데이터를 추출하는 단계; b) 상기 훈련 데이터로서 추출된 RNA 서열에 대한 서열 프로파일(sequence profile) 정보를 연산하는 단계로서, 상기 서열 프로파일 정보는 상기 추출된 RNA 서열에 대한 단일염기(mono-nucleotide) 위치가중행렬(position weight matrix) 정보와, 상기 추출된 RNA 서열에 대한 올리고염기 위치가중행렬 정보를 포함하고, 상기 단일염기 위치가중행렬은 상기 추출된 RNA 서열을 구성하는 단일염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 올리고염기 위치가중행렬은 상기 추출된 RNA 서열을 구성하는 제 1 올리고염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 내지 5-염기(penta-nucleotide) 중에서 적어도 하나의 올리고염기로 이루어지는 단계; c) 상기 연산된 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보를 조합하여 상기 RNA 서열에 대한 특징 벡터(feature vector)를 구축하는 단계; 및d) 상기 구축된 특징 벡터에 기초하여 예측 대상 RNA 서열을 훈련시킴으로써, 단백질과 결합하는 RNA 결합 영역을 예측하는 단계를 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
2 |
2
제 1항에 있어서, 상기 b) 단계에서 상기 서열 프로파일 정보와 별도로 상기 추출된 RNA 서열을 구성하는 염기의 빈도수로 정의되는 서열 조성(composition) 정보가 또한 연산되고, 상기 c) 단계에서 상기 서열 조성 정보가 상기 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보와 조합되어 특징 벡터를 구축하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
3 |
3
제 2항에 있어서, 상기 b) 단계에서 상기 서열 조성 정보는, 상기 추출된 RNA 서열을 구성하는 각각의 단일염기의 빈도수와, 상기 추출된 RNA 서열을 구성하는 제 2 올리고염기 각각의 빈도수를 포함하고, 상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기 내지 5-염기 중에서 적어도 하나의 올리고염기로 이루어지는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
4 |
4
제 3항에 있어서, 상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide)로 이루어지는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
5 |
5
제 1항에 있어서, 상기 a) 단계에서 추출된 RNA 서열 중에서 중복된 RNA 서열을 제거하는 단계를 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
6 |
6
제 1항에 있어서, 상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide) 중에서 적어도 어느 하나인 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
7 |
7
제 1항에 있어서, 상기 d) 단계 이후에, e) 상기 d) 단계에서 수행된 예측 대상 RNA 서열의 예측 결과를, 평가 척도를 사용하여 평가하는 단계를 더욱 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
8 |
8
제 7항에 있어서, 상기 평가 척도는 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy), 양성예측도(Positive predictive value), 음성예측도(Negative predictive value) 및 매튜 상관계수(Matthews correlation coefficient) 중에서 선택되는 적어도 하나인 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
9 |
9
제 7항에 있어서, 상기 a) 단계에서 상기 훈련 데이터와 별도로 테스트 데이터로서 단백질과 결합하는 RNA 영역을 가지는 포지티브 데이터와, 단백질과 결합하지 않는 RNA 영역인 네거티브 데이터가 또한 추출되고, 상기 e) 단계는, 상기 테스트 데이터를 대상으로 수행되는 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
10 |
10
제 1항에 있어서, 상기 d) 단계는 서포트-벡터 머신(support vector machine) 모형을 이용하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 방법
|
11 |
11
RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체로서, 훈련 데이터(training data)를 포함하는 학습 데이터로서 RNA에서 단백질과 결합하는 영역인 포지티브 데이터와, 단백질과 결합하지 않는 영역인 네거티브 데이터를 추출하는 서열 추출 수단; 상기 훈련 데이터로서 추출된 RNA 서열에 대한 서열 프로파일(sequence profile) 정보를 연산하는 연산 수단으로서, 상기 서열 프로파일 정보는 상기 추출된 RNA 서열에 대한 단일염기(mono-nucleotide) 위치가중행렬(position weight matrix) 정보와, 상기 추출된 RNA 서열에 대한 올리고염기 위치가중행렬 정보를 포함하고, 상기 단일염기 위치가중행렬은 상기 추출된 RNA 서열을 구성하는 단일염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 올리고염기 위치가중행렬은 상기 RNA 서열을 구성하는 제 1 올리고염기 각각에 대한 로그-오즈 스코어(log-odds score)를 토대로 연산되고, 상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 내지 5-염기(penta-nucleotide) 중에서 적어도 하나의 올리고염기로 이루어지는 연산 수단; 상기 연산된 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보를 조합하여 상기 RNA 서열에 대한 특징 벡터(feature vector)를 구축하는 벡터 구축 수단; 및상기 구축된 특징 벡터에 기초하여 예측 대상 RNA 서열을 훈련시킴으로써, 단백질과 결합하는 RNA 결합 영역을 예측하는 훈련 수단으로 기능시키기 위한 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|
12 |
12
제 11항에 있어서, 상기 연산 수단은 상기 서열 프로파일 정보와 별도로 상기 추출된 RNA 서열을 구성하는 염기의 빈도수로 정의되는 서열 조성(composition) 정보를 또한 연산하고, 상기 벡터 구축 수단은 상기 서열 조성 정보를 상기 단일염기 위치가중행렬 정보 및 상기 올리고염기 위치가중행렬 정보와 조합하여 특징 벡터를 구축하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|
13 |
13
제 12항에 있어서, 상기 서열 조성 정보는, 상기 추출된 RNA 서열을 구성하는 각각의 단일염기의 빈도수와, 상기 추출된 RNA 서열을 구성하는 제 2 올리고염기 각각의 빈도수를 포함하고, 상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기 내지 5-염기 중에서 적어도 하나의 올리고염기로 구성되는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|
14 |
14
제 13항에 있어서, 상기 제 2 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide)로 이루어지는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|
15 |
15
제 11항에 있어서, 상기 서열 추출 수단은 추출된 RNA 서열 중에서 중복된 RNA 서열을 제거하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|
16 |
16
제 11항에 있어서, 상기 제 1 올리고염기는 상기 추출된 RNA 서열에서 중첩적으로 배열되는 2-염기(di-nucleotide) 및 3-염기(tri-nucleotide) 중에서 적어도 어느 하나인 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|
17 |
17
제 11항에 있어서, 상기 프로그램은 상기 훈련 수단에서의 단백질과 결합하는 RNA 서열과 단백질과 결합하지 않는 RNA 서열의 예측 결과를, 평가 척도를 사용하여 평가하는 평가 수단을 더욱 포함하는 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|
18 |
18
제 17항에 있어서, 상기 척도는 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy), 양성예측도(Positive predictive value), 음성예측도(Negative predictive value) 및 매튜 상관계수(Matthews correlation coefficient) 중에서 선택되는 적어도 하나인 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|
19 |
19
제 17항에 있어서, 상기 서열 추출 수단은 상기 훈련 데이터와 별도로 테스트 데이터로서 단백질과 결합하는 RNA 영역을 가지는 포지티브 데이터와, 단백질과 결합하지 않는 RNA 영역인 네거티브 데이터를 또한 추출하고, 상기 평가 수단은 상기 테스트 데이터에 대한 평가를 수행하는 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|
20 |
20
제 11항에 있어서, 상기 훈련 수단은 서포트-벡터 머신(support vector machine) 모형을 이용하는 것을 특징으로 하는 RNA 서열에서 단백질 결합 영역을 예측하는 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장 매체
|