1 |
1
아미노산 또는 핵산 서열에 대한 미지서열이 수신되는 입력부;아미노산 또는 핵산 서열의 정보가 저장되고, 단백질의 3차원 구조가 저장되는 데이터베이스; 및상기 데이터베이스를 이용하여 상기 미지서열의 중요부위를 예측하는 제어부를 포함하되,상기 제어부는,상기 수신된 아미노산 또는 핵산 서열과 진화적으로 관련된 서열들로 생성한 다중서열정렬, 상기 수신된 아미노산 또는 핵산 서열의 단백질 구조를 이용하여 생성한 MRF(Markov Random Field) 모델 및 상기 MRF 모델을 기초로 설정한 제한조건항을 기초로 MRF 모델 파라미터를 산출하여 서로 다른 위치 사이의 진화적 연관성 및 각 잔기의 진화적 의존성을 측정하고, 상기 측정된 진화적 연관성 및 진화적 의존성을 기초로 상기 미지서열의 중요부위를 예측하고상기 제한 조건항은 상기 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 제한조건항 및 상기 산출된 MRF 모델 파라미터의 형태가 실제 단백질 구조에 근사도 분포를 나타내도록 제한하는 제한조건항 중 적어도 하나인 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치
|
2 |
2
제 1항에 있어서,상기 제어부는,상기 수신된 아미노산 또는 핵산 서열과 진화적으로 관련된 서열들을 상기 데이터베이스에서 검색하고, 상기 검색된 서열들을 정렬하여 다중서열정렬을 생성하는 다중서열정렬부;상기 수신된 아미노산 또는 핵산 서열의 단백질 구조를 상기 데이터베이스에서 검색하여 노드 및 링크로 구성된 네트워크를 포함하는 MRF 모델을 생성하며, 제한조건항을 설정하는 MRF 모델 생성부;상기 다중서열정렬, 상기 MRF 모델 및 상기 제한조건항을 기초로 MRF 모델 파라미터를 산출하는 MRF 모델 파라미터 산출부;상기 산출된 MRF 모델 파라미터를 기초로 서로 다른 위치 사이의 진화적 연관성 및 각 잔기의 진화적 의존성을 측정하는 공진화 분석부; 및상기 측정된 진화적 연관성 및 진화적 의존성을 기초로 상기 미지서열의 중요부위를 예측하는 중요부위 예측부를 포함하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치
|
3 |
3
제 2항에 있어서,상기 다중서열정렬부는,상기 정렬된 다중서열정렬을 기초로 유사한 서열의 중복성을 조절하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치
|
4 |
4
제 2항에 있어서,상기 MRF 모델 생성부는,각 아미노산 잔기를 상기 노드로 구성하고, 상호 인접한 잔기쌍을 상기 링크로 구성하는 네트워크를 포함하는 MRF 모델을 생성하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치
|
5 |
5
제 2항에 있어서,상기 MRF 모델 생성부는,상기 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 제한조건항 및 상기 산출된 MRF 모델 파라미터의 형태가 실제 단백질 구조에 근사도 분포를 나타내도록 제한하는 제한조건항 중 적어도 하나의 제한조건항을 이용하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치
|
6 |
6
제 5항에 있어서,상기 MRF 모델 생성부는,상기 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 제한조건항을 하기 수학식에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치:[수학식]여기서, 는 의 프로베니우스놈(frobenius norm)을 의미하고, 는 MRF 모델의 링크 s-t에 대한 파라미터를 의미하며, 는 잡음신호의 기대값을 나타내는 상수를 의미함
|
7 |
7
제 5항에 있어서,상기 MRF 모델 생성부는,상기 산출된 MRF 모델 파라미터의 형태가 실제 단백질 구조에 근사도 분포를 나타내도록 제한하는 제한조건항을 하기 수학식에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치:[수학식]여기서, 는 노드 s에 대한 차수를 의미하고, 는 차수에 대한 기대값을 나타내는 상수를 의미하며,는 링크 파라미터로부터 산출되는 링크의 연결성 세기를 0 ~ 1 사이의 값으로 나타내는 함수를 의미함
|
8 |
8
제 2항에 있어서,상기 MRF 모델 파라미터 산출부는,상기 다중서열정렬, 상기 MRF 모델 및 상기 제한조건항을 최적화하는 최적 파라미터를 하기 수학식에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치:[수학식]여기서, 는 각 제한조건항 및 정규화항에 대한 가중치를 의미하고, 는 다중서열정렬의 m번째 정렬된 서열의 i번째 위치에서 나타나는 아미노산 종류를 의미하며, 는 MRF 모델로부터 다중서열정렬이 관찰될 가능성을 근사하여 나타내는 로그-유사가능도(log-pseudo likelihhod)를 의미하고, , 는 파라미터의 오버피팅을 방지하기 위한 정규화항을 의미하며, , 는 제한조건항을 의미함
|
9 |
9
제 2항에 있어서,상기 공진화 분석부는,상기 MRF 모델 파라미터를 기초로 단백질 잔기쌍의 진화적 연관성 측정 및 기 설정된 잔기의 다른 잔기들에 대한 진화적 의존성을 측정하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치
|
10 |
10
제 9항에 있어서,상기 공진화 분석부는,상기 단백질 잔기쌍의 진화적 연관성 측정을 하기 수학식에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치:[수학식]여기서, 는 위치 i에서의 아미노산 k를 의미하고, 는 위치 j에서의 아미노산 l를 의미함
|
11 |
11
제 9항에 있어서,상기 공진화 분석부는,상기 기 설정된 잔기의 다른 잔기들에 대한 진화적 의존성 측정을 하기 수학식에 의해 정의하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치:[수학식]여기서, 는 목표 서열의 i번째 위치에 해당하는 MRF 노드에서 아미노산 k의 확률값을 의미하고, 는 목표서열의 i번째 위치에 해당하는 다중서열정령의 위치에서 아미노산 k가 관찰될 확률을 의미하며, 는 MRF 모델의 i번째 노드 파라미터에서 아미노산 k에 해당하는 파라미터 값을 의미하고, 는 MRF 모델의 i번째 노드 파라미터에서 아미노산 k-hat에 해당하는 파라미터 값을 의미함
|
12 |
12
제 2항에 있어서,상기 중요부위 예측부는,상기 진화적 연관성 및 상기 진화적 의존성을 기초로 단백질의 기능 및 구조 중 적어도 하나의 측면에서 중요부위를 예측하는 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측장치
|
13 |
13
아미노산 또는 핵산 서열에 대한 미지서열이 수신되는 단계;상기 수신된 아미노산 또는 핵산 서열과 진화적으로 관련된 서열들을 데이터베이스에서 검색하고, 상기 검색된 서열들을 정렬하여 다중서열정렬을 생성하는 단계;상기 수신된 아미노산 또는 핵산 서열의 단백질 구조를 상기 데이터베이스에서 검색하여 노드 및 링크로 구성된 네트워크를 포함하는 MRF 모델을 생성하며, 제한조건항을 설정하는 단계;상기 다중서열정렬, 상기 MRF 모델 및 상기 제한조건항을 기초로 MRF 모델 파라미터를 산출하는 단계;상기 산출된 MRF 모델 파라미터를 기초로 서로 다른 위치 사이의 진화적 연관성 및 각 잔기의 진화적 의존성을 측정하는 단계; 및상기 측정된 진화적 연관성 및 진화적 의존성을 기초로 상기 미지서열의 중요부위를 예측하는 단계를 포함하고상기 제한 조건항은 상기 MRF 모델의 각 링크 파라미터에 포함되는 잡음신호의 양이 일정하도록 제한하는 제한조건항 및 상기 산출된 MRF 모델 파라미터의 형태가 실제 단백질 구조에 근사도 분포를 나타내도록 제한하는 제한조건항 중 적어도 하나인 것을 특징으로 하는 확률 그래프 모델을 이용한 단백질의 중요부위 예측방법
|