1 |
1
기계 학습에 기반하여 신약 후보 물질을 발굴하기 위한 신약 후보 물질의 발굴 시스템에 의해 수행되는 신약 후보 물질의 발굴 방법에 있어서,a) 복수 개의 약물 또는 세포주(Cell Line)에 대한 유전자 발현 정보, 유전자 발현 억제 정보, 각 약물의 구조 정보, 서로 다른 약물들 간의 약물 반응 유사성 정보를 포함하는 데이터베이스를 제공하는 단계; 및 b) 상기 데이터베이스에 기초하여 약물과 세포주로 구성된 입력쌍이 입력되면, 상기 입력쌍에 대해 상기 약물의 투입으로 인한 상기 세포주의 유전체 발현 반응 정보를 학습하는 유전체 반응 예측 모델을 제공하는 단계를 포함하되, 상기 유전체 반응 예측 모델은, 상기 약물의 구조 정보에 대한 약물 임베딩 벡터, 상기 세포주의 유전체 정보에 대한 세포주 임베딩 벡터를 각각 산출한 후 상기 약물 임베딩 벡터와 세포주 임베딩 벡터를 이용하여 상기 약물과 세포주에 대해 후처리된 유전체 발현 반응 정보를 학습하는 것인, 신약 후보 물질의 발굴 방법
|
2 |
2
제 1 항에 있어서,상기 세포주 임베딩 벡터는 상기 세포주의 전처리된 유전자 발현 정보와 기 학습된 유전체 반응 예측 모델을 이용해 상기 약물 반응과 연관된 벡터로 임베딩되고,상기 약물 임베딩 벡터는 상기 약물의 화학 구조의 특징을 나타내는 구조 기반 벡터와 기 학습된 유전체 반응 예측 모델을 이용해 상기 세포주의 유전체 발현 반응과 연관된 벡터로 임베딩되는, 신약 후보 물질의 발굴 방법
|
3 |
3
제 1 항에 있어서,상기 데이터베이스는, 상기 약물의 유전자 발현 정보, 상기 유전자 발현 정보로부터 예측된 차등 발현 유전자(differentially expressed gene, DEG)의 발현량을 포함한 약물 유도 전사체, 서로 다른 약물들 간의 약물 반응 유사성 정보인 CMap 점수를 포함하는 연결 지도(Connectivity Map, CMap) 데이터세트를 포함하는, 신약 후보 물질의 발굴 방법
|
4 |
4
제 1 항에 있어서,상기 유전체 반응 예측 모델은, 상기 입력쌍이 입력되면 상기 약물의 화학 구조의 특징을 나타내는 구조 기반 벡터와 상기 세포주에 대한 유전체 발현 정보, 약물 투입 정보가 입력되는 입력층;상기 약물의 구조 기반 벡터에 기초하여 약물 임베딩 벡터를 산출하는 제1 네트워크와 상기 세포주의 유전체 발현 정보에 기초하여 세포주 임베딩 벡터를 산출하는 제2 네트워크를 포함하는 임베딩층; 및 상기 약물 투입 정보, 상기 약물 임베딩 벡터, 상기 세포주 임베딩 벡터를 결합하여 상기 약물 투입 후의 유전체 발현 반응 정보를 출력하는 예측층을 포함하는 신약 후보 물질의 발굴 방법
|
5 |
5
제 4 항에 있어서,상기 약물 투입 정보는 상기 약물의 복용 정보 또는 상기 약물 투여 기간 정보를 포함하는 것인, 신약 후보 물질의 발굴 방법
|
6 |
6
제 4 항에 있어서,상기 유전체 반응 예측 모델은, 상기 약물 임베딩 벡터와 세포주 임베딩 벡터의 유사도를 계산하고, 상기 계산된 유사도를 이용해 상기 예측층에서 예측된 유전체 발현 반응 정보가 상기 입력쌍의 약물 반응 유사성 정보가 되도록 학습하는 것인, 신약 후보 물질의 발굴 방법
|
7 |
7
제 4 항에 있어서,상기 약물 임베딩 벡터(VD)는 하기 수학식 1에 의해 생성되고, 상기 세포주 임베딩 벡터(VC)는 하기 수학식 2에 의해 생성되는 것인, 신약 후보 물질의 발굴 방법
|
8 |
8
제 4 항에 있어서,상기 약물 임베딩 벡터(VD)는 SMILES(Simplified Molecular Input Line Entry System), WLN(Wiswesser line notation), InChI (International Chemical Identifier)를 포함한 화합물의 문자열 표기 방식 중 어느 하나의 방식을 이용하여 각 약물에 대한 화합물의 구조 정보를 문자열로 표기하는 것인, 신약 후보 물질의 발굴 방법
|
9 |
9
제 4 항에 있어서,상기 약물 임베딩 벡터(VD)는 그래프 신경망 (Graph Neural Networks, GNNs) 또는 접합 트리(Junction Tree) 알고리즘 중 어느 하나를 이용하여 각 약물에 대한 화합물의 구조 정보를 임베딩하는 것인, 신약 후보 물질의 발굴 방법
|
10 |
10
제 4 항에 있어서,상기 유전체 반응 예측 모델은 다차원의 다층 신경망(Multi-Layer Perceptron, MLP)으로 구성되고, 상기 입력층은 하기 수학식 3에 의한 입력 데이터를 상기 임베딩층으로 입력하고, 상기 예측층은 하기 수학식 4에 의해 예측된 유전체 발현 반응 정보를 출력 데이터()로 출력하는 것인, 신약 후보 물질의 발굴 방법
|
11 |
11
제 10 항에 있어서,상기 유전체 반응 예측 모델은 비용 함수를 하기 수학식 5에 의한 평균 제곱 오차(Mean square error, MSE)를 이용해 계산하고, 상기 비용 함수의 결과값이 최소화되도록 학습을 통해 최적의 가중치를 결정하는 것인, 신약 후보 물질의 발굴 방법
|
12 |
12
기계 학습에 기반하여 신약 후보 물질을 발굴하기 위한 신약 후보 물질의 발굴 시스템에 의해 수행되는 신약 후보 물질의 발굴 방법에 있어서,a) 복수 개의 약물 또는 세포주(Cell Line)에 대한 유전자 발현 정보, 유전자 발현 억제 정보, 각 약물의 구조 정보, 서로 다른 약물들 간의 약물 반응 유사성 정보를 포함하는 제1 데이터베이스를 제공하는 단계; b) 상기 제1 데이터베이스에 기초하여 약물과 세포주로 구성된 입력쌍이 입력되면, 유전체 반응 예측 모델을 통해 상기 입력쌍에 대한 상기 약물의 투입으로 인한 상기 세포주의 유전체 발현 반응 정보를 학습하는 단계; c) 상기 유전체 발현 정보 또는 약물 반응 정보에 대해 알려지지 않은 약물 또는 세포주에 대한 특징 정보를 수집 및 관리하는 제2 데이터베이스를 제공하는 단계;d) 상기 제2 데이터베이스에 기초한 약물 또는 세포주가 적어도 하나 이상이 포함되도록 입력쌍을 구성하고, 상기 입력쌍을 상기 유전체 반응 예측 모델에 입력하여 상기 약물의 투입으로 인한 세포주의 유전체 발현 반응 정보를 예측하는 단계; 및 e) 상기 예측된 유전체 발현 반응 정보가 사용자에 의해 설정된 유전체 발현 패턴에 해당되는 경우, 상기 제2 데이터베이스에 기초한 약물 또는 세포주를 상기 사용자가 원하는 약물 활동을 유도하기 위한 후보 물질로 선정하는 단계를 포함하되, 상기 유전체 반응 예측 모델은, 상기 약물의 구조 정보에 대한 약물 임베딩 벡터, 상기 세포주의 유전체 정보에 대한 세포주 임베딩 벡터를 각각 산출한 후 상기 약물 임베딩 벡터와 세포주 임베딩 벡터를 이용하여 상기 약물과 세포주에 대해 후처리된 유전체 발현 반응 정보를 학습 및 예측하는 것인, 신약 후보 물질의 발굴 방법
|
13 |
13
제 12 항에 있어서,상기 유전체 반응 예측 모델은, 상기 입력쌍이 입력되면 상기 약물의 화학 구조의 특징을 나타내는 구조 기반 벡터와 상기 세포주에 대한 유전체 발현 정보, 약물 투입 정보가 입력되는 입력층;상기 약물의 구조 기반 벡터에 기초하여 약물 임베딩 벡터를 산출하는 제1 네트워크와 상기 세포주의 유전체 발현 정보에 기초하여 세포주 임베딩 벡터를 산출하는 제2 네트워크를 포함하는 임베딩층; 및 상기 약물 투입 정보, 상기 약물 임베딩 벡터, 상기 세포주 임베딩 벡터를 결합하여 상기 약물 투입 후의 유전체 발현 반응 정보를 출력하는 예측층을 포함하는 신약 후보 물질의 발굴 방법
|
14 |
14
제 13 항에 있어서,상기 약물 투입 정보는 상기 약물의 복용 정보 또는 상기 약물 투여 기간 정보를 포함하는 것인, 신약 후보 물질의 발굴 방법
|
15 |
15
제 13 항에 있어서,상기 약물 임베딩 벡터(VD)는 하기 수학식 1에 의해 생성되고, 상기 세포주 임베딩 벡터(VC)는 하기 수학식 2에 의해 생성되는 것인, 신약 후보 물질의 발굴 방법
|
16 |
16
제 13 항에 있어서,상기 유전체 반응 예측 모델은 다차원의 다층 신경망(Multi-Layer Perceptron, MLP)으로 구성되고, 상기 입력층은 하기 수학식 3에 의한 입력 데이터를 상기 임베딩층으로 입력하고, 상기 예측층은 하기 수학식 4에 의해 예측된 유전체 발현 반응 정보를 출력 데이터()로 출력하는 것인, 신약 후보 물질의 발굴 방법
|
17 |
17
제 12 항에 있어서,상기 d) 단계는, 단일 타겟인 경우, 상기 단일 타겟에 해당하는 세포주와 적어도 하나 이상의 대상 약물로 구성된 복수의 입력쌍에 대한 유전체 발현 반응 정보를 예측하고,상기 e) 단계는,상기 예측된 복수의 입력쌍에 대한 유전체 발현 반응 정보 중에서 기설정된 유전체 발현 패턴에 해당되는 입력쌍의 유전체 발현 반응 정보를 선택한 후 상기 선택된 입력쌍의 대상 약물을 단일 타겟의 맞춤형 약물로 선정하는 것인, 신약 후보 물질의 발굴 방법
|
18 |
18
제 12 항에 있어서,상기 d) 단계는, 유전자 발현의 억제가 필요한 복수의 타겟과 유전자 발현의 비억제가 필요한 복수의 비타겟을 설정하고, 상기 설정된 타겟 또는 비타겟에 해당하는 세포주와 적어도 하나 이상의 대상 약물로 구성된 복수의 입력쌍에 대한 유전체 발현 반응 정보를 예측하고,상기 e) 단계는,상기 예측된 복수의 입력쌍에 대한 유전체 발현 반응 정보 중에서 상기 설정된 타겟에 대한 유전체 발현 억제 정보와 상기 설정된 비타겟에 대한 유전체 발현 반응 정보를 모두 만족하는 적어도 하나 이상의 대상 약물을 선정하여 후보 약물그룹을 선정하는 것인, 신약 후보 물질의 발굴 방법
|
19 |
19
제 12 항에 있어서,상기 제1 데이터베이스에 기초한 약물과 세포주로 입력쌍을 구성한 경우, 해당 입력쌍은 이전의 약물 투입에 의한 이전의 세포주의 유전체 발현 반응 정보를 학습하기 위한 입력 데이터에 해당되고,상기 제1 데이터베이스에 기초한 세포주와 제2 데이터베이스에 기초한 약물로 입력쌍을 구성한 경우, 해당 입력쌍은 새로운 약물 투입으로 인한 이전의 세포주의 유전체 발현 반응 정보를 확인하기 위한 입력 데이터에 해당되고,상기 제1 데이터베이스에 기초한 약물과 제2 데이터베이스에 기초한 세포주로 입력쌍을 구성한 경우, 해당 입력쌍은 상기 이전의 약물 투입으로 인한 새로운 세포주의 유전체 발현 반응 정보를 예측하기 위한 입력 데이터에 해당되고,상기 제2 데이터베이스에 기초한 약물과 세포주로 입력쌍을 구성한 경우, 해당 입력쌍은 새로운 약물 투입으로 인한 새로운 세포주의 유전자 발현 정보를 예측하기 위한 입력 데이터에 해당되는 것인, 신약 후보 물질의 발굴 방법
|
20 |
20
기계 학습에 기반하여 신약 후보 물질을 발굴하기 위한 방법을 수행하기 위한 프로그램이 기록된 메모리; 및상기 프로그램을 실행하기 위한 프로세서를 포함하며,상기 프로세서는, 상기 프로그램의 실행에 의해,복수 개의 약물 또는 세포주(Cell Line)에 대한 유전자 발현 정보, 유전자 발현 억제 정보, 각 약물의 구조 정보, 서로 다른 약물들 간의 약물 반응 유사성 정보를 포함하는 제1 데이터베이스를 제공하고, 상기 제1 데이터베이스에 기초하여 약물과 세포주로 구성된 입력쌍이 입력되면, 상기 입력쌍에 대해 상기 약물의 투입으로 인한 상기 세포주의 유전체 발현 반응 정보를 학습하는 유전체 반응 예측 모델을 제공하되, 상기 유전체 반응 예측 모델은, 상기 약물의 구조 정보에 대한 약물 임베딩 벡터, 상기 세포주의 유전체 정보에 대한 세포주 임베딩 벡터를 각각 산출한 후 상기 약물 임베딩 벡터와 세포주 임베딩 벡터를 이용하여 상기 약물과 세포주에 대해 후처리된 유전체 발현 반응 정보를 학습하는 것인, 신약 후보 물질의 발굴 시스템
|
21 |
21
제 20 항에 있어서,상기 프로세서는, 상기 유전체 발현 정보 또는 약물 반응 정보에 대해 알려지지 않은 약물 또는 세포주에 대한 특징 정보를 수집 및 관리하는 제2 데이터베이스를 제공하고,상기 제2 데이터베이스에 기초한 약물 또는 세포주가 적어도 하나 이상이 포함되도록 입력쌍을 구성하고, 상기 입력쌍을 상기 유전체 반응 예측 모델에 입력하여 상기 약물의 투입으로 인한 세포주의 유전체 발현 반응 정보를 예측하고, 상기 예측된 유전체 발현 반응 정보가 사용자에 의해 설정된 유전체 발현 패턴에 해당되는 경우, 상기 제2 데이터베이스에 기초한 약물 또는 세포주를 상기 사용자가 원하는 약물 활동을 유도하기 위한 후보 물질로 선정하는 것인, 신약 후보 물질의 발굴 시스템
|
22 |
22
제 21 항에 있어서,상기 유전체 반응 예측 모델은, 상기 입력쌍 또는 후보 입력쌍이 입력되면 상기 약물의 화학 구조의 특징을 나타내는 구조 기반 벡터와 상기 세포주에 대한 유전체 발현 정보, 약물 투입 정보가 입력되는 입력층;상기 약물의 구조 기반 벡터에 기초하여 약물 임베딩 벡터를 산출하는 제1 네트워크와 상기 세포주의 유전체 발현 정보에 기초하여 세포주 임베딩 벡터를 산출하는 제2 네트워크를 포함하는 임베딩층; 및 상기 약물 투입 정보, 상기 약물 임베딩 벡터, 상기 세포주 임베딩 벡터를 결합하여 상기 약물 투입 후의 유전체 발현 반응 정보를 출력하는 예측층을 포함하는 신약 후보 물질의 발굴 시스템
|
23 |
23
제 22 항에 있어서,상기 약물 투입 정보는 상기 약물의 복용 정보 또는 상기 약물 투여 기간 정보를 포함하는 것인, 신약 후보 물질의 발굴 시스템
|