1 |
1
기계 학습에 기반하여 신약 후보 물질을 발굴하는 신약 후보 물질의 발굴 시스템에 의해 수행되는 신약 후보 물질의 발굴 방법에 있어서,서로 다른 화합물간의 유전자 발현 정보에 기초한 약물 반응의 유사도 점수를 포함한 화학 유전체 데이터를 포함하는 데이터베이스에 기초하여 제1 물질과 제2 물질에 대한 입력쌍이 입력 되면, 상기 입력쌍에 대해 상기 데이터베이스 내의 유전자 발현 정보와 비교하여 제1 물질과 제2 물질간의 약물 반응의 유사도 점수를 학습하는 샴 네트워크 모델을 제공하는 단계를 포함하되, 상기 샴 네트워크 모델은, 상기 제1 물질과 제2 물질의 가중치와 임베딩 벡터를 각각 산출하고, 상기 임베딩 벡터를 사용하여 상기 제1 물질과 제2 물질에 대한 상기 유사도 점수가 산출되도록 상기 가중치를 갱신하는 것인, 신약 후보 물질의 발굴 방법
|
2 |
2
제 1 항에 있어서,상기 데이터베이스는, 상기 화합물의 유전자 발현 패턴, 상기 유전자 발현 패턴으로부터 예측된 차별 발현 유전자(differentially expressed gene, DEG)의 발현량을 포함한 약물유도 전사체를 포함하는 연결 지도(Connectivity Map, CMap)를 포함하고, 상기 유사도 점수는 상기 화합물들 사이의CMap 점수이며, 상기 CMap 점수는 서로 다른 두 개의 화합물이 유사한 약물 활동을 공유할수록 점수가 높아지는 것인, 신약 후보 물질의 발굴 방법
|
3 |
3
제 1 항에 있어서,상기 입력쌍은 화합물 구조의 특징을 나타내는 구조 기반 벡터로 표현되어 상기 샴 네트워크 모델의 입력데이터로 제공되는 것인, 신약 후보 물질의 발굴 방법
|
4 |
4
제 3 항에 있어서,상기 구조 기반 벡터는 SMILES(simplified molecular-input line-entry system), InChIKey, InChI(IUPAC International Chemical Identifier), 분자 그래프(molecule graph), Mol2vec, ECFP(Extended Connectivity FingerPrint) 중 어느 하나의 포맷을 사용하는 것인, 신약 후보 물질의 발굴 방법
|
5 |
5
제 1 항에 있어서,상기 샴 네트워크 모델은, 상기 가중치를 공유하는 제1 서브 네트워크와 제2 서브 네트워크로 구성되고, 상기 제1 서브 네트워크와 상기 제2 서브 네트워크는 상기 가중치를 학습 중에 동시에 갱신하는 것인, 신약 후보 물질의 발굴 방법
|
6 |
6
제 5 항에 있어서,상기 제1 물질에 대한 구조 기반의 벡터 형태로 표현되는 특징 정보가 상기 제1 서브 네트워크의 입력 데이터로 제공되고, 상기 제2 물질에 대한 구조 기반의 벡터 형태로 표현되는 특징 정보가 상기 제2 서브 네트워크의 입력 데이터로 제공되고, 상기 데이터베이스에 기초한 상기 제1 물질과 제2 물질에 대한 유사도 점수를 출력 데이터(tab)로 설정하면, 상기 제1 서브 네트워크와 제2 서브네트워크는 상기 제1 물질과 제2 물질에 대한 가중치와 임베딩 벡터(ca, cb)를 각각 산출한 후 각 임베딩 벡터의 유사도를 계산하여, 상기 계산된 임베딩 벡터의 유사도가 상기 제1 물질과 제2 물질의 약물 반응의 유사도 점수가 되도록 학습하는 것인, 신약 후보 물질의 발굴 방법
|
7 |
7
제 6 항에 있어서,상기 임베딩 벡터(ca, cb)는 상기 가중치를 포함한 공유 파라미터를 사용하여 하기 수학식 1에 의해 계산되는 것인, 신약 후보 물질의 발굴 방법
|
8 |
8
제 7 항에 있어서,상기 유사도 점수를 학습하기 위해 상기 임베딩 벡터의 유사도는 하기 수학식 2에 의한 코사인 유사도(Sab)로 산출되는 것인, 신약 후보 물질의 발굴 방법
|
9 |
9
제 8 항에 있어서,상기 샴 네트워크 모델은 상기 출력 데이터(tab)와 코사인 유사도(Sab) 를 이용한 손실 함수(J(θ))를 하기 수학식 3에 의해 계산하고, 상기 손실 함수의 결과값이 최소화되도록 학습을 통해 최적의 가중치를 결정하는 것인, 신약 후보 물질의 발굴 방법
|
10 |
10
제 7 항에 있어서,상기 유사도 점수를 학습하기 위해 상기 임베딩 벡터의 유사도는 하기 수학식 4에 의한 L1 거리(L1 Distance)()로 산출되는 것인, 신약 후보 물질의 발굴 방법
|
11 |
11
제 7 항에 있어서,상기 유사도 점수를 학습하기 위해 상기 임베딩 벡터의 유사도는 하기 수학식 5에 의한 L2 거리(L2 Distance)()로 산출되는 것인, 신약 후보 물질의 발굴 방법
|
12 |
12
제 1 항에 있어서,상기 임베딩 벡터는 약물 반응 예측, 약물 독성 예측, 약물 재배치 또는 화합물의 작용 예측을 포함한 각종 약물 관련 어플리케이션에 복합적인 벡터로 적용되는 것인, 신약 후보 물질의 발굴 방법
|
13 |
13
기계 학습에 기반하여 신약 후보 물질을 발굴하는 신약 후보 물질의 발굴 시스템에 의해 수행되는 신약 후보 물질의 발굴 방법에 있어서,a) 서로 다른 화합물간의 유전자 발현 정보에 기초한 약물 반응의 유사도 점수를 포함한 화학 유전체 데이터를 포함하는 제1 데이터베이스에 기초하여 제1 물질과 제2 물질에 대한 입력쌍이 입력 되면, 상기 제1 물질과 제2 물질에 대한 가중치와 임베딩 벡터를 각각 산출한 후 상기 임베딩 벡터를 이용하여 상기 제1 물질과 제2 물질간의 약물 반응의 유사도 점수가 산출되도록 학습하는 샴 네트워크 모델을 제공하는 단계; b) 상기 유전자 발현 반응에 대해 알려지지 않은 화합물에 대한 특징 정보를 수집 및 관리하는 제2 데이터베이스에서 선택된 제2 물질과 상기 제1 데이터베이스에서 선택된 제1 물질을 입력쌍으로 하여 상기 학습된 샴 네트워크 모델에 입력하고, 상기 학습된 샴 네트워크 모델을 통해 산출된 임베딩 벡터에 기초하여 상기 입력쌍에 대한 유사도 점수를 예측하는 단계; 및 c) 상기 예측된 유사도 점수가 기설정된 임계값 이상인 경우에 상기 제1 물질과 유사 유전자 발현 반응을 가지는 상기 제2 물질을 신약 후보 물질로 선택하는 단계를 포함하는 것인, 신약 후보 물질의 발굴 방법
|
14 |
14
제 13 항에 있어서,상기 제1 데이터베이스에 기초하여 제1 물질과 제2 물질을 선택하여 입력쌍을 구성한 경우, 해당 입력쌍은 상기 샴 네트워크 모델의 학습을 위한 학습 데이터세트가 되고,상기 제1 데이터베이스에 기초하여 제1 물질을 선택하고, 상기 제2 데이터베이스에 기초하여 제2 물질을 선택하여 입력쌍을 구성한 경우 해당 입력쌍은 신약 후보 물질 선택을 위한 유효성 검증 및 시험 데이터세트가 되고,상기 제2 데이터베이스에 기초하여 제1 물질과 제2 물질을 선택하여 입력쌍을 구성한 경우, 해당 입력쌍은 약물 반응의 유사도를 측정하기 위한 시험 데이터세트가 되는 것인, 신약 후보 물질의 발굴 방법
|
15 |
15
제 13 항에 있어서,상기 제1 데이터베이스는, 상기 화합물의 유전자 발현 패턴, 상기 유전자 발현 패턴으로부터 예측된 차별 발현 유전자(differentially expressed gene, DEG)의 발현량을 포함한 약물유도 전사체를 포함하는 연결 지도(Connectivity Map, CMap)를 포함하고, 상기 유사도 점수는 상기 화합물들 사이의CMap 점수이며, 상기 CMap 점수는 서로 다른 두 개의 화합물이 유사한 약물 활동을 공유할수록 점수가 높아지는 것인, 신약 후보 물질의 발굴 방법
|
16 |
16
제 13 항에 있어서,상기 입력쌍은 화합물 구조의 특징을 나타내는 구조 기반 벡터로 표현되어 상기 샴 네트워크 모델의 입력데이터로 제공되는 것인, 신약 후보 물질의 발굴 방법
|
17 |
17
제 16 항에 있어서,상기 구조 기반 벡터는 SMILES(simplified molecular-input line-entry system), InChIKey, InChI(IUPAC International Chemical Identifier), 분자 그래프(molecule graph), Mol2vec, ECFP(Extended Connectivity FingerPrint) 중 어느 하나의 포맷을 사용하는 것인, 신약 후보 물질의 발굴 방법
|
18 |
18
제 13항에 있어서,상기 샴 네트워크 모델은, 상기 가중치를 공유하는 제1 서브 네트워크와 제2 서브 네트워크로 구성되고, 상기 제1 서브 네트워크와 상기 제2 서브 네트워크는 상기 가중치를 학습 중에 동시에 갱신하는 것인, 신약 후보 물질의 발굴 방법
|
19 |
19
제 13 항에 있어서,상기 a) 단계는,상기 제1 물질에 대한 구조 기반의 벡터 형태로 표현되는 특징 정보가 상기 제1 서브 네트워크의 입력 데이터로 제공되고, 상기 제2 물질에 대한 구조 기반의 벡터 형태로 표현되는 특징 정보가 상기 제2 서브 네트워크의 입력 데이터로 제공되고, 상기 데이터베이스에 기초한 상기 제1 물질과 제2 물질에 대한 유사도 점수를 출력 데이터(tab)로 설정되면, 상기 제1 서브 네트워크와 제2 서브네트워크는 상기 제1 물질과 제2 물질에 대한 가중치와 임베딩 벡터(ca, cb)를 각각 산출한 후 각 임베딩 벡터의 유사도를 계산하여, 상기 계산된 임베딩 벡터의 유사도를 상기 제1 물질과 제2 물질의 약물 반응의 유사도 점수로 예측하는 것인, 신약 후보 물질의 발굴 방법
|
20 |
20
제 19 항에 있어서,상기 임베딩 벡터(ca, cb)는 상기 가중치를 포함한 공유 파라미터를 사용하여 하기 수학식 1에 의해 계산되는 것인, 신약 후보 물질의 발굴 방법
|
21 |
21
제 13 항에 있어서,상기 임베딩 벡터는 약물 반응 예측, 약물 독성 예측, 약물 재배치 또는 화합물의 작용 예측을 포함한 각종 약물 관련 어플리케이션에 복합적인 벡터로 적용되는 것인, 신약 후보 물질의 발굴 방법
|
22 |
22
기계 학습에 기반하여 신약 후보 물질을 발굴하기 위한 방법을 수행하기 위한 프로그램이 기록된 메모리; 및상기 프로그램을 실행하기 위한 프로세서를 포함하며,상기 프로세서는, 상기 프로그램의 실행에 의해,서로 다른 화합물간의 유전자 발현 정보에 기초한 약물 반응의 유사도 점수를 포함한 화학 유전체 데이터를 포함하는 제1 데이터베이스에 기초하여 제1 물질과 제2 물질에 대한 입력쌍이 입력 되면, 상기 입력쌍에 대해 상기 데이터베이스 내의 유전자 발현 정보와 비교하여 제1 물질과 제2 물질간의 약물 반응의 유사도 점수를 학습하는 샴 네트워크 모델을 제공하되, 상기 샴 네트워크 모델은, 상기 제1 물질과 제2 물질의 가중치와 임베딩 벡터를 각각 산출하고, 상기 임베딩 벡터를 사용하여 상기 제1 물질과 제2 물질에 대한 상기 유사도 점수가 산출되도록 상기 가중치를 갱신하는 것인, 신약 후보 물질의 발굴 시스템
|
23 |
23
제 22 항에 있어서,상기 프로세서는, 상기 유전자 발현 반응에 대해 알려지지 않은 화합물에 대한 특징 정보를 수집 및 관리하는 제2 데이터베이스에서 선택된 제2 물질과 상기 제1 데이터베이스에서 선택된 제1 물질을 입력쌍으로 하여 상기 학습된 샴 네트워크 모델에 입력하고, 상기 학습된 샴 네트워크 모델을 통해 산출된 임베딩 벡터에 기초하여 상기 입력쌍에 대한 약물 반응의 유사도 점수를 예측하고, 상기 예측된 유사도 점수가 기설정된 임계값 이상인 경우에 상기 제1 물질과 유사 유전자 발현 반응을 가지는 상기 제2 물질을 신약 후보 물질로 선택하는 것인, 신약 후보 물질의 발굴 시스템
|