1 |
1
컴퓨터 시스템에서 구현되는 유기화합물의 생물농축인자를 예측하는 QSPR 방법에 있어서,생물농축인자를 가지는 다수의 화합물 중에서 생물농축인자 실험 데이터를 얻을 수 있는 유기화합물을 수집하는 단계; 및상기 수집된 유기화합물로부터 화합물의 물리화학적 특성을 표현하는 공통 인자를 선별한 후, 상기 선별된 공통 인자를 이용하여 생물농축인자를 예측할 수 있는 생물농축인자 예측 모델을 수립하는 단계를 포함하되,상기 생물농축인자 예측 모델을 수립하는 단계는,상기 수집된 유기화합물, 상기 수집된 상온에서 유기화합물의 생물농축인자 실험 데이터 및 유기화합물의 구조를 입력하는 화합물 입력 단계; 상기 입력된 유기화합물 구조에 대한 다수의 분자 표현자를 생성하는 분자 표현자 생성 단계; 상기 수집된 유기화합물을, 생물농축인자 예측 모델을 수립하기 위하여 사용되는 내부 검증데이터와 상기 생물농축인자 예측 모델을 검증하기 위하여 사용되는 외부 검증데이터로 임의로 분류하는 데이터 분류 단계; 상기 내부 검증데이터 내 화합물에 대한 다수의 분자 표현자 중 화합물의 물리화학적 특성을 표현하는 공통 분자 표현자를 선별하고, 기계학습법을 이용하여 예측 모델을 도출하는 개별 예측 모델 개발 단계; 상기 도출된 개별 예측 모델의 내부 검증을 통해 최적의 개별 예측 모델을 선별하는 내부 검증 단계; 및 상기 선별된 최적의 개별 예측 모델을 복수 개 조합하여 복합 예측 모델(Consensus model)을 개발하는 복합 예측 모델 개발 단계를 포함하고,상기 개별 예측 모델 개발 단계는,상기 내부 검증데이터 내 화합물에 대한 다수의 분자 표현자 중 변별력이 없는 분자 표현자, 의미가 중복되는 분자 표현자 및 생물농축인자와 상관성이 낮은 분자 표현자를 제거하는 분자 표현자 제거 단계; 상기 분자 표현자 제거 단계에 의하여 일부 분자 표현자가 제거된 상기 내부 검증데이터 내 화합물을, 3분할 교차 검증 과정(3-fold-cross-validation)을 이용하여 내부 훈련데이터와 내부 검증데이터로 분류하는 내부 데이터 분류 단계; 상기 내부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중, 전진 선택(Forward selection) 방법을 이용하여 분자 표현자를 선별하는 표현자 전진 선택 단계; 기계학습법을 이용하여 상기 선별된 분자 표현자를 포함하는 화합물의 생물농축인자 계산식 모델을 결정하는 기계학습 단계; 상기 결정된 화합물의 생물농축인자 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출한 화합물의 생물농축인자 계산치 및 상기 내부 검증데이터 내 화합물의 생물농축인자 실험치를 이용하여, 상기 계산치와 상기 실험치의 오차값을 도출하는 오차값 도출 단계; 상기 오차값을 상기 표현자 전진선택 단계에서 선별된 다른 분자 표현자를 포함하는 화합물의 생물농축인자 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출된 구 오차값과 비교하는 오차값 비교 단계; 및 상기 오차값이 상기 구 오차값 미만인 경우, 상기 오차값을 도출하는 분자 표현자 및 이를 포함하는 생물농축인자 계산식 모델을 최적 개별 예측 모델로 선별하는 모델 최적화 단계를 포함하고,상기 표현자 전진선택 단계에서,상기 기계학습법 중 다중선형회귀(MLR: Multiple Linear Regression) 방식에 의하여 결정되는 화합물의 생물농축인자 계산식 모델에 포함될 분자 표현자는,(a) 분자 내에 총 염소 원자의 개수 (No_Cl);(b) Kier-Hall 분자연결지수로 수소원자를 제외한 분자구조에서 모든 원자에 대하여 한 원자와 연결된 3개의 원자의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현한 Chi_4_cluster지수 (Chi_04_cluster); (c) 분자의 logP(옥탄올/물의 분배계수)값 (AlogP98_value);(d) 분자 내에 가장 큰 절대값을 가지는 (+) 부분전하와 (-) 부분전하의 차이 (Polarity_parameter);(e) (-)전하를 지니고 있는 모든 원자들의 반데르발스(Van der Waals) 표면적의 합 (PNSA1);(f) (-)전하를 지니고 있는 모든 원자들의 반데르발스(Van der Waals) 표면적의 합과 분자 전체의 반데르발스(Van der Waals) 표면적을 곱하여 1000으로 나눠준 값 (WNSA1);(g) 수소결합 받게 원자들의 VDW 표면적의 합을 수소결합 받게의 수로 나눈 값 (SAAA2);(h) 분자 내에 소수성 원자와 양전하를 지닌 원자 사이의 결합거리가 3인 부분의 유무 (CATS_binary_Hyd_Pos_03); 및(i) 분자 내에 소수성 원자와 음전하를 지닌 원자 사이의 결합거리가 6인 부분의 유무 (CATS_binary_Hyd_Neg_06)로 선별되고,상기 기계학습 단계에서,상기 선별된 9개의 분자 표현자를 포함하여 다중선형회귀(MLR: Multiple Linear Regression) 방식에 의하여 결정되는 화합물의 생물농축인자 계산식 모델은 logBCF = 0
|
2 |
2
삭제
|
3 |
3
삭제
|
4 |
4
삭제
|
5 |
5
삭제
|
6 |
6
컴퓨터 시스템에서 구현되는 유기화합물의 생물농축인자를 예측하는 QSPR 방법에 있어서,생물농축인자를 가지는 다수의 화합물 중에서 생물농축인자 실험 데이터를 얻을 수 있는 유기화합물을 수집하는 단계; 및상기 수집된 유기화합물로부터 화합물의 물리화학적 특성을 표현하는 공통 인자를 선별한 후, 상기 선별된 공통 인자를 이용하여 생물농축인자를 예측할 수 있는 생물농축인자 예측 모델을 수립하는 단계를 포함하되,상기 생물농축인자 예측 모델을 수립하는 단계는,상기 수집된 유기화합물, 상기 수집된 상온에서 유기화합물의 생물농축인자 실험 데이터 및 유기화합물의 구조를 입력하는 화합물 입력 단계; 상기 입력된 유기화합물 구조에 대한 다수의 분자 표현자를 생성하는 분자 표현자 생성 단계; 상기 수집된 유기화합물을, 생물농축인자 예측 모델을 수립하기 위하여 사용되는 내부 검증데이터와 상기 생물농축인자 예측 모델을 검증하기 위하여 사용되는 외부 검증데이터로 임의로 분류하는 데이터 분류 단계; 상기 내부 검증데이터 내 화합물에 대한 다수의 분자 표현자 중 화합물의 물리화학적 특성을 표현하는 공통 분자 표현자를 선별하고, 기계학습법을 이용하여 예측 모델을 도출하는 개별 예측 모델 개발 단계; 상기 도출된 개별 예측 모델의 내부 검증을 통해 최적의 개별 예측 모델을 선별하는 내부 검증 단계; 및 상기 선별된 최적의 개별 예측 모델을 복수 개 조합하여 복합 예측 모델(Consensus model)을 개발하는 복합 예측 모델 개발 단계를 포함하고,상기 개별 예측 모델 개발 단계는,상기 내부 검증데이터 내 화합물에 대한 다수의 분자 표현자 중 변별력이 없는 분자 표현자, 의미가 중복되는 분자 표현자 및 생물농축인자와 상관성이 낮은 분자 표현자를 제거하는 분자 표현자 제거 단계; 상기 분자 표현자 제거 단계에 의하여 일부 분자 표현자가 제거된 상기 내부 검증데이터 내 화합물을, 3분할 교차 검증 과정(3-fold-cross-validation)을 이용하여 내부 훈련데이터와 내부 검증데이터로 분류하는 내부 데이터 분류 단계; 상기 내부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중, 전진 선택(Forward selection) 방법을 이용하여 분자 표현자를 선별하는 표현자 전진 선택 단계; 기계학습법을 이용하여 상기 선별된 분자 표현자를 포함하는 화합물의 생물농축인자 계산식 모델을 결정하는 기계학습 단계; 상기 결정된 화합물의 생물농축인자 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출한 화합물의 생물농축인자 계산치 및 상기 내부 검증데이터 내 화합물의 생물농축인자 실험치를 이용하여, 상기 계산치와 상기 실험치의 오차값을 도출하는 오차값 도출 단계; 상기 오차값을 상기 표현자 전진선택 단계에서 선별된 다른 분자 표현자를 포함하는 화합물의 생물농축인자 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출된 구 오차값과 비교하는 오차값 비교 단계; 및 상기 오차값이 상기 구 오차값 미만인 경우, 상기 오차값을 도출하는 분자 표현자 및 이를 포함하는 생물농축인자 계산식 모델을 최적 개별 예측 모델로 선별하는 모델 최적화 단계를 포함하고,상기 표현자 전진선택 단계에서,상기 기계학습법 중 서포트벡터머신(SVM : Support Vector Machine) 방식에 의하여 결정되는 화합물의 생물농축인자 계산식 모델에 포함될 분자 표현자는,(a) 분자 내에 총 질소 원자의 수 (No_N);(b) 분자 내에 탄소와 질소 사이의 방향족고리 결합의 수 (No_CaN);(c) 분자 내에 탄소와 황 사이의 이중결합의 수 (No_CdS);(d) 분자 내에 5각 고리의 수 (No_ring_05);(e) 이중결합-단일결합-O 타입의 모든 원자들의 E-state값의 합 (E_state_SdO);(f) Kier-Hall 원자가연결지수로 수소원자를 제외한 분자구조에서 한 원자와 연결된 2개의 원자 그리고 그중 한 원자에 연결된 원자들의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현된 VChi4path_cluster지수 (VChi_04_cluster);(g) 분자의 logP(옥탄올/물의 분배계수)의 값 (AlogP98_value);(h) 분자 내에 수소결합 주게 역할을 하는 수소의 부분전하 합 (CHDH1);(i) 분자 내에 소수성 원자와 방향족 고리구조 사이의 결합거리가 5인 부분의 유무 (CATS_binary_Hyd_Aro_05);(j) 분자 내에 방향족 고리구조와 수소결합 주게 원자 사이의 결합거리가 5인 부분의 유무 (CATS_binary_Aro_Don_05); 및(k) 분자 내에 방향족 고리구조와 음전하를 지닌 원자 사이의 결합거리가 4인 부분의 유무 (CATS_binary_Aro_Neg_04)로 선별되는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 생물농축인자를 예측하는 QSPR 방법
|
7 |
7
제6항에 있어서,상기 기계학습 단계에서,상기 선별된 11개의 분자 표현자를 포함하여 서포트벡터머신(SVM : Support Vector Machine) 방식에 의하여 결정되는 화합물의 생물농축인자 계산식 모델의 매개 변수 조건은 C = 10;γ = 0
|
8 |
8
컴퓨터 시스템에서 구현되는 유기화합물의 생물농축인자를 예측하는 QSPR 방법에 있어서,생물농축인자를 가지는 다수의 화합물 중에서 생물농축인자 실험 데이터를 얻을 수 있는 유기화합물을 수집하는 단계; 및상기 수집된 유기화합물로부터 화합물의 물리화학적 특성을 표현하는 공통 인자를 선별한 후, 상기 선별된 공통 인자를 이용하여 생물농축인자를 예측할 수 있는 생물농축인자 예측 모델을 수립하는 단계를 포함하되,상기 생물농축인자 예측 모델을 수립하는 단계는,상기 수집된 유기화합물, 상기 수집된 상온에서 유기화합물의 생물농축인자 실험 데이터 및 유기화합물의 구조를 입력하는 화합물 입력 단계; 상기 입력된 유기화합물 구조에 대한 다수의 분자 표현자를 생성하는 분자 표현자 생성 단계; 상기 수집된 유기화합물을, 생물농축인자 예측 모델을 수립하기 위하여 사용되는 내부 검증데이터와 상기 생물농축인자 예측 모델을 검증하기 위하여 사용되는 외부 검증데이터로 임의로 분류하는 데이터 분류 단계; 상기 내부 검증데이터 내 화합물에 대한 다수의 분자 표현자 중 화합물의 물리화학적 특성을 표현하는 공통 분자 표현자를 선별하고, 기계학습법을 이용하여 예측 모델을 도출하는 개별 예측 모델 개발 단계; 상기 도출된 개별 예측 모델의 내부 검증을 통해 최적의 개별 예측 모델을 선별하는 내부 검증 단계; 및 상기 선별된 최적의 개별 예측 모델을 복수 개 조합하여 복합 예측 모델(Consensus model)을 개발하는 복합 예측 모델 개발 단계를 포함하고,상기 개별 예측 모델 개발 단계는,상기 내부 검증데이터 내 화합물에 대한 다수의 분자 표현자 중 변별력이 없는 분자 표현자, 의미가 중복되는 분자 표현자 및 생물농축인자와 상관성이 낮은 분자 표현자를 제거하는 분자 표현자 제거 단계; 상기 분자 표현자 제거 단계에 의하여 일부 분자 표현자가 제거된 상기 내부 검증데이터 내 화합물을, 3분할 교차 검증 과정(3-fold-cross-validation)을 이용하여 내부 훈련데이터와 내부 검증데이터로 분류하는 내부 데이터 분류 단계; 상기 내부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중, 전진 선택(Forward selection) 방법을 이용하여 분자 표현자를 선별하는 표현자 전진 선택 단계; 기계학습법을 이용하여 상기 선별된 분자 표현자를 포함하는 화합물의 생물농축인자 계산식 모델을 결정하는 기계학습 단계; 상기 결정된 화합물의 생물농축인자 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출한 화합물의 생물농축인자 계산치 및 상기 내부 검증데이터 내 화합물의 생물농축인자 실험치를 이용하여, 상기 계산치와 상기 실험치의 오차값을 도출하는 오차값 도출 단계; 상기 오차값을 상기 표현자 전진선택 단계에서 선별된 다른 분자 표현자를 포함하는 화합물의 생물농축인자 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출된 구 오차값과 비교하는 오차값 비교 단계; 및 상기 오차값이 상기 구 오차값 미만인 경우, 상기 오차값을 도출하는 분자 표현자 및 이를 포함하는 생물농축인자 계산식 모델을 최적 개별 예측 모델로 선별하는 모델 최적화 단계를 포함하고,상기 표현자 전진선택 단계에서,상기 기계학습법 중 인공신경망(ANN : Artificial Neural Network) 방식에 의하여 결정되는 화합물의 생물농축인자 계산식 모델에 포함될 분자 표현자는, (a) 분자 내에 산소와 수소 사이의 단일결합의 수 (No_OsH);(b) 분자 내에 황과 산소 사이의 단일결합의 수 (No_SsO);(c) 하나의 탄화수소 고리화합물이 존재하는 분자 (Monocyclic_compounds_carbocycles);(d) Kier-Hall 분자연결지수로 수소원자를 제외한 분자구조에서 모든 원자에 대하여 한 원자와 연결된 3개의 원자의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현한 Chi3cluster지수(Chi_03_cluster);(e) 전체구조연결지수로서, 모든 원자들의 결합원자 수를 곱한 값의 제곱근을 나타낸 지수 (Total_structure_connectivity_index);(f) 분자의 logP(옥탄올/물의 분배계수)의 값 (AlogP98_value);(g) (+)전하를 지니고 있는 원자의 반데르발스(Van Der Waals) 표면적과 (+)부분전하를 곱한 값의 총합 (PPSA3);(h) 수소결합 받게 역할을 하는 원자의 부분전하 합을 수소결합 받게의 수로 나눈 값 (CHAA2);(i) 수소결합 받게 원자들의 반데르발스(Van Der Waals) 표면적의 합을 수소결합 받게의 수로 나눈 값 (SAAA2);(j) 분자 내에 소수성 원자와 수소결합 주게 원자 사이의 결합거리가 6인 부분의 유무 (CATS_binary_Hyd_Don_06);(k) 분자 내에 소수성 원자와 양전하를 지닌 원자 사이의 결합거리가 3인 부분의 유무 (CATS_binary_Hyd_Pos_03); 및(l) 분자 내에 소수성 원자와 음전하를 지닌 원자 사이의 결합거리가 3인 부분의 유무 (CATS_binary_Hyd_Neg_03)로 선별되는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 생물농축인자를 예측하는 QSPR 방법
|
9 |
9
제1항에 있어서, 상기 복합 예측 모델 개발 단계에서,복합 모델 개발을 위해 선별된 개별 예측 모델은 (a) 청구항 제6항에 의한 서포트벡터머신(SVM : Support Vector Machine) 방식에 의하여 결정되는 화합물의 생물농축인자 계산식 모델; 및(b) 청구항 제8항에 의한 인공신경망(ANN : Artificial Neural Network) 방식에 의하여 결정되는 화합물의 생물농축인자 계산식 모델을 조합하는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 생물농축인자를 예측하는 QSPR 방법
|
10 |
10
제1항, 제6항 내지 제8항 중 어느 한 항에 있어서, 상기 개발된 개별 예측 모델과 복합 예측 모델에 대하여 우연상관관계 검증(Y-randomization)을 실시하는 신뢰성 평가 단계;상기 개발된 개별 예측 모델과 복합 예측 모델에 대하여 상기 외부 검증데이터를 적용함으로써 최적의 예측 모델을 선별하는 외부 검증 단계; 및상기 생성된 유기화합물의 생물농축인자 예측 모델을 신뢰할 수 있는 적용가능 범위(applicability domain)를 설정하는 신뢰 범위 설정 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 생물농축인자를 예측하는 QSPR 방법
|