1 |
1
컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법에 있어서,자연발화온도를 가지는 다수의 화합물 중에서 자연발화온도 실험 데이터를 얻을 수 있는 유기화합물을 수집하는 단계;상기 수집된 유기화합물로부터 화합물의 물리화학적 특성을 표현하는 공통 인자를 선별한 후, 상기 선별된 공통 인자를 이용하여 유기화합물의 자연발화온도를 예측할 수 있는 자연발화온도 예측 모델을 수립하는 단계를 포함하되,상기 자연발화온도 예측 모델을 수립하는 단계는,상기 수집된 유기화합물, 상기 수집된 유기화합물의 자연발화온도 실험 데이터 및 유기화합물의 구조를 입력하는 화합물 입력 단계;상기 입력된 유기화합물 구조에 대한 다수의 분자 표현자를 생성하는 분자 표현자 생성 단계;상기 수집된 유기화합물을, 자연발화온도 예측 모델을 수립하기 위하여 사용되는 외부 훈련데이터와 상기 자연발화온도 예측 모델을 검증하기 위하여 사용되는 외부 검증데이터로 임의로 분류하는 데이터 분류 단계;상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중 화합물의 물리화학적 특성을 표현하는 공통 분자 표현자를 선별하고, 기계학습법을 이용하여 예측 모델을 도출하는 개별 예측 모델 개발 단계;상기 도출된 개별 예측 모델의 내부 검증을 통해 최적의 개별 예측 모델을 선별하는 내부 검증 단계; 및상기 선별된 최적의 개별 예측 모델을 복수 개 조합하여 복합 예측 모델(Consensus model)을 개발하는 복합 예측 모델 개발 단계를 포함하고,상기 개별 예측 모델 개발 단계는,상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 둥 변별력이 없는 분자 표현자, 의미가 중복되는 분자 표현자 및 자연발화온도와 상관성이 낮은 분자 표현자를 제거하는 분자 표현자 제거 단계;상기 분자 표현자 제거 단계에 의하여 일부 분자 표현자가 제거된 상기 외부 훈련데이터 내 화합물을, 중복을 허용하는 부트스트랩(Bootstrap) 샘플링을 이용하여 내부 훈련데이터와 내부 검증데이터로 분류하는 내부 데이터 분류 단계;상기 내부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중, 전진 선택(Forward selection) 방법을 이용하여 분자 표현자를 선별하는 표현자 전진 선택 단계;기계학습법을 이용하여 상기 선별된 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델을 결정하는 기계학습 단계;상기 결정된 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출한 화합물의 자연발화온도 계산치 및 상기 내부 검증데이터 내 화합물의 자연발화온도 실험치를 이용하여, 상기 계산치와 상기 실험치의 오차값을 도출하는 오차값 도출 단계;상기 오차값을 상기 표현자 전진선택 단계에서 선별된 다른 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출된 구 오차값과 비교하는 오차값 비교 단계; 및상기 오차값이 상기 구 오차값 미만인 경우, 상기 오차값을 도출하는 분자 표현자 및 이를 포함하는 자연발화온도 계산식 모델을 최적 개별 예측 모델로 선별하는 모델 최적화 단계를 포함하고,상기 표현자 전진선택 단계에서,상기 기계학습법 중 다중선형회귀(MLR: Multiple Linear Regression) 방식에 의하여 결정되는 화합물의 자연발화온도 계산식 모델에 포함될 분자 표현자는,(a) 분자 내의 이중결합의 수(No_double_bonds); (b) 회전 가능한 결합의 비율(Fraction_of_Rotatable_bonds); (c) 분자 내의 탄소, 산소 사이의 이중결합의 수(No_CdO); (d) 분자 내의 탄소, 할로겐 원자 사이의 단일결합의 수(No_CsX); (e) 분자 내의 삼차 아미노 그룹의 수(No_amino_groups_tertiary); (f) 분자 내의 알데하이드 그룹의 수(No_aldehyde_groups); (g) 전체 VDW 표면적에 대한 소수성 포화 원자들의 표면적 비율(Fraction_of_2D_VSA_hydrophobic_sat); (h) 단일결합-단일결합-CH2 타입의 모든 원자들의 E-state값의 합(E_state_SssCH2); (i) Kier-Hall 분자연결지수로 수소원자를 제외한 분자구조에서 모든 원자에 대하여 한 원자와 연결된 3개의 원자의 결합원자수 곱에 대한 제곱근의 합으로 표현한 Chi3cluster지수(Chi3cluster); 및 (j) 분자 내에서 결합되어 있는 원자쌍의 부분전하 차이의 평균치(Local_dipole_index)로 선별되는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법
|
2 |
2
삭제
|
3 |
3
삭제
|
4 |
4
삭제
|
5 |
5
제1항에 있어서,상기 기계학습 단계에서,상기 선별된 10개의 분자 표현자를 포함하여 다중선형회귀(MLR: Multiple Linear Regression) 방식에 의하여 결정되는 화합물의 자연발화온도 계산식 모델은AIT(℃)= -27
|
6 |
6
컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법에 있어서,자연발화온도를 가지는 다수의 화합물 중에서 자연발화온도 실험 데이터를 얻을 수 있는 유기화합물을 수집하는 단계;상기 수집된 유기화합물로부터 화합물의 물리화학적 특성을 표현하는 공통 인자를 선별한 후, 상기 선별된 공통 인자를 이용하여 유기화합물의 자연발화온도를 예측할 수 있는 자연발화온도 예측 모델을 수립하는 단계를 포함하되,상기 자연발화온도 예측 모델을 수립하는 단계는,상기 수집된 유기화합물, 상기 수집된 유기화합물의 자연발화온도 실험 데이터 및 유기화합물의 구조를 입력하는 화합물 입력 단계;상기 입력된 유기화합물 구조에 대한 다수의 분자 표현자를 생성하는 분자 표현자 생성 단계;상기 수집된 유기화합물을, 자연발화온도 예측 모델을 수립하기 위하여 사용되는 외부 훈련데이터와 상기 자연발화온도 예측 모델을 검증하기 위하여 사용되는 외부 검증데이터로 임의로 분류하는 데이터 분류 단계;상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중 화합물의 물리화학적 특성을 표현하는 공통 분자 표현자를 선별하고, 기계학습법을 이용하여 예측 모델을 도출하는 개별 예측 모델 개발 단계;상기 도출된 개별 예측 모델의 내부 검증을 통해 최적의 개별 예측 모델을 선별하는 내부 검증 단계; 및상기 선별된 최적의 개별 예측 모델을 복수 개 조합하여 복합 예측 모델(Consensus model)을 개발하는 복합 예측 모델 개발 단계를 포함하고,상기 개별 예측 모델 개발 단계는,상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 둥 변별력이 없는 분자 표현자, 의미가 중복되는 분자 표현자 및 자연발화온도와 상관성이 낮은 분자 표현자를 제거하는 분자 표현자 제거 단계;상기 분자 표현자 제거 단계에 의하여 일부 분자 표현자가 제거된 상기 외부 훈련데이터 내 화합물을, 중복을 허용하는 부트스트랩(Bootstrap) 샘플링을 이용하여 내부 훈련데이터와 내부 검증데이터로 분류하는 내부 데이터 분류 단계;상기 내부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중, 전진 선택(Forward selection) 방법을 이용하여 분자 표현자를 선별하는 표현자 전진 선택 단계;기계학습법을 이용하여 상기 선별된 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델을 결정하는 기계학습 단계;상기 결정된 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출한 화합물의 자연발화온도 계산치 및 상기 내부 검증데이터 내 화합물의 자연발화온도 실험치를 이용하여, 상기 계산치와 상기 실험치의 오차값을 도출하는 오차값 도출 단계;상기 오차값을 상기 표현자 전진선택 단계에서 선별된 다른 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출된 구 오차값과 비교하는 오차값 비교 단계; 및상기 오차값이 상기 구 오차값 미만인 경우, 상기 오차값을 도출하는 분자 표현자 및 이를 포함하는 자연발화온도 계산식 모델을 최적 개별 예측 모델로 선별하는 모델 최적화 단계를 포함하고,상기 표현자 전진선택 단계에서,상기 기계학습법 중 서포트벡터머신(SVM : Support Vector Machine) 방식에 의하여 결정되는 화합물의 자연발화온도 계산식 모델에 포함될 분자 표현자는,(a) 분자 내의 탄소, 산소 사이의 이중결합의 수(No_CdO); (b) 분자 내의 탄소, 할로겐 원자 사이의 단일결합의 수(No_CsX); (c) 분자 내의 6각 고리의 수(No_ring_06); (d) 분자 내의 에테르 그룹의 수(No_ether_groups); (e) 분자 내의 알데하이드 그룹의 수(No_aldehyde_groups); (f) 단일결합-CH3 타입의 모든 원자들의 E-state값의 합(E_state_SsCH3); (g) 단일결합-단일결합-CH2 타입의 모든 원자들의 E-state값의 합(E_state_SssCH2); (h) Kier-Hall 분자연결지수로 수소원자를 제외한 분자구조에서 모든 원자에 대하여 한 원자와 연결된 3개의 원자의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현한 Chi3cluster지수(Chi3cluster); (i) Kier-Hall 원자가연결지수로 수소원자를 제외한 분자구조에서 한 원자와 연결된 2개의 원자 그리고 그 중 한 원자에 연결된 원자들의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현된 VChi4path_cluster지수(VChi4path_cluster);(j) 분자 내 경로의 수로 9개의 원자가 길게 연달아 연결된 경로의 수(SC9path); (k) 분자 내에 소수성 원자와 수소결합받게 원자 사이의 결합거리가 1인 부분의 유무(CATS_binary_Hyd_Acc_01); 및 (l) 분자 내에 소수성 원자와 양전하를 지닌 원자 사이의 결합거리가 1인 부분의 유무(CATS_binary_Hyd_Pos_01)로 선별되는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법
|
7 |
7
제6항에 있어서,상기 기계학습 단계에서,상기 선별된 12개의 분자 표현자를 포함하여 서포트벡터머신(SVM : Support Vector Machine) 방식에 의하여 결정되는 화합물의 자연발화온도 계산식 모델의 매개 변수 조건은 C = 100;γ = 0
|
8 |
8
컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법에 있어서,자연발화온도를 가지는 다수의 화합물 중에서 자연발화온도 실험 데이터를 얻을 수 있는 유기화합물을 수집하는 단계;상기 수집된 유기화합물로부터 화합물의 물리화학적 특성을 표현하는 공통 인자를 선별한 후, 상기 선별된 공통 인자를 이용하여 유기화합물의 자연발화온도를 예측할 수 있는 자연발화온도 예측 모델을 수립하는 단계를 포함하되,상기 자연발화온도 예측 모델을 수립하는 단계는,상기 수집된 유기화합물, 상기 수집된 유기화합물의 자연발화온도 실험 데이터 및 유기화합물의 구조를 입력하는 화합물 입력 단계;상기 입력된 유기화합물 구조에 대한 다수의 분자 표현자를 생성하는 분자 표현자 생성 단계;상기 수집된 유기화합물을, 자연발화온도 예측 모델을 수립하기 위하여 사용되는 외부 훈련데이터와 상기 자연발화온도 예측 모델을 검증하기 위하여 사용되는 외부 검증데이터로 임의로 분류하는 데이터 분류 단계;상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중 화합물의 물리화학적 특성을 표현하는 공통 분자 표현자를 선별하고, 기계학습법을 이용하여 예측 모델을 도출하는 개별 예측 모델 개발 단계;상기 도출된 개별 예측 모델의 내부 검증을 통해 최적의 개별 예측 모델을 선별하는 내부 검증 단계; 및상기 선별된 최적의 개별 예측 모델을 복수 개 조합하여 복합 예측 모델(Consensus model)을 개발하는 복합 예측 모델 개발 단계를 포함하고,상기 개별 예측 모델 개발 단계는,상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 둥 변별력이 없는 분자 표현자, 의미가 중복되는 분자 표현자 및 자연발화온도와 상관성이 낮은 분자 표현자를 제거하는 분자 표현자 제거 단계;상기 분자 표현자 제거 단계에 의하여 일부 분자 표현자가 제거된 상기 외부 훈련데이터 내 화합물을, 중복을 허용하는 부트스트랩(Bootstrap) 샘플링을 이용하여 내부 훈련데이터와 내부 검증데이터로 분류하는 내부 데이터 분류 단계;상기 내부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중, 전진 선택(Forward selection) 방법을 이용하여 분자 표현자를 선별하는 표현자 전진 선택 단계;기계학습법을 이용하여 상기 선별된 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델을 결정하는 기계학습 단계;상기 결정된 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출한 화합물의 자연발화온도 계산치 및 상기 내부 검증데이터 내 화합물의 자연발화온도 실험치를 이용하여, 상기 계산치와 상기 실험치의 오차값을 도출하는 오차값 도출 단계;상기 오차값을 상기 표현자 전진선택 단계에서 선별된 다른 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출된 구 오차값과 비교하는 오차값 비교 단계; 및상기 오차값이 상기 구 오차값 미만인 경우, 상기 오차값을 도출하는 분자 표현자 및 이를 포함하는 자연발화온도 계산식 모델을 최적 개별 예측 모델로 선별하는 모델 최적화 단계를 포함하고,상기 표현자 전진선택 단계에서,상기 기계학습법 중 다중선형회귀(MLR: Multiple Linear Regression) 방식에 의하여 결정되는 화합물의 자연발화온도 계산식 모델에 포함될 분자 표현자는, (a) 분자 내의 탄소, 산소 사이의 이중결합의 수(No_CdO); (b) 분자 내의 탄소, 할로겐 원자사이의 단일결합의 수(No_CsX); (c) 분자 내의 삼차 아미노 그룹의 수(No_amino_groups_tertiary); (d) 분자 내의 알데하이드 그룹의 수(No_aldehyde_groups); (e) 전체 VDW 표면적에 대한 소수성 포화 원자들의 표면적 비율(Fraction_of_2D_VSA_hydrophobic_sat); (f) Kier-Hall 분자연결지수로 수소원자를 제외한 분자구조에서 모든 원자에 대하여 한 원자와 연결된 3개의 원자의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현한 Chi3cluster지수(Chi3cluster); (g) 전체구조연결지수로 모든 원자들의 결합원자수의 곱에 대하여 제곱근을 나타낸 지수(Total_structure_connectivity_index); (h) 분자 내에서 가장 음의 값을 지닌 부분전하를 음의 값을 지닌 부분전하의 총합으로 나눈 값(Relative_negative_charge); (i) 분자 내에 소수성 원자와 방향족 고리구조 사이의 결합거리가 0인 부분의 유무(CATS_binary_Hyd_Aro_00); (j) 분자 내에 소수성 원자와 수소결합주게 원자 사이의 결합거리가 1인 부분의 유무(CATS_binary_Hyd_Don_01); (k) 분자 내에 소수성 원자와 수소결합받게 원자 사이의 결합거리가 6인 부분의 유무(CATS_binary_Hyd_Acc_06); 및 (l) 분자 내에 방향족 고리구조와 수소결합받게 원자 사이의 결합거리가 2인 부분의 유무(CATS_binary_Aro_Acc_02)로 선별되는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법
|
9 |
9
컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법에 있어서,자연발화온도를 가지는 다수의 화합물 중에서 자연발화온도 실험 데이터를 얻을 수 있는 유기화합물을 수집하는 단계;상기 수집된 유기화합물로부터 화합물의 물리화학적 특성을 표현하는 공통 인자를 선별한 후, 상기 선별된 공통 인자를 이용하여 유기화합물의 자연발화온도를 예측할 수 있는 자연발화온도 예측 모델을 수립하는 단계를 포함하되,상기 자연발화온도 예측 모델을 수립하는 단계는,상기 수집된 유기화합물, 상기 수집된 유기화합물의 자연발화온도 실험 데이터 및 유기화합물의 구조를 입력하는 화합물 입력 단계;상기 입력된 유기화합물 구조에 대한 다수의 분자 표현자를 생성하는 분자 표현자 생성 단계;상기 수집된 유기화합물을, 자연발화온도 예측 모델을 수립하기 위하여 사용되는 외부 훈련데이터와 상기 자연발화온도 예측 모델을 검증하기 위하여 사용되는 외부 검증데이터로 임의로 분류하는 데이터 분류 단계;상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중 화합물의 물리화학적 특성을 표현하는 공통 분자 표현자를 선별하고, 기계학습법을 이용하여 예측 모델을 도출하는 개별 예측 모델 개발 단계;상기 도출된 개별 예측 모델의 내부 검증을 통해 최적의 개별 예측 모델을 선별하는 내부 검증 단계; 및상기 선별된 최적의 개별 예측 모델을 복수 개 조합하여 복합 예측 모델(Consensus model)을 개발하는 복합 예측 모델 개발 단계를 포함하고,상기 개별 예측 모델 개발 단계는,상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 둥 변별력이 없는 분자 표현자, 의미가 중복되는 분자 표현자 및 자연발화온도와 상관성이 낮은 분자 표현자를 제거하는 분자 표현자 제거 단계;상기 분자 표현자 제거 단계에 의하여 일부 분자 표현자가 제거된 상기 외부 훈련데이터 내 화합물을, 중복을 허용하는 부트스트랩(Bootstrap) 샘플링을 이용하여 내부 훈련데이터와 내부 검증데이터로 분류하는 내부 데이터 분류 단계;상기 내부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중, 전진 선택(Forward selection) 방법을 이용하여 분자 표현자를 선별하는 표현자 전진 선택 단계;기계학습법을 이용하여 상기 선별된 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델을 결정하는 기계학습 단계;상기 결정된 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출한 화합물의 자연발화온도 계산치 및 상기 내부 검증데이터 내 화합물의 자연발화온도 실험치를 이용하여, 상기 계산치와 상기 실험치의 오차값을 도출하는 오차값 도출 단계;상기 오차값을 상기 표현자 전진선택 단계에서 선별된 다른 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출된 구 오차값과 비교하는 오차값 비교 단계; 및상기 오차값이 상기 구 오차값 미만인 경우, 상기 오차값을 도출하는 분자 표현자 및 이를 포함하는 자연발화온도 계산식 모델을 최적 개별 예측 모델로 선별하는 모델 최적화 단계를 포함하고,상기 표현자 전진선택 단계에서,상기 기계학습법 중 다중선형회귀(MLR: Multiple Linear Regression) 방식에 의하여 결정되는 화합물의 자연발화온도 계산식 모델에 포함될 분자 표현자는, (a) 회전 가능한 결합의 비율(Fraction_of_Rotatable_bonds); (b) 분자 내의 탄소, 할로겐 원자사이의 단일결합의 수(No_CsX); (c) 분자 내의 일차 알콜 그룹의 수(No_alcohol_groups_primary); (d) 분자 내의 삼차 아미노 그룹의 수(No_amino_groups_tertiary); (e) 분자 내의 알데하이드 그룹의 수(No_aldehyde_groups); (f) 전체 VDW 표면적에 대한 소수성 포화 원자들의 표면적 비율(Fraction_of_2D_VSA_hydrophobic_sat); (g) 원자의 E-state값 중 최대값(E_state_max); (h) Kier-Hall 분자연결지수로 수소원자를 제외한 분자구조에서 모든 원자에 대하여 한 원자와 연결된 3개의 원자의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현한 Chi3cluster지수(Chi3cluster); (i) Kier-Hall 원자가연결지수로 수소원자를 제외한 분자구조에서 한 원자와 연결된 2개의 원자 그리고 그 중 한 원자에 연결된 원자들의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현된 VChi4path_cluster지수(VChi4path_cluster); (j) 분자 내에서 가장 음의 값을 지닌 부분전하를 음의 값을 지닌 부분전하의 총합으로 나눈 값(Relative_negative_charge); (k) 분자 내의 원자 중 가장 높은 부분전하 값(Qmax); (l) 분자 내에 소수성 원자와 방향족 고리구조 사이의 결합거리가 4인 부분의 유무(CATS_binary_Hyd_Aro_04); (m) 분자 내에 소수성 원자와 수소결합주게 원자 사이의 결합거리가 1인 부분의 유무(CATS_binary_Hyd_Don_01); 및 (n) 분자 내에 소수성 원자와 수소결합받게 원자 사이의 결합거리가 6인 부분의 유무(CATS_binary_Hyd_Acc_06)로 선별되는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법
|
10 |
10
컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법에 있어서,자연발화온도를 가지는 다수의 화합물 중에서 자연발화온도 실험 데이터를 얻을 수 있는 유기화합물을 수집하는 단계;상기 수집된 유기화합물로부터 화합물의 물리화학적 특성을 표현하는 공통 인자를 선별한 후, 상기 선별된 공통 인자를 이용하여 유기화합물의 자연발화온도를 예측할 수 있는 자연발화온도 예측 모델을 수립하는 단계를 포함하되,상기 자연발화온도 예측 모델을 수립하는 단계는,상기 수집된 유기화합물, 상기 수집된 유기화합물의 자연발화온도 실험 데이터 및 유기화합물의 구조를 입력하는 화합물 입력 단계;상기 입력된 유기화합물 구조에 대한 다수의 분자 표현자를 생성하는 분자 표현자 생성 단계;상기 수집된 유기화합물을, 자연발화온도 예측 모델을 수립하기 위하여 사용되는 외부 훈련데이터와 상기 자연발화온도 예측 모델을 검증하기 위하여 사용되는 외부 검증데이터로 임의로 분류하는 데이터 분류 단계;상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중 화합물의 물리화학적 특성을 표현하는 공통 분자 표현자를 선별하고, 기계학습법을 이용하여 예측 모델을 도출하는 개별 예측 모델 개발 단계;상기 도출된 개별 예측 모델의 내부 검증을 통해 최적의 개별 예측 모델을 선별하는 내부 검증 단계; 및상기 선별된 최적의 개별 예측 모델을 복수 개 조합하여 복합 예측 모델(Consensus model)을 개발하는 복합 예측 모델 개발 단계를 포함하고,상기 개별 예측 모델 개발 단계는,상기 외부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 둥 변별력이 없는 분자 표현자, 의미가 중복되는 분자 표현자 및 자연발화온도와 상관성이 낮은 분자 표현자를 제거하는 분자 표현자 제거 단계;상기 분자 표현자 제거 단계에 의하여 일부 분자 표현자가 제거된 상기 외부 훈련데이터 내 화합물을, 중복을 허용하는 부트스트랩(Bootstrap) 샘플링을 이용하여 내부 훈련데이터와 내부 검증데이터로 분류하는 내부 데이터 분류 단계;상기 내부 훈련데이터 내 화합물에 대한 다수의 분자 표현자 중, 전진 선택(Forward selection) 방법을 이용하여 분자 표현자를 선별하는 표현자 전진 선택 단계;기계학습법을 이용하여 상기 선별된 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델을 결정하는 기계학습 단계;상기 결정된 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출한 화합물의 자연발화온도 계산치 및 상기 내부 검증데이터 내 화합물의 자연발화온도 실험치를 이용하여, 상기 계산치와 상기 실험치의 오차값을 도출하는 오차값 도출 단계;상기 오차값을 상기 표현자 전진선택 단계에서 선별된 다른 분자 표현자를 포함하는 화합물의 자연발화온도 계산식 모델에 상기 내부 검증데이터 내 화합물을 적용하여 도출된 구 오차값과 비교하는 오차값 비교 단계; 및상기 오차값이 상기 구 오차값 미만인 경우, 상기 오차값을 도출하는 분자 표현자 및 이를 포함하는 자연발화온도 계산식 모델을 최적 개별 예측 모델로 선별하는 모델 최적화 단계를 포함하고,상기 표현자 전진선택 단계에서,상기 기계학습법 중 서포트벡터머신(SVM : Support Vector Machine) 방식에 의하여 결정되는 화합물의 자연발화온도 계산식 모델에 포함될 분자 표현자는,(a) 분자 내의 탄소, 산소 사이의 이중결합의 수(No_CdO); (b) 분자 내의 탄소, 할로겐 원자사이의 단일결합의 수(No_CsX); (c) 분자 내의 6각 고리의 수(No_ring_06); (d) 분자 내의 아마이드 그룹의 수(No_amide_groups); (e) 분자 내의 삼차 아미노 그룹의 수(No_amino_groups_tertiary); (f) 분자 내의 에테르 그룹의 수(No_ether_groups); (g) 분자 내의 알데하이드 그룹의 수(No_aldehyde_groups); (h) 분자 내의 알파 할로카보닐 그룹의 수(No_alpha_halocarbonyl_compounds); (i) 단일결합-CH3 타입의 모든 원자들의 E-state값의 합(E_state_SsCH3); (j) 단일결합-단일결합-CH2 타입의 모든 원자들의 E-state값의 합(E_state_SssCH2); (k) Kier-Hall 분자연결지수로 수소원자를 제외한 분자구조에서 모든 원자에 대하여 한 원자와 연결된 3개의 원자의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현한 Chi3cluster지수(Chi3cluster); (l) Kier-Hall 원자가연결지수로 수소원자를 제외한 분자구조에서 한 원자와 연결된 2개의 원자 그리고 그 중 한 원자에 연결된 원자들의 각각 결합원자수 곱에 대한 제곱근의 합으로 표현된 VChi4path_cluster지수(VChi4path_cluster); (m) 분자 내 경로의 수로 9개의 원자가 길게 연달아 연결된 경로의 수(SC9path); (n) 분자 내에 소수성 원자와 수소결합받게 원자 사이의 결합거리가 1인 부분의 유무(CATS_binary_Hyd_Acc_01); (o) 분자 내에 소수성 원자와 양전하를 지닌 원자 사이의 결합거리가 1인 부분의 유무(CATS_binary_Hyd_Pos_01); 및 (p) 분자 내에 두 방향족 고리구조 사이의 결합거리가 6인 부분의 유무(CATS_binary_Aro_Aro_06)로 선별되는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법
|
11 |
11
삭제
|
12 |
12
제1항, 제5항 내지 제10항 중 어느 한 항에 있어서, 상기 개발된 개별 예측 모델과 복합 예측 모델에 대하여 우연상관관계 검증(Y-randomization)을 실시하는 신뢰성 평가 단계;상기 개발된 개별 예측 모델과 복합 예측 모델에 대하여 상기 외부 검증데이터를 적용함으로써 최적의 예측 모델을 선별하는 외부 검증 단계; 및상기 생성된 유기화합물의 자연발화온도 예측 모델을 신뢰할 수 있는 적용가능 범위(applicability domain)를 설정하는 신뢰 범위 설정 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 시스템에서 구현되는 유기화합물의 자연발화온도를 예측하는 QSPR 방법
|