Разработка AI-системы предсказания свойств молекул ADMET
ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity) — совокупность фармакокинетических свойств, определяющих судьбу лекарства в организме. ~50% провалов в клинических испытаниях — из-за ADMET проблем, которые можно было предсказать раньше.
Критические ADMET свойства
Absorption
- Aqueous solubility: плохая растворимость → непостоянная биодоступность
- Lipophilicity (logP/logD): определяет проникновение через мембраны, растворимость
- Caco-2 / MDCK permeability: всасывание в кишечнике
- P-glycoprotein (P-gp) efflux: активный вывод из клеток, снижает биодоступность
- Oral bioavailability (F%): какая доля дозы достигает системного кровотока
Distribution
- Volume of distribution (Vd): как распределяется по тканям
- Blood-brain barrier permeability (BBB): нужна для ЦНС лекарств, нежелательна для периферических
- Plasma protein binding (PPB): связывание с альбумином, только free drug активен
Metabolism
- CYP450 inhibition (CYP3A4, CYP2D6, CYP2C9, CYP2C19, CYP1A2): замедляет метаболизм других лекарств → взаимодействия
- CYP450 substrate: какие изоферменты метаболизируют данное соединение
- Half-life (T½): как быстро выводится из организма
- Hepatotoxicity (DILI): повреждение печени
Excretion
- Renal clearance: скорость выведения почками
Toxicity
- hERG inhibition: блокада сердечного K⁺ канала → удлинение QT → потенциально летальная аритмия. Одна из главных причин отзыва препаратов с рынка
- Ames test: мутагенность / геnotoxicity
- DILI (Drug-Induced Liver Injury): гепатотоксичность
- Skin sensitization: контактный дерматит
- Reproductive toxicity: тератогенность
Модели предсказания
Molecular fingerprints + ML
ECFP4/6 (circular fingerprints 1024–2048 бит) + XGBoost/Random Forest. Быстро, интерпретируемо, хорошо на небольших датасетах.
Graph Neural Networks
Молекула как граф → GNN учит структурные паттерны. MPNN, AttentiveFP, D-MPNN (chemprop). На большинстве TDC бенчмарков GNN превосходит fingerprint+ML.
Multitask Learning
Одна модель предсказывает 20+ ADMET свойств одновременно. Преимущество: shared representations улучшают предсказание свойств с малым датасетом за счёт информации из связанных задач.
from chemprop import args, data, featurizers, models, train
# Chemprop — state-of-the-art для молекулярного ADMET
arguments = [
'--data_path', 'admet_train.csv',
'--dataset_type', 'regression',
'--target_columns', 'solubility logP hERG_inhibition caco2_permeability',
'--smiles_columns', 'smiles',
'--epochs', '50',
'--batch_size', '64',
'--ffn_num_layers', '3',
'--dropout', '0.1',
'--save_dir', 'admet_model',
]
args.parse_train_args(arguments)
train.cross_validate(...)
Uncertainty Quantification
ADMET предсказание: знать не только значение, но и уверенность модели. Для молекул вне applicability domain — предупреждение о ненадёжном предсказании.
Методы: Monte Carlo Dropout, Deep Ensembles, Conformal Prediction. Conformal Prediction даёт статистически строгие предсказательные интервалы.
Датасеты
| Задача | Датасет | Размер |
|---|---|---|
| Solubility | ESOL, AqSolDB | 1k–10k |
| logP | ChEMBL | 100k+ |
| Caco-2 | Biopharmaceutics DB | ~1k |
| hERG | BindingDB, ChEMBL | 10k+ |
| DILI | DILIrank | ~1k |
| CYP inhibition | ChEMBL | 10k+ |
| Ames | TDC AMES dataset | ~7k |
Проблема данных: многие биологические датасеты малые и зашумленные. Transfer learning (предобучение на большом химическом корпусе → fine-tuning на специфической задаче) помогает с малыми датасетами.
Applicability Domain
Модель надёжна только для молекул, похожих на обучающие данные. AD оценка:
- Tanimoto similarity к ближайшим соседям в обучающей выборке
- Leverage hat matrix (Williams plot)
- k-NN distance в embedding space
При выходе за AD → explicit warning "low confidence prediction".
Интеграция: REST API, Jupyter-friendly Python API, KNIME нодзы для workflow химиков. Визуализация: 2D-карта свойств с цветовым кодированием нарушений drug-likeness (Lipinski Rule of 5, Veber rules).







