Разработка AI-системы предсказания свойств молекул (ADMET)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Разработка AI-системы предсказания свойств молекул (ADMET)
Сложная
от 2 недель до 3 месяцев
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1218
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    853
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1047
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    825

Разработка AI-системы предсказания свойств молекул ADMET

ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity) — совокупность фармакокинетических свойств, определяющих судьбу лекарства в организме. ~50% провалов в клинических испытаниях — из-за ADMET проблем, которые можно было предсказать раньше.

Критические ADMET свойства

Absorption

  • Aqueous solubility: плохая растворимость → непостоянная биодоступность
  • Lipophilicity (logP/logD): определяет проникновение через мембраны, растворимость
  • Caco-2 / MDCK permeability: всасывание в кишечнике
  • P-glycoprotein (P-gp) efflux: активный вывод из клеток, снижает биодоступность
  • Oral bioavailability (F%): какая доля дозы достигает системного кровотока

Distribution

  • Volume of distribution (Vd): как распределяется по тканям
  • Blood-brain barrier permeability (BBB): нужна для ЦНС лекарств, нежелательна для периферических
  • Plasma protein binding (PPB): связывание с альбумином, только free drug активен

Metabolism

  • CYP450 inhibition (CYP3A4, CYP2D6, CYP2C9, CYP2C19, CYP1A2): замедляет метаболизм других лекарств → взаимодействия
  • CYP450 substrate: какие изоферменты метаболизируют данное соединение
  • Half-life (T½): как быстро выводится из организма
  • Hepatotoxicity (DILI): повреждение печени

Excretion

  • Renal clearance: скорость выведения почками

Toxicity

  • hERG inhibition: блокада сердечного K⁺ канала → удлинение QT → потенциально летальная аритмия. Одна из главных причин отзыва препаратов с рынка
  • Ames test: мутагенность / геnotoxicity
  • DILI (Drug-Induced Liver Injury): гепатотоксичность
  • Skin sensitization: контактный дерматит
  • Reproductive toxicity: тератогенность

Модели предсказания

Molecular fingerprints + ML

ECFP4/6 (circular fingerprints 1024–2048 бит) + XGBoost/Random Forest. Быстро, интерпретируемо, хорошо на небольших датасетах.

Graph Neural Networks

Молекула как граф → GNN учит структурные паттерны. MPNN, AttentiveFP, D-MPNN (chemprop). На большинстве TDC бенчмарков GNN превосходит fingerprint+ML.

Multitask Learning

Одна модель предсказывает 20+ ADMET свойств одновременно. Преимущество: shared representations улучшают предсказание свойств с малым датасетом за счёт информации из связанных задач.

from chemprop import args, data, featurizers, models, train

# Chemprop — state-of-the-art для молекулярного ADMET
arguments = [
    '--data_path', 'admet_train.csv',
    '--dataset_type', 'regression',
    '--target_columns', 'solubility logP hERG_inhibition caco2_permeability',
    '--smiles_columns', 'smiles',
    '--epochs', '50',
    '--batch_size', '64',
    '--ffn_num_layers', '3',
    '--dropout', '0.1',
    '--save_dir', 'admet_model',
]
args.parse_train_args(arguments)
train.cross_validate(...)

Uncertainty Quantification

ADMET предсказание: знать не только значение, но и уверенность модели. Для молекул вне applicability domain — предупреждение о ненадёжном предсказании.

Методы: Monte Carlo Dropout, Deep Ensembles, Conformal Prediction. Conformal Prediction даёт статистически строгие предсказательные интервалы.

Датасеты

Задача Датасет Размер
Solubility ESOL, AqSolDB 1k–10k
logP ChEMBL 100k+
Caco-2 Biopharmaceutics DB ~1k
hERG BindingDB, ChEMBL 10k+
DILI DILIrank ~1k
CYP inhibition ChEMBL 10k+
Ames TDC AMES dataset ~7k

Проблема данных: многие биологические датасеты малые и зашумленные. Transfer learning (предобучение на большом химическом корпусе → fine-tuning на специфической задаче) помогает с малыми датасетами.

Applicability Domain

Модель надёжна только для молекул, похожих на обучающие данные. AD оценка:

  • Tanimoto similarity к ближайшим соседям в обучающей выборке
  • Leverage hat matrix (Williams plot)
  • k-NN distance в embedding space

При выходе за AD → explicit warning "low confidence prediction".

Интеграция: REST API, Jupyter-friendly Python API, KNIME нодзы для workflow химиков. Визуализация: 2D-карта свойств с цветовым кодированием нарушений drug-likeness (Lipinski Rule of 5, Veber rules).