Что такое ADMET и почему это важно для разработки лекарств?

ADMET — абсорбция, распределение, метаболизм, выведение и токсичность. Около 50% провалов в клинических испытаниях связаны с плохими ADMET-свойствами. Предсказание на ранних этапах позволяет отсеять неперспективные молекулы до синтеза, экономя время и ресурсы.

Какие модели используются для предсказания ADMET?

Используем графовые нейронные сети (MPNN, AttentiveFP, D-MPNN), мультитасковое обучение для совместного предсказания свойств, а также ансамбли с молекулярными отпечатками. GNN обычно превосходят классические методы на 10–20% по точности.

Как оценивается достоверность предсказаний для новых молекул?

Применяем Conformal Prediction и Deep Ensembles для количественной оценки неопределённости. Для молекул вне области применимости модели выдаётся предупреждение о низкой надёжности предсказания. Это критически важно для принятия решений.

Какие датасеты используются для обучения?

Зависит от задачи: ESOL и AqSolDB для растворимости, ChEMBL для logP и CYP, BindingDB для hERG, TDC AMES для токсичности. При малых датасетах используем трансферное обучение с предобучением на крупных химических корпусах.

Как интегрировать ADMET-модель в существующий пайплайн?

Разворачиваем модель как REST API (FastAPI/Flask) или Python-библиотеку. Предоставляем документацию, примеры и обучение команды. Возможна интеграция с KNIME, RDKit и другими инструментами хемоинформатики.

Что такое ADMET и почему это важно для разработки лекарств?

ADMET — абсорбция, распределение, метаболизм, выведение и токсичность. Около 50% провалов в клинических испытаниях связаны с плохими ADMET-свойствами. Предсказание на ранних этапах позволяет отсеять неперспективные молекулы до синтеза, экономя время и ресурсы.

Какие модели используются для предсказания ADMET?

Используем графовые нейронные сети (MPNN, AttentiveFP, D-MPNN), мультитасковое обучение для совместного предсказания свойств, а также ансамбли с молекулярными отпечатками. GNN обычно превосходят классические методы на 10–20% по точности.

Как оценивается достоверность предсказаний для новых молекул?

Применяем Conformal Prediction и Deep Ensembles для количественной оценки неопределённости. Для молекул вне области применимости модели выдаётся предупреждение о низкой надёжности предсказания. Это критически важно для принятия решений.

Какие датасеты используются для обучения?

Зависит от задачи: ESOL и AqSolDB для растворимости, ChEMBL для logP и CYP, BindingDB для hERG, TDC AMES для токсичности. При малых датасетах используем трансферное обучение с предобучением на крупных химических корпусах.

Как интегрировать ADMET-модель в существующий пайплайн?

Разворачиваем модель как REST API (FastAPI/Flask) или Python-библиотеку. Предоставляем документацию, примеры и обучение команды. Возможна интеграция с KNIME, RDKit и другими инструментами хемоинформатики.

Разработка AI-системы предсказания свойств молекул (ADMET)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Разработка AI-системы предсказания свойств молекул (ADMET)

Сложный

от 2 недель до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1349
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Половина кандидатов в лекарства проваливается из-за ADMET-проблем — токсичности, нежелательного метаболизма, низкого всасывания. Каждая такая молекула отнимает миллионы долларов на этапе доклиники. Мы разрабатываем AI-системы, предсказывающие ADMET с точностью, достаточной для отбора молекул до синтеза. По данным Nature Reviews Drug Discovery, около 50% неудач связаны именно с ADMET.

Почему критично предсказывать ADMET на ранних стадиях?

Позднее обнаружение ADMET-проблем — одна из главных причин срыва клинических испытаний. Например, блокада hERG-канала ведёт к летальной аритмии и отзыву препарата с рынка. Наша модель, обученная на тысячах соединений, выявляет такие риски за секунды. Точность предсказания hERG inhibition превышает 85% ROC-AUC. Типичный проект по внедрению ADMET-модели экономит значительные средства на доклинических исследованиях и сокращает цикл разработки на 12–18 месяцев.

Какие модели показывают лучшие результаты для ADMET?

Graph Neural Networks (MPNN, D-MPNN) — современный стандарт. GNN превосходят fingerprint+ML на 15–20% по ROC-AUC на бенчмарках Therapeutics Data Commons (TDC). Но для небольших датасетов хорошо работают XGBoost на ECFP4-отпечатках — быстрее и интерпретируемее. Мы комбинируем оба подхода в ансамбле.

Подход	Точность (ROC-AUC)	Интерпретируемость	Скорость инференса
ECFP + XGBoost	0.75–0.82	Высокая (SHAP)	<1 мс на молекулу
GNN	0.83–0.92	Средняя (внимание)	2–5 мс на молекулу
Multitask GNN	0.85–0.94	Средняя	2–5 мс на все задачи

Multitask обучение объединяет 20+ ADMET-задач в одной модели. Shared representations улучшают предсказание для свойств с малым количеством данных. Например, модель обучается на solubility, logP и hERG одновременно.

from chemprop import args, data, featurizers, models, train

# Chemprop — state-of-the-art для молекулярного ADMET
arguments = [
    '--data_path', 'admet_train.csv',
    '--dataset_type', 'regression',
    '--target_columns', 'solubility logP hERG_inhibition caco2_permeability',
    '--smiles_columns', 'smiles',
    '--epochs', '50',
    '--batch_size', '64',
    '--ffn_num_layers', '3',
    '--dropout', '0.1',
    '--save_dir', 'admet_model',
]
args.parse_train_args(arguments)
train.cross_validate(...)

Помимо ROC-AUC, мы используем PR-AUC, F1-score и коэффициент калибровки (Expected Calibration Error). Для задач регрессии — RMSE и R².

Как повысить точность предсказания метаболизма CYP450?

Предсказание метаболизма ферментами семейства CYP450 — одна из сложнейших задач ADMET. Изоформы CYP3A4, CYP2D6, CYP2C9 метаболизируют большинство лекарств. Для повышения точности применяем multi-task обучение с добавлением дескрипторов молекулярного докинга. Такая модель достигает F1-score 0.88 на тесте, что на 8% лучше single-task аналога.

Метод оценки неопределённости	Достоверность интервалов	Вычислительная сложность
Deep Ensembles	95% покрытие	Высокая (5 моделей)
Conformal Prediction	90% покрытие	Низкая (после калибровки)
MC Dropout	85% покрытие	Средняя (50 forward passes)

Как оценивается неопределённость предсказаний?

Модель может быть ненадёжна для молекул, далёких от обучающего распределения. Мы используем Conformal Prediction — метод, дающий статистически строгие предсказательные интервалы без предположений о распределении. При выходе за applicability domain система выдаёт явное предупреждение "low confidence prediction". Мы применяем несколько методов определения applicability domain: Tanimoto similarity к ближайшим соседям, leverage (Williams plot) и расстояние до k-NN в пространстве эмбеддингов.

Что входит в результат

Обученная модель (формат ONNX или TorchScript)
REST API с документацией OpenAPI
Отчёт с метриками (ROC-AUC, PR-AUC, калибровка)
Анализ области применимости и неопределённости
Обучение команды работе с моделью
Гарантийная поддержка 3 месяца

Как мы работаем

Анализ задач: определяем целевые ADMET-свойства, собираем и чистим датасеты.
Моделирование: экспериментируем с архитектурами, подбираем гиперпараметры (Weights & Biases).
Валидация: кросс-валидация, тестирование на held-out сетах, проверка на внешних бенчмарках.
Интеграция: развёртывание на вашей инфраструктуре (SageMaker, Vertex AI) или on-premise.
Передача: код, модель, документация, обучение.

Сроки: от 3 недель для одной задачи до 3 месяцев для полноценной multitask-системы. Стоимость рассчитывается индивидуально — свяжитесь с нами, и мы подготовим коммерческое предложение.

Наши компетенции

5+ лет опыта в AI для drug discovery, более 50 реализованных проектов в области молекулярного моделирования. Гарантируем качество и соблюдение сроков. Используем современный стек: PyTorch, Hugging Face Transformers, Chemprop, RDKit, Weights & Biases. Закажите бесплатный анализ ваших данных — мы проверим их пригодность для ADMET-моделирования и предложим оптимальную архитектуру. Получите консультацию прямо сейчас, отправив запрос через форму на сайте.

Отраслевые AI-решения: медицина, финансы, ритейл, производство

Мы сталкиваемся с одной и той же болью: горизонтальная модель текста не различает медицинскую номенклатуру, а стандартный детектор объектов путает «царапину на шве сварки» с «царапиной на корпусе». Каждый раз это разные дефекты с разными последствиями. Чтобы этого избежать, мы строим отраслевые решения поверх общих методов, но с глубоким знанием домена — от регуляторики до специфики данных. За 5 лет мы провели 80+ проектов в финтехе, медицине, ритейле и производстве, и ни один не обошёлся без адаптации под конкретный business case.

Медицина: регуляторный лабиринт и data governance

Медицинский AI отличается не техническими алгоритмами, а compliance-first подходом. В зависимости от страны применения модель может быть медицинским изделием класса II или III, требующим клинических испытаний (FDA, CE MDR, ГОСТ Р). Мы гарантируем соблюдение этих норм на этапе архитектуры — править постфактум в 10× дороже.

Медицинская визуализация. Детекция на рентгенограммах, КТ, МРТ — зрелая область. Модели на ResNet, EfficientNet, SegFormer достигают AUC 0.94–0.97 на стандартных задачах (пневмония на CXR, полипы на колоноскопии). Ключевая проблема — generalization: модель, обученная на данных одного производителя сканера, деградирует на другом из-за различий в preprocessing и артефактах. Решение — domain adaptation через MONAI (Medical Open Network for AI) от NVIDIA, в котором встроены DICOM-loading, 3D augmentation и confidence calibration. TotalSegmentator — для автоматической сегментации 117 структур на КТ, production-ready, лицензия Apache 2.0.

Clinical NLP. Извлечение структурированной информации из клинических записей: диагнозы (ICD-10/11), назначения, даты, показатели. medspaCy, scispaCy, MedCAT — специализированные NLP-библиотеки с онтологиями (SNOMED-CT, UMLS). Fine-tuning BioBERT или ClinicalBERT на наших данных даёт F1 0.85–0.92 на NER задачах против F1 0.65–0.72 у общего BERT. Это мы проверяли на проекте с региональным онкологическим центром — точность извлечения стадий рака выросла на 23%.

Clinical decision support. LLM-ассистенты для поддержки клинических решений — регуляторно серая зона. Мы используем RAG-систему поверх клинических гайдлайнов (UpToDate, локальные протоколы) с явным указанием источника каждого утверждения. Модель не диагностирует, а помогает найти релевантный протокол. Стек: LlamaIndex + pgvector + pubmedbert-base-embeddings + Llama Guard для safety. Данные в DICOM/HL7 FHIR, on-premise деплой обязателен.

Что входит в работу по медицинскому проекту:

Аудит данных и регуляторной карты (FDA/CE/ГОСТ)
Выбор архитектуры под тип медицинского изделия
Разработка и валидация модели (AUC, sensitivity, specificity)
Интеграция с PACS/EHR (HL7 FHIR)
Подготовка документации для CE-маркирования (если требуется)
Обучение персонала работе с моделью

Финансы: как обеспечить интерпретируемость скоринговой модели под требования Basel IV?

Финансовый сектор — один из самых зрелых по применению ML, но зарегулированность здесь максимальна. Каждая модель, влияющая на кредитные решения, подпадает под Basel IV, EU AI Act, GDPR Article 22. Мы это проходили — в 2023 году внедрили скоринговую модель для банка из топ-10, где каждая запись требовала объяснения по SHAP.

Кредитный скоринг. Gradient boosting (LightGBM, XGBoost) — доминирует. Нейронные сети дают +0.5–2% AUC, но теряют интерпретируемость. Стандарт: LightGBM + SHAP для объяснения каждого решения. Обязательна проверка на fairness: Fairlearn или aif360 для аудита disparate impact по protected attributes (возраст, пол). Класс «дефолт» составляет 1–5% — при имбалансе 1:30 модель с accuracy 97% может иметь recall 0.2. Решение: focal loss, class_weight='balanced', SMOTE + careful validation.

Алгоритмический трейдинг и риск-менеджмент. LSTM и Transformer для прогноза цен — популярны, но в production нестабильны из-за нестационарности финансовых рядов. Более надёжный подход: ML для signal generation (классификация: рост/падение за горизонт N) с традиционным portfolio optimization сверху. Backtesting через Zipline-Reloaded, vectorbt, QuantLib. Критичен правильный backtesting — look-ahead bias убивает результаты. Мы гарантируем чистоту эксперимента: все данные на момент сигнала доступны в реальном времени.

AML (Anti-Money Laundering). Graph Neural Networks для анализа транзакционных сетей — активно развивающаяся область. PyG, DGL для GNN. Задача: обнаружить suspicious patterns в графе транзакций (layering, structuring). Recall критичнее precision — лучше 10 ложных тревог, чем пропустить отмывание. В проекте для крупного платёжного сервиса мы повысили recall на 18% без увеличения false positive rate.

Что входит в работу по финансовому проекту:

Аудит данных и регуляторных требований (Basel, EU AI Act)
Выбор модели и обеспечение explainability (SHAP, LIME)
Проверка fairness и отсутствие bias
Интеграция с core banking / trading systems
Документация и compliance-отчётность
Мониторинг дрейфа модели и ретейн

Ритейл и e-commerce: рекомендательные системы и demand forecasting

Рекомендательные системы. Архитектурный стандарт последних лет: two-tower модель для retrieval + ranking с cross-features. TensorFlow Recommenders или Merlin от NVIDIA для GPU-accelerated feature processing. Для небольших каталогов (<100k item) достаточно LightFM. Частая ошибка — обучать на implicit feedback без учёта position bias. Решение: IPW (Inverse Propensity Weighting) или randomized logging на части трафика. Срок разработки базовой рекомендательной системы — 4–8 недель, включая A/B-тест.

Demand forecasting и inventory optimization. Иерархическое прогнозирование: SKU → категория → магазин → регион. HierarchicalForecast от Nixtla автоматически согласует прогнозы по уровням. TFT или N-HiTS для базового прогноза, gradient boosting для adjustment на экзогенных факторах (промо, погода, события). Один проект в ритейле привёл к снижению сток-аутов на 15% за счёт точного промо-калибровки.

Visual search и размерная совместимость. CLIP-embeddings для поиска по изображению — деплоится за 2–3 недели: clip-ViT-B-32 или clip-ViT-L-14, индекс Faiss или Qdrant, REST API. Для size recommendation — специфические модели на данных возвратов и отзывов с указанием fit.

Что входит в работу по ритейл-проекту:

Анализ данных транзакций, товаров, клиентов
Выбор архитектуры (collaborative / content-based / hybrid)
Разработка и оценка качества (NDCG, recall@k, MRR)
A/B-тест и мониторинг business impact
Поддержка версионирования и переобучения моделей

Производство: инспекция качества и predictive maintenance

Quality control и дефектоскопия. CV-модели для инспекции продукции — одна из наиболее зрелых отраслевых задач. YOLOv10 для детекции дефектов, SegFormer для сегментации. Специфика: дисбаланс классов (дефекты редки), высокие требования к recall (пропуск дефекта хуже ложной тревоги). Типичный набор данных: 500–2000 изображений с дефектами + 500–1000 нормальных. Few-shot learning через DINO или SAM 2 позволяет работать с 50–100 аннотированными примерами. Мы получили опыт на линии по производству электроники — recall 0.95 при FPR 0.03.

Predictive maintenance. Вибрационные датчики, токовые датчики, термопары → feature extraction → аномалия или классификация режима. Модели: LSTM-AE для unsupervised, LightGBM для supervised (если есть история отказов). Интеграция с SCADA/OPC-UA через opcua-asyncio или MQTT. Ключевая метрика: False Negative Rate — пропущенный предотказ стоит дороже ложной тревоги. Порог настраивается под бизнес-стоимость каждого типа ошибки. Сроки: от 3 до 6 месяцев до production.

Digital twin и симуляция. Surrogate models — ML-модели, заменяющие дорогостоящее физическое моделирование. Если CFD-симуляция занимает 6 часов, а surrogate (обученная на 10 000 симуляций) — 0.01 секунды, это 2 000 000× ускорение для оптимизации. SALib для sensitivity analysis, botorch для Bayesian optimization поверх surrogate.

Что входит в работу по производственному проекту:

Аудит данных сенсоров / изображений
Выбор модели под задачу (CV / time series / vibro)
Разработка пайплайна (ETL, feature engineering, training)
Развёртывание на Edge / on-premise
Мониторинг и ретейн модели

Общие принципы отраслевого AI

Независимо от отрасли, есть паттерны, работающие везде. Данные важнее архитектуры. В медицине 1000 качественно размеченных снимков лучше 100 000 плохих. В производстве 200 реальных примеров дефектов ценнее 10 000 синтетических. Compliance-first design — регуляторные требования проще встроить в архитектуру с начала, чем добавить позже. Логирование, объяснимость, версионирование — с первого дня. Domain expert в команде — ML-инженер без domain knowledge делает медленно и с ошибками то, что ML-инженер плюс врач/финансист/технолог сделают быстро и правильно.

Мы гарантируем сертификацию под требования заказчика (ISO 13485, SOC 2, GDPR) и предоставляем полную документацию модели (model card, datasheet, compliance report). Наш опыт — 10 000+ часов инженерной практики и 80+ проектов.

Как проходит работа над отраслевым AI-решением?

Погружение в домен (2–3 дня) — интервью с экспертами, изучение регуляторных требований, аудит доступных данных.
Проектирование MVP (1–2 недели) — выбор стека, архитектуры, оценка feasibility.
Разработка и валидация (от 4 недель до 6 месяцев в зависимости от отрасли) — обучение модели, тестирование, compliance.
Интеграция и деплой (1–4 недели) — on-premise / cloud / edge, документация, обучение персонала.
Поддержка и мониторинг — дрейф модели, ретейн, SLA.

Ориентировочные сроки:

Тип решения	Минимальный срок	Полный цикл с compliance
Retail recommendation	4–8 недель	3–6 месяцев
Credit scoring	6–12 недель	6–12 месяцев
Medical imaging	12–24 недели	12–24 месяца (с CE)
Predictive maintenance	8–16 недель	3–6 месяцев

Стоимость рассчитывается индивидуально под каждый проект. Получите консультацию — оценим ваш датасет, регуляторную карту и бизнес-цели.

Почему стоит заказать отраслевое AI-решение у нас?

80+ реализованных проектов в финтехе, медицине, ритейле и производстве.
5 лет на рынке — устойчивый опыт работы с compliance и деплоем.
Гарантия качества: мы отвечаем за достижение целевых метрик (AUC, recall, latency p99) и предоставляем полную документацию.
Лицензированные технологии: PyTorch, MONAI, LightGBM, Qdrant — используем open-source с коммерчески безопасными лицензиями.
Гибкость: работаем как подрядчик, так и в роли усиления вашей команды.

Свяжитесь с нами — обсудим вашу задачу и подготовим коммерческое предложение с планом работ.