Разработка AI-системы виртуального скрининга молекул (Virtual Screening)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Разработка AI-системы виртуального скрининга молекул (Virtual Screening)
Сложная
от 2 недель до 3 месяцев
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1240
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1167
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    867
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1084
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    563
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    829

Разработка AI-системы виртуального скрининга молекул Virtual Screening

Виртуальный скрининг — компьютерный отбор кандидатов из больших молекулярных библиотек до физического синтеза и тестирования. AI превращает скрининг миллиардов молекул из недостижимой задачи в рутинную операцию.

Методы виртуального скрининга

Ligand-based screening (LBVS)

Использует информацию о известных активных молекулах. Если у нас есть набор активных молекул против таргета — ищем похожие.

  • Similarity search: молекулярные fingerprints (Morgan/ECFP, MACCS) + Tanimoto coefficient. Быстро, масштабируется до миллиардов
  • Pharmacophore modeling: выявление ключевых 3D-фармакофорных точек активных молекул → поиск молекул с той же spatial arrangement
  • QSAR (Quantitative Structure-Activity Relationship): ML-модель предсказывает pIC50 по структурным признакам

Structure-based screening (SBVS)

Использует 3D-структуру таргетного белка. Молекулы докируются в активный сайт.

Узкое место классического SBVS: докинг 1 молекулы занимает секунды → 1 млрд молекул = 30 лет CPU. AI решения:

  • Surrogate ML-модели: быстрый ML-скоринг (миллисекунды) заменяет докинг как pre-filter
  • Neural Network Potentials для скоринга: более точная оценка связывания
  • Ultra-large scale docking: Glide SP, DOCK6 оптимизированы для 10⁹ масштабов при правильной инфраструктуре

Ultra-Large Library Screening

Enamine REAL Space: 36 миллиардов synthetically accessible молекул. Как эффективно скринировать?

Молекулярные embeddings

Обучение encoder (Transformer или GNN) для компактного векторного представления молекул. Поиск ближайших соседей в embedding space в миллисекунды. FAISS (Facebook AI Similarity Search) для индексирования миллиардов векторов.

Генеративный скрининг (make-on-demand)

Вместо скрининга готовой библиотеки — генерация новых молекул с нужными свойствами в пространстве синтетически доступных структур. Reinvent, SAFE (IUPAC), Synthetically Accessible Drug Space.

Иерархическое сужение (funnel approach)

Billion-scale library
    → Fast ML pre-filter (Tanimoto/embedding): 10⁹ → 10⁶
    → QSAR activity filter: 10⁶ → 10⁵
    → Fast docking: 10⁵ → 10⁴
    → Accurate docking (Glide XP): 10⁴ → 10³
    → FEP calculation: 10³ → 100
    → Synthesis & experimental validation: ~50

Каждый уровень: более медленный, но более точный метод. Throughput каждого уровня подобран к пропускной способности следующего.

Active Learning для скрининга

Традиционный VS: случайная выборка для тестирования. Active Learning: ML-модель выбирает, какие молекулы наиболее информативны для следующей итерации экспериментов.

Цикл:

  1. Инициальный датасет (1000 молекул с измеренной активностью)
  2. Обучение суррогатной модели
  3. Acquisition function выбирает следующие 100 молекул (Expected Improvement, UCB)
  4. Синтез + тест
  5. Повторить

Сокращение числа необходимых синтезов: в 5–20 раз для нахождения активных хитов по сравнению с random screening.

Метрики эффективности скрининга

Метрика Описание
Enrichment Factor (EF) Во сколько раз активных молекул больше в топ-X%, чем в случайной выборке
AUC (ROC) Дискриминация активных / неактивных
BEDROC Взвешенная метрика с упором на top hits
Hit Rate % активных среди синтезированных кандидатов

Цель: EF@1% > 50 (в топ 1% молекул в 50 раз больше активных, чем в случайной выборке).

Инфраструктура для billion-scale скрининга: GPU-кластер (8–32 A100), distributed inference с Ray или Dask, object storage для молекулярных данных. Полный скрининг 1B молекул: 24–72 часа в зависимости от глубины анализа.