Разработка AI-системы виртуального скрининга молекул Virtual Screening
Виртуальный скрининг — компьютерный отбор кандидатов из больших молекулярных библиотек до физического синтеза и тестирования. AI превращает скрининг миллиардов молекул из недостижимой задачи в рутинную операцию.
Методы виртуального скрининга
Ligand-based screening (LBVS)
Использует информацию о известных активных молекулах. Если у нас есть набор активных молекул против таргета — ищем похожие.
- Similarity search: молекулярные fingerprints (Morgan/ECFP, MACCS) + Tanimoto coefficient. Быстро, масштабируется до миллиардов
- Pharmacophore modeling: выявление ключевых 3D-фармакофорных точек активных молекул → поиск молекул с той же spatial arrangement
- QSAR (Quantitative Structure-Activity Relationship): ML-модель предсказывает pIC50 по структурным признакам
Structure-based screening (SBVS)
Использует 3D-структуру таргетного белка. Молекулы докируются в активный сайт.
Узкое место классического SBVS: докинг 1 молекулы занимает секунды → 1 млрд молекул = 30 лет CPU. AI решения:
- Surrogate ML-модели: быстрый ML-скоринг (миллисекунды) заменяет докинг как pre-filter
- Neural Network Potentials для скоринга: более точная оценка связывания
- Ultra-large scale docking: Glide SP, DOCK6 оптимизированы для 10⁹ масштабов при правильной инфраструктуре
Ultra-Large Library Screening
Enamine REAL Space: 36 миллиардов synthetically accessible молекул. Как эффективно скринировать?
Молекулярные embeddings
Обучение encoder (Transformer или GNN) для компактного векторного представления молекул. Поиск ближайших соседей в embedding space в миллисекунды. FAISS (Facebook AI Similarity Search) для индексирования миллиардов векторов.
Генеративный скрининг (make-on-demand)
Вместо скрининга готовой библиотеки — генерация новых молекул с нужными свойствами в пространстве синтетически доступных структур. Reinvent, SAFE (IUPAC), Synthetically Accessible Drug Space.
Иерархическое сужение (funnel approach)
Billion-scale library
→ Fast ML pre-filter (Tanimoto/embedding): 10⁹ → 10⁶
→ QSAR activity filter: 10⁶ → 10⁵
→ Fast docking: 10⁵ → 10⁴
→ Accurate docking (Glide XP): 10⁴ → 10³
→ FEP calculation: 10³ → 100
→ Synthesis & experimental validation: ~50
Каждый уровень: более медленный, но более точный метод. Throughput каждого уровня подобран к пропускной способности следующего.
Active Learning для скрининга
Традиционный VS: случайная выборка для тестирования. Active Learning: ML-модель выбирает, какие молекулы наиболее информативны для следующей итерации экспериментов.
Цикл:
- Инициальный датасет (1000 молекул с измеренной активностью)
- Обучение суррогатной модели
- Acquisition function выбирает следующие 100 молекул (Expected Improvement, UCB)
- Синтез + тест
- Повторить
Сокращение числа необходимых синтезов: в 5–20 раз для нахождения активных хитов по сравнению с random screening.
Метрики эффективности скрининга
| Метрика | Описание |
|---|---|
| Enrichment Factor (EF) | Во сколько раз активных молекул больше в топ-X%, чем в случайной выборке |
| AUC (ROC) | Дискриминация активных / неактивных |
| BEDROC | Взвешенная метрика с упором на top hits |
| Hit Rate | % активных среди синтезированных кандидатов |
Цель: EF@1% > 50 (в топ 1% молекул в 50 раз больше активных, чем в случайной выборке).
Инфраструктура для billion-scale скрининга: GPU-кластер (8–32 A100), distributed inference с Ray или Dask, object storage для молекулярных данных. Полный скрининг 1B молекул: 24–72 часа в зависимости от глубины анализа.







