Разработка AI-системы для фармацевтики Drug Discovery ассистент
Разработка нового лекарства занимает 10–15 лет и стоит $2.6B (DiMasi et al.). AI сокращает этот путь не за счёт волшебства, а за счёт снижения числа тупиковых экспериментов через лучшее предсказание.
Этапы Drug Discovery, где работает AI
Target Identification
Выявление белков или генов, связанных с заболеванием. AI анализирует:
- Omics данные (геномика, протеомика, транскриптомика)
- Literature mining: миллионы публикаций PubMed — GNN выявляет скрытые связи ген-болезнь-лекарство
- Protein-protein interaction networks
Hit Identification
Поиск молекул-кандидатов из библиотек в 10⁶–10⁹ соединений. Задача: предсказать, какие молекулы будут связываться с target protein.
Подходы:
- Virtual screening: molecular docking с ML scoring функцией вместо медленного физического симулирования
- Generative design: VAE/Diffusion models генерируют новые молекулы de novo с заданными свойствами
- Graph Neural Networks: молекулы как молекулярные графы, предсказание активности
Lead Optimization
Превращение hit-молекулы в drug-like кандидата: оптимизация активности, селективности, фармакокинетики. Мультизадачное обучение на комбинированных датасетах ChEMBL, PubChem, ExCAPE.
Молекулярные GNN
Молекула = граф: атомы (узлы) + химические связи (рёбра). Node features: атомный номер, заряд, гибридизация, degree. Edge features: тип связи, ароматичность, кольцевая принадлежность.
import torch
from torch_geometric.nn import GCNConv, global_mean_pool
class MolecularGNN(torch.nn.Module):
def __init__(self):
super().__init__()
self.conv1 = GCNConv(in_channels=9, out_channels=64)
self.conv2 = GCNConv(64, 64)
self.conv3 = GCNConv(64, 128)
self.fc1 = torch.nn.Linear(128, 64)
self.fc2 = torch.nn.Linear(64, 1) # binding affinity prediction
def forward(self, x, edge_index, batch):
x = F.relu(self.conv1(x, edge_index))
x = F.relu(self.conv2(x, edge_index))
x = F.relu(self.conv3(x, edge_index))
x = global_mean_pool(x, batch)
x = F.relu(self.fc1(x))
return self.conv3(x) # predicted pIC50
Бенчмарки: QM9 (квантово-химические свойства), MoleculeNet, TDC (Therapeutics Data Commons).
ADMET предсказание
Absorption, Distribution, Metabolism, Excretion, Toxicity — более 50% кандидатов в клинических испытаниях проваливаются из-за ADMET проблем. Раннее предсказание экономит годы.
Предсказываемые свойства:
- Oral bioavailability (F%)
- Blood-brain barrier permeability
- CYP450 inhibition (лекарственные взаимодействия)
- hERG cardiac toxicity
- Ames test (genotoxicity)
- Aqueous solubility
Датасет: проприетарные данные фармкомпаний + публичные (ChEMBL, DrugBank). Модели: graph-based (лучше для структурных предсказаний) + fingerprint-based (Morgan, ECFP + GBM).
Generative Molecular Design
REINVENT (AstraZeneca)
RL-based генератор новых молекул: prior (RNN или Transformer, обученный на ChEMBL) + scoring function (ADMET, активность) → agent генерирует молекулы, максимизирующие reward.
Diffusion models для 3D молекул
DiffSBDD, TargetDiff генерируют 3D-конформации молекул с учётом формы связывающего кармана белка. Drug design "снизу вверх" от формы мишени.
Fragment-based design
Комбинирование известных фрагментов с желаемыми свойствами. AI предсказывает совместимость фрагментов и синтетическую доступность (synthesizability score — Synthetic Accessibility Score).
Практические результаты
- Галунисертиб (Eli Lilly): AI сократил virtual screening с 9 месяцев до 4 недель
- AlphaFold2: предсказание структур белков → база для structure-based drug design
- Insilico Medicine: первый AI-designed кандидат в клинических испытаниях Phase II (2023)
AI не заменяет химиков — он помогает направлять эксперименты туда, где вероятность успеха выше. Сокращение экспериментального цикла: 30–50% меньше синтезов до нахождения lead compound.







