Разработка AI-системы прогнозирования рисков заболеваний
Предиктивная медицина — переход от лечения к предотвращению. AI-модели риска позволяют вмешиваться до появления заболевания, когда профилактические меры наиболее эффективны и дёшевы.
Задачи прогнозирования рисков
Популяционный скрининг Выявление высокорисковых пациентов среди всего прикреплённого населения для активного приглашения на обследование. Применение: диабет 2 типа, ССЗ, онкологические заболевания, хроническая болезнь почек.
Индивидуальное прогнозирование 10-летний риск сердечно-сосудистого события (Framingham, SCORE2 — классические модели vs. ML). ML-модели превосходят классические risk scores за счёт:
- Нелинейных взаимодействий признаков
- Большего числа предикторов
- Обучения на местных популяционных данных
Прогрессия заболевания Пациент с ранней стадией — когда перейдёт в тяжёлую? Диабетик — риск нефропатии/ретинопатии. Модели выживаемости (Cox PH, Random Survival Forest, DeepHit) с time-to-event endpoints.
Источники данных
Структурированные EHR-данные
- Диагнозы (МКБ-10 коды), процедуры (ОККН)
- Лабораторные данные: глюкоза, HbA1c, липиды, ОАК, биохимия
- Лекарственные назначения
- Витальные показатели из визитов
- Демография
Геномные данные SNP (однонуклеотидные полиморфизмы) для полигенных score рисков. BRCA1/2 для рака молочной железы, ApoE4 для болезни Альцгеймера, PCSK9 для ССЗ. Полигенный риск-score (PRS) = взвешенная сумма тысяч SNP. Задача ML: оптимальное взвешивание для конкретной популяции.
Образ жизни и социальные факторы Курение, алкоголь, физическая активность, индекс массы тела, питание, психосоциальный стресс, уровень образования, доступ к медицине. Из EMR, опросников, носимых устройств.
Модели и валидация
Для табличных EHR-данных XGBoost и LightGBM — доминирующие подходы на реальных медицинских данных. Преимущества: обработка пропущенных значений, интерпретируемость через SHAP, хорошо работает на небольших выборках.
Для временных рядов (продольные EHR) Transformer-based модели (BERT на медицинских кодах: BEHRT, Med-BERT). Пациент = последовательность медицинских событий во времени. Предобучение на огромных EMR базах → fine-tuning на специфические риск-задачи.
Calibration обязателен Risk score "68%" должен означать именно 68% вероятность. Platt scaling или isotonic regression после обучения. Calibration plot (reliability diagram) — обязательная метрика в статьях и при валидации.
Валидация модели риска
| Метрика | Клинический смысл |
|---|---|
| AUC-ROC | Дискриминация: отделяет больных от здоровых |
| AUC-PR | При сильном дисбалансе классов (редкие события) |
| Brier Score | Общая точность вероятностных предсказаний |
| Net Benefit / Decision Curve | Клиническая полезность при конкретных пороговых решениях |
| NRI, IDI | Улучшение vs. существующего risk score |
Внешняя валидация на данных другой клиники — обязательна перед клиническим применением.
Внедрение в популяционное здоровье
Stratification и outreach
Пациенты стратифицируются по risk score: высокий риск → активный outreach (звонок, приглашение на скрининг, усиленный мониторинг). Средний риск → профилактические сообщения. Низкий риск → стандартный режим.
Integration in EMR
Risk score отображается в карте пациента при посещении врача. Врач видит: "Риск развития ССЗ в 10 лет: 23% (высокий). Основные факторы: АГ, дислипидемия, курение." SHAP-объяснение конкретного пациента.
Возврат на вложения: снижение hospitalizations через профилактику. В популяции 100k человек → выявление 1500–2000 высокорисковых → вмешательство → предотвращение 200–400 госпитализаций.







