Почему машинное обучение на федерализированых данных* мало что сможет сделать для преодоления глубоко укоренившейся субъективности в клинической медицине: письмо в редакцию (Intensive Care Med, июнь 2024)

Мы с большим интересом прочитали статью van Genderen et  al. [1], авторы которой предоставили современный и всеохватывающий обзор потенциала, что несет в себе доступ к федерализированным данным и обмен данными в интенсивной терапии. Важно то, что авторы указали основной недостаток такого подхода, а именно глубоко укоренившуюся в клинической практике субъективность (предубеждения). Авторы заявляют, что это может быть преодолено за счет «обеспечения адекватного представительства госпиталей из всех уголков мира, что приведет к созданию более полных и разнообразных наборов медицинских данных». Мы согласны с тем, что использование разнообразных и всеобъемлющих наборов медицинских данных станет первым шагом к созданию ясных и четких алгоритмов машинного обучения. Но мы абсолютно не уверены в том, что это поможет эффективно преодолеть глубоко укоренившиеся субъективность и предубеждения в системе медицинских знаний, созданной вокруг нескольких избранных групп. Даже при наличии данных высокого качества из отделений интенсивной терапии со всего мира, имеющиеся на сегодня социальные паттерны в процессе сбора данных способствуют созданию искусственного интеллекта (ИИ), который будет направлен не только на сохранение, но и на увеличение существующих различий в оказании медицинской помощи, что еще больше увеличит неравенство в оказании медицинской помощи. И этому есть множество примеров имеющихся проблем с данными, что проистекают из социальных паттернов процесса сбора и генерации данных (Рис.1). 

К этим примерам относятся (но не ограничиваются только ими): (1) различающаяся производительность медицинских устройств, измеряющих физиологические сигналы среди популяций пациентов, а ярким примером этого служит пульсоксиметр, но это только верхушка айсберга [2]; (2) различия в частоте тестирования среди популяций пациентов, которые нельзя объяснить клиническими факторами [3]; (3) расхождения в обеспечении рутинного медицинского ухода, когда предполагается, что в этом неравенства не существует [4]. Все эти проблемы с данными не могут быть обнаружены десятками и даже сотнями команд, поскольку решение требует недостижимого для обучения на федерализированных данных уровня когнитивного разнообразия. Представляется невероятным, что отдельные госпитали, особенно за пределами больших академических центров, способны содержать междисциплинарную команду, которая сможет выявить вкрапленные в электронные истории болезни субъективность и предубеждения. 

Федерализация данных и машинное обучение на них представляют собой многообещающую модель, позволяющую сохранить в неприкосновенности конфиденциальные данные пациентов. Но это очень дорого обходится: нераскрытые проблемы с данными приводят к выработке моделью ложных ассоциаций, которые включаются в алгоритм. Мы не верим в то, что имеется некая группа, знаний которой достаточно для выявления всех проблем с данными и построения четких и ясных моделей. И если вдруг некая группа объявит о таком навыке, то это и есть искусственный интеллект в действии: высокомерие и невежество (AI in action: arrogance and ignorance). Все эти обещания и вся эта шумиха вокруг ИИ принесут пользу только тогда, когда сообщество специалистов интенсивной терапии станет более тесно сотрудничать с учеными компьютерщиками, с социологами, с пациентами и людьми, осуществляющими уход за пациентами в целях лучшего понимания предыстории больших данных и разработок систем управления и аналитики, направленных на обеспечение объективности и справедливости.

References 

1. van Genderen ME, Cecconi M, Jung C (2024) Federated data access and federated learning: improved data sharing, AI model development, and learning in intensive care. Intensive Care Med. https:// doi. org/ 10. 1007/ s00134‑ 024‑ 07408‑5

2. Wong A‑KI, Charpignon M, Kim H et al (2021) Analysis of discrepancies between pulse oximetry and arterial oxygen saturation measurements by race and ethnicity and association with organ dysfunction and mortal‑ity. JAMA Netw Open 4:e2131674. https:// doi. org/ 10. 1001/ jaman etwor kopen. 2021. 31674 

3. Teotia K, Jia Y, Link Woite N et al (2024) Variation in monitoring: glucose measurement in the ICU as a case study to preempt spurious correlations. J Biomed Inform 153:104643. https:// doi. org/ 10. 1016/j. jbi. 2024. 104643 4. Abdelmalek FM, Angriman F, Moore J et al (2024) Association between patient race and ethnicity and use of invasive ventilation in the United States. Annals ATS 21:287–295. https:// doi. org/ 10. 1513/ Annal sATS. 202305‑ 485OC

Источник: https://doi.org/10.1007/s00134-024-07491-8

*Для справки: федерализация данных обеспечивает единое виртуальное видение разнородных источников данных. При этом данные фактически хранятся в разных по составу и структуре источниках, информация в которых может частично дублироваться. Источники остаются полностью автономными. Интеграция данных сводится к интеграции схем хранения и созданию программного компонента (процессора федерализации), обеспечивающего прозрачный доступ к физически распределенным данным [https://cyberleninka.ru/article/n/printsipy-integratsii-dannyh-v-sfere-nedropolzovaniya]