Natural language processing в медицине критических состояний: возможности, проблемы и будущее. Мнение редактора (Intensive Care Med, январь 2025)

Наиболее часто под системой искусственного интеллекта (ИИ) понимают компьютерную систему, что может выполнять задачи, требующие наличия интеллекта, подобного тому, что используют люди при решении своих задач. ИИ разветвляется на множество областей или дисциплин, включая машинное обучение (machine learning [ML]), компьютерную визуализацию, представление знаний (knowledge representation), распознавание речи и обработку естественного языка (natural language processing [NLP]). Эти дисциплины перекрещиваются, к примеру, ML используется в компьютерной визуализации и NLP, поскольку инструменты для обработки изображений/текста могут быть созданы путем «обучения» на примерах. Очень полезно различать эти дисциплины от методов, что используются для решения задач. NLP — дисциплина ИИ, что использует возможности компьютера в обработке и интерпретации данных естественного языка. К типичным задачам для NLP относятся трансляция, извлечение информации, суммаризация, топическое моделирование, анализ эмоций, перевод речи в текст и ответы на вопросы [1]. Ниже мы проведем категоризацию методов решения этих задач на классические методы и методы, основанные на нейронных сетях. 

Классические технологии NLP, начиная с 60-х годов прошлого столетия до начала 2000-х, полагались на сочетание правил и статистических методов. В последующем эти технологии стали заменяться глубокими нейронными сетями (deep neural networks) и рекурсивными нейронными сетями (recurrent neural networks) с длительной кратковременной памятью (применяемые аббревиатуры здесь LSTM и RNNs), поскольку новые технологии умели моделировать временные аспекты речи лучше, чем их предшественники. Совсем недавно большие фундаментальные модели, что включают только текст и называемые большими языковыми моделями (large language models [LLMs]), предоставили новые возможности как для обработки, так и для понимания клинических текстов [2-4]. 

LLMs и другие фундаментальные модели уже предварительно обучены к генерации выходных данных в виде последовательности наиболее вероятных токенов (определение будет предоставлено ниже), вытекающих из последовательности токенов на входе. Токен — это число. В больших языковых моделях значение каждого токена представляет короткое слово или фрагмент слова (например, слово «unwell» принимает значения «un» и «well»). К примеру, фраза на входе «Что такое сепсис?» может на выходе принять последовательность в виде «сепсис — угрожающее жизни состояние, что возникает в результате ответа организма на инфекцию», так как статистически такой ответ наиболее вероятен и основывается на данных, что использовались для обучения. С помощью такой простой, на первый взгляд, модальности LLMs могут генерировать тексты [5]. Большими языковые модели называют потому, что размер нейронной сети огромен (GPT-3 имеет 176 миллиардов параметров; GPT-4o имеет практически один триллион параметров), как и огромен размер данных для их обучения. GPT-3 обучен на 500 миллиардах слов, в то время как GPT-4о обучен на гораздо большем массиве изображений и речи. В мультимодальных фундаментальных моделях токены могут представлять патчи изображений или звуковых сегментов, а не только текст. При этом мульти-модальные модели могут поддерживать прямое диалоговое общение (audio-to-audio), что в скором времени, возможно, позволит разрабатывать новые методы NLP. 

Очень важным практическим преимуществом LLMs является то, что они обучены прогнозированию наиболее вероятных последовательностей следующих слов/токенов, а данные для обучения к решению таких задач не нуждаются в ручной маркировке. Задача формируется простым предоставлением текста с несколькими скрытыми словами (words masked) и заданием LLMs задачи прогнозирования этих скрытых токенов. Такой подход, называемый самообучение без учителя (self-supervised learning), снижает зависимость от аннотированных человеком данных, что достаточно долгое время было самым узким местом для нейронных сетей. 

NLP: представление данных и отчетность

Интерес к NLP в медицине за последние 50 лет подтверждается логарифмическим ростом цитирования с появлением каждой новой ключевой разработки (Рис.1). Структурированные медицинские данные, включая частоту сердечных сокращений, уровень креатинина, состояние сознания используются врачами, учеными, администраторами и эпидемиологами для категоризации тяжести заболевания и оценки ответа на проводимую терапию. До недавнего времени клинические истории болезни, что ведут врачи, которые контекстуализируют эти структурные данные и предоставляют важную не числовую информацию, невозможно было включить в компьютерные системы и инструменты. С другой стороны, прогресс в NLP позволяет извлекать важную информацию из не структурированных клинических записей с электронными историями болезней (Electronic Health Records [EHR]).                

Наиболее ранние приложения NLP с 1970-х годов фокусировались на простом поиске по ключевым словам. Статистические методы NLP были представлены в 1990-х и в начале 2000-х и эти методы уже позволяли извлечение важной информации из комплексных клинических записей. NLPs показали, что они могут выявлять состояния на уровне, сравнимом с клиницистами, превосходя при этом простой поиск по ключевым словам. Несмотря на то, что такой подход заложил фундамент, ему не хватало возможностей для решения таких сложных вопросов клинического языка, как грамматическая многозначность, отрицание и синонимия [6]. К тому же использование технических специалистов по вводу данных, чтения и ручного кодирования, как, впрочем, и определение правил для маркеров заболеваний без прямого участия врачей, очень сильно замедлило прогресс в этой области. Самые первые исследования выявили проблемы в виде  ограниченной применимости этих инструментов за пределами обучающей среды и сомнений в отношении предвзятости и негибкости системы [6]. 

Современное применение NLP в медицине критических состояний

Наиболее важной сферой применения NLP в медицине критических состояний является извлечение структурированной информации из неструктурированного текста. Этом может быть использовано в качестве ключевых входных данных для моделей прогнозирования клинических исходов в виде госпитальной летальности, риска повторной госпитализации и диагноза на момент выписки из стационара. Другими сферами применения могут стать выявление пациентов, подходящих для клинических исследований, и улучшение документооборота и рабочих процессов [2, 7-9]. В отношении идентификации пациентов, подходящих для включения в исследование, платформа CogStack® , к примеру, комбинирует структурированные и неструктурированные данные, приводя к снижению мануальной нагрузки на 85%, тем самым улучшая эффективность клинических исследований и сбор данных в медицине критических состояний [8]. В качестве инструмента повышения эффективности прогнозирования летальности путем включения данных из клинических записей, методы NLP в значительной степени улучшают точность прогнозирования летальности [10]. Системы NLP могут использовать такие термины, как «статус кода» (code status), «семейная встреча» (family meeting) и «паллиативный уход» (palliative care), что интуитивно указывает на возрастающую вероятность госпитальной летальности. Эти термины усиливают ассоциативное моделирование со смертью и показывают возможности текстовых данных для контекстуализации клинических переменных [4].  

На сегодня, даже не смотря на имеющуюся рекомендацию по использованию NLP в целях снижения транскрипции или предоставления сводок в реальном времени, это не реализовано [11]. Байесовская сеть, интегрированная в электронные истории болезни, что оценивала результаты радиологии с использованием NLP, проводила автоматический расчет тяжести заболевания и выдавала рекомендации по менеджменту пациентов с пневмонией. Эти система снизила трансферы из ОИТ и 30-дневную летальность от всех причин, показывая возможности инструментов с NLP в продвижении ухода, основанного на доказательствах, и в улучшении исходов пациентов [12]. 

Текущие тарификация и кодирование болезней (международная классификация болезней) часто страдают отсутствием детализации и не отражают сложные состояния. NLP может стать помощником в выявлении состояний, что не представлены в виде структурированных данных, как, например, перечисление медицинских состояний свободным текстом или классификация остроты зрения на основании предыдущих клинических записей [13-15]. Простой NLP подход при анализе текстов с использованием ключевых слов типа «гемодиализ» показал точное выявление пациентов, которые подвергались диализу, и это было быстрее и точнее, чем при использовании кодов МКБ, когда подобное точное выявление пациентов с диализом оказалось невозможным [14]. 

В то время как классические методы NLP, оптимизированные для решения конкретных задач, могут эффективно работать при стандартных оценках, универсальность и адаптивность LLMs, особенно с подсказками и тонкой настройкой, делают их высоко конкурентными при решении сложных задач по извлечению информации [2]. Исследования, что сравнили классические NLP методы с глубоко обученными LLMs, показали превосходство последних в определенных обстоятельствах [7, 10]. Более того, LLMs выигрывают от снижения зависимости от аннотируемых человеком данных за счет применения самообучения без учителя, как это было описано ранее. 

Самым заметным ограничением LLMs является то, что у них отсутствует прозрачность и объяснимость, так как их выходные данные зависят от расчетов, что проводятся в миллионах небольших вычислительных блоков, поэтому никогда не ясно точно, как LLMs пришли к результату на выходе. Все это, наряду с тем фактом, что выходные данные имеют элементы случайности, приводит к большим сложностям при проверке и изучении. Решение этих ограничений является субъектом продолжающихся исследований, но на сегодня классические методы NLP могут быть предпочтительнее, когда необходимы прозрачность и объяснимость. NLP, вероятно, необходимо использовать для автоматического извлечения структурированных клинических записей в контексте регуляторных требований и стандартов безопасности пациента, что требуют интерпретируемости, прослеживания, стабильности данных и эффективного использования ресурсов. LLMs могут служить в качестве помощника в выявлении характеристик, что может определить NLP с дальнейшей интеграцией в эти технологии. Примером такого использования могут стать медицинские счета на оплату, де-идентификация программного обеспечения, поиск медико-биологической литературы, что все еще полагаются на NLP технологии.

Систематический и нормативный контроль в виде внедрения реестров ИИ, наличие эталонных баз данных и лучший дизайн исследований, направленный больше на клинические процессы, а не на доступные базы данных, укрепят доверие и ускорят внедрение ИИ в клинические процессы [16-19]. Но при этом остается неясным, как эти реестры обеспечат достоверность алгоритмов тогда, когда характеристики, обеспечивающие выходные данные LLMs, часто скрыты, а точные методы оценки сохранения стабильности их работы так еще и не разработаны. Более того, когда решения, порожденные LLMs, начинают появляться в базах данных, используемых для обучения этих алгоритмов, возникает серьезных риск коллапса модели.   

Проблемы и пути их решения 

Несмотря на все перспективы, NLP в медицине критических состояний сталкивается с несколькими проблемами, от необходимости в тестировании эффективности до обеспечения прозрачности и доверия к системам, в которые установлена LLM. Первым риском интеграции NLP/LLMs в рабочие процессы является потенциальная возможность самореализующийся предвзятости [14, 20, 21]. По причине того, что NLP все больше интегрируется в процессы принятия клинического решения, появляется риск, что работники здравоохранения смогут манипулировать документацией для раздувания прогностических шкал риска, что приведет к неэтичному поведению и искажению результатов. Дополнительной проблемой станет рост числа ошибок, особенно когда недостаточно изучены возможности в диагностике этих ошибок [21]. Более того, предварительная обработка текстовых данных влияет на производительность моделей, что только добавляет сложности к оценке влияния клинических записей на выходные данные моделей. Периодический аудит и ре-калибровка моделей станут необходимыми для снижения подобных рисков.

Отдельной проблемой среди всех приложений машинного обучения и NLP является требование к значительному разнообразию обучающих данных. Большинство исследований в области медицинского ИИ при терапии критических состояний основаны на одной базе данных, в то время как только 5% исследований, изучивших LLM в медицинской сфере, используют актуальные базы данных пациентов [16]. Во многих исследованиях для обучения и/или изучения используются когорты пациентов из одного региона [7]. Уже показана алгоритмическая предвзятость систем ИИ для определенных групп пациентов, когда незащищенными оказывались группы пациентов по расовым, половым или социо-экономическим признакам, так что полная оценка клинической эффективности ИИ в реальном мире требует изучения баз данных, которые охватывают широкий спектр демографических данных пациентов и заболеваний [16]. 

И, наконец, модели NLP, вероятно, более склонны к ошибкам в условиях эволюции паттернов/образов заболеваний и изменений в клинической практике. Медицина не стоит на месте и новые состояния, а также новые неблагоприятные эффекты новых видов лечения появляются задолго до того, как будут представлены в базах данных. Моделям NLP следует приспособляться к такому движению. Одним из самых больших препятствий является трудность в разработке решений, что могут быть обобщены среди различающихся условий оказания медицинской помощи. Уже имеются примеры того, как модели машинного обучения дают предвзятые результаты в различных медицинских учреждениях [22]. Изменения настолько быстры, что разработка и проведение исследований осуществляется с различающимися стандартами и методологиями и на ограниченных базах данных [7, 16, 23]. Новые версии LLM моделей разрабатываются настолько быстро, что предыдущие версии сразу оказываются сильно устаревшими. Каждые последующие модели потребуют внешней валидации и ре-калибровки среди различающейся клинической окружающей среды в условиях рандомизированных контролируемых исследований, в которых будут использоваться значимые клинические исходы [18].  

Вывод 

Мы приближаемся к новой эре в использовании данных о пациентов для контекстуализации событий и интерпретации информации, полученной с помощью машин, в целях получения ориентиров для процессов принятия клинических решений при лечении критически больных пациентов. Принятие и безопасное использование NLP, включая LLMs, потребует тщательной регуляции на правительственном уровне для того, что быть уверенным в том, что информация, полученная из неструктурированных данных, используется наилучшим образом и во благо наших пациентов [2].    

figure 1

References 

  1. Chowdhary KR (2020) Natural language processing. In: Fundamentals of Artificial Intelligence. Springer India, New Delhi, pp. 603–649 
  2. Urquhart E, Ryan J, Hartigan S, Nita C, Hanley C, Moran P, Bates J, Jooste R, Judge C, Laffey JG, Madden MG, McNicholas BA (2024) A pilot feasibility study comparing large language models in extracting key information from ICU patient text records from an Irish population. Intens Care Med Exp 12:71 
  3. Cadamuro J, Cabitza F, Debeljak Z, De Bruyne S, Frans G, Perez SM, Ozdemir H, Tolios A, Carobene A, Padoan A (2023) Potentials and pitfalls of ChatGPT and natural-language artificial intelligence models for the understanding of laboratory medicine test results. An assessment by the European Federation of Clinical Chemistry and Laboratory Medicine (EFLM) Working Group on Artificial Intelligence (WG-AI). Clin Chem Lab Med 61:1158–1166 
  4. Weissman GE, Hubbard RA, Ungar LH, Harhay MO, Greene CS, Himes BE, Halpern SD (2018) Inclusion of unstructured clinical text improves early prediction of death or prolonged ICU stay. Crit Care Med 46:1125–1132 
  5. Jurafsky D, Martin JH (2024) Speech and language processing: an intro-duction to natural language processing, computational linguistics, and speech recognition with language models (3rd ed.). MIT Press 
  6. Fiszman M, Haug PJ, Frederick PR (1998) Automatic extraction of PIOPED interpretations from ventilation/perfusion lung scan reports. Proc AMIA Symp: 860–864 
  7. Yan MY, Gustad LT, Nytro O (2022) Sepsis prediction, early detection, and identification using clinical text for machine learning: a systematic review. J Am Med Inform Assoc 29:559–575 
  8. Tissot HC, Shah AD, Brealey D, Harris S, Agbakoba R, Folarin A, Romao L, Roguski L, Dobson R, Asselbergs FW (2020) Natural language processing for mimicking clinical trial recruitment in critical care: a semi-automated simulation based on the LeoPARDS trial. IEEE J Biomed Health Inform 24:2950–2959 
  9. Lanspa MJ, Peltan ID, Jacobs JR, Sorensen JS, Carpenter L, Ferraro JP, Brown SM, Berry JG, Srivastava R, Grissom CK (2019) Driving pressure is not associated with mortality in mechanically ventilated patients without ARDS. Crit Care 23:424 
  10. Seinen TM, Fridgeirsson EA, Ioannou S, Jeannetot D, John LH, Kors JA, Markus AF, Pera V, Rekkas A, Williams RD, Yang C, van Mulligen EM, Rijn-beek PR (2022) Use of unstructured text in prognostic clinical prediction models: a systematic review. J Am Med Inform Assoc 29:1292–1302 
  11. Microsoft News Center (2023) https:// news. micro soft. com/ 2023/ 04/ 17/ micro soft- and- epic-expand-strategic-collaboration-with-integration-of-azure-openaiservi ce/. Retrieved May 1st 2023 
  12. Dean NC, Jones BE, Jones JP, Ferraro JP, Post HB, Aronsky D, Vines CG, Allen TL, Haug PJ (2015) Impact of an electronic clinical decision support tool for emergency department patients with pneumonia. Ann Emerg Med 66:511–520 
  13. Madden MG, McNicholas BA, Laffey JG (2023) Assessing the usefulness of a large language model to query and summarize unstructured medical notes in intensive care. Intens Care Med 49:1018–1020 
  14. Abhyankar S, Demner-Fushman D, Callaghan FM, McDonald CJ (2014) Combining structured and unstructured data to identify a cohort of ICU patients who received dialysis. J Am Med Inform Assoc 21:801–807 
  15. Williams CYK, Bains J, Tang T, Patel K, Lucas AN, Chen F, Miao BY, Butte AJ, Kornblith AE (2024) Evaluating large language models for drafting emergency department discharge summaries. medRxiv 
  16. Bedi S, Liu Y, Orr-Ewing L, Dash D, Koyejo S, Callahan A, Fries JA, Wornow M, Swaminathan A, Lehmann LS, Hong HJ, Kashyap M, Chaurasia AR, Shah NR, Singh K, Tazbaz T, Milstein A, Pfeffer MA, Shah NH (2024) Testing and evaluation of health care applications of large language models: a systematic review. JAMA. https:// doi. org/ 10. 1001/ jama. 2024. 21700
  17. Patel MR, Balu S, Pencina MJ (2024) Translating AI for the Clinician. JAMA 332(20):1701–1702. https:// doi. org/ 10. 1001/ jama. 2024. 21772 
  18. van Genderen ME, van de Sande D, Hooft L, Reis AA, Cornet AD, Ooster-hoff JHF, van der Ster BJP, Huiskens J, Townsend R, van Bommel J, Gom-mers D, van den Hoven J (2024) Charting a new course in healthcare: early-stage AI algorithm registration to enhance trust and transparency. NPJ Digit Med 7:119 
  19. van de Sande D, Chung EFF, Oosterhoff J, van Bommel J, Gommers D, van Genderen ME (2024) To warrant clinical adoption AI models require a multi-faceted implementation evaluation. NPJ Digit Med 7:58 
  20. Kelly CJ, Karthikesalingam A, Suleyman M, Corrado G, King D (2019) Key challenges for delivering clinical impact with artificial intelligence. BMC Med 17:195
  21. Lan Z, Turchin A (2023) Impact of possible errors in natural language processing-derived data on downstream epidemiologic analysis. JAMIA Open 6: ooad111 
  22. Seyyed-Kalantari L, Zhang H, McDermott MBA, Chen IY, Ghassemi M (2021) Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nat Med 27:2176–2182 
  23. Pilowsky JK, Choi JW, Saavedra A, Daher M, Nguyen N, Williams L, Jones SL (2024) Natural language processing in the intensive care unit: a scoping review. Crit Care Resusc 26:210–216

Источник: https://doi.org/10.1007/s00134-024-07776-y

Наш сайт работает без рекламы, и мы рады, что вы с нами! Для поддержки проекта и его развития сканируйте QR-код ниже!

Buy Me a Coffee