Сравнительное изучение и продуктивность больших языковых моделей по вопросам интенсивной терапии на экспертном уровне: оценочное исследование (Critical Care, февраль 2025)

Введение: большие языковые модели (Large language models [LLMs]) показывают возрастающий потенциал при их применении в здравоохранении в качестве административной поддержки и в процессах принятия решения. С другой стороны, сообщения об их производительности в медицине критических состояний отсутствуют. 

Методы: это исследование изучило пять LLMs (GPT-4o, GPT-4o-mini, GPT-3.5-turbo, Mistral Large 2407 и Llama 3.1 70B) на 1181 разнообразных выбранных вопросах (multiple choice questions [MCQs]), полученных из базы данных gotheextramile.com, всеохватывающий базы данных вопросов по критической медицине уровня экзамена на получение европейского диплома по интенсивной терапии. Производительность LLMs рандомно сравнивалась с 350 врачами (люди) на практическом тесте 77-MCQ. Метриками стали точность, последовательность и домен-специфическая производительность. Также анализу подверглась стоимость как прокси потребления энергии. 

Результаты: GPT-4o достиг наилучшей точности в 93.3%, далее следовали Llama 3.1 70B (87.5%), Mistral Large 2407 (87.9%), GPT-4o-mini (83.0%) и GPT-3.5-turbo (72.7%). Рандомные предположения (Random guessing) показали результат в 42.7%, для врачей (люди) 66.5%. Несмотря на высокую общую согласованность, все модели неизменно содержат неверные ответы. Самой дорогой моделью была GPT-4o, которая стоила в 25 раз дороже, чем наименее дорогая модель GPT-4o-mini.

Выводы: LLMs показали исключительную точность и последовательность, что в четыре раза превосходили таковые у врачей (людей) на практическом экзамене европейского уровня. Эталоном производительности стал GPT-4o, но вызывает серьезное беспокойство высокий уровень энергопотребления. Несмотря на видимый потенциал LLMs в критической терапии, все модели постоянно давали неправильные ответы, что требует дальнейшего изучения перед ответственным внедрением в клиническую практику. 

Подробнее: https://ccforum.biomedcentral.com/articles/10.1186/s13054-025-05302-0

Наш сайт работает без рекламы, и мы рады, что вы с нами! Для поддержки проекта и его развития сканируйте QR-код ниже!

Buy Me a Coffee