Bitget App
Торгуйте разумнее
Купить криптоРынкиТорговляФьючерсыБотыEarnКопитрейдинг
GPT-4 Не справляется с реальными задачами здравоохранения: новый тест HealthBench выявил пробелы

GPT-4 Не справляется с реальными задачами здравоохранения: новый тест HealthBench выявил пробелы

MPOSTMPOST2025/05/14 22:22
Автор:MPOST

Коротко Исследователи представили HealthBench — новый тест, который проверяет LLM, например GPT-4 и Med-PaLM 2 по реальным медицинским задачам.

Большие языковые модели есть везде — от поиска до кодирования и даже инструментов здравоохранения, ориентированных на пациента. Новые системы внедряются почти еженедельно, включая инструменты, которые обещают для автоматизации клинических рабочих процессов . Но можно ли им доверять принимать реальные медицинские решения? Новый бенчмарк HealthBench говорит, что пока нет. Согласно результатам, такие модели, как GPT-4 (От OpenAI) и Med-PaLM 2 (от Google DeepMind) по-прежнему не справляются с практическими задачами здравоохранения, особенно когда точность и безопасность имеют первостепенное значение.

GPT-4 Не справляется с реальными задачами здравоохранения: новый тест HealthBench выявил пробелы image 0

HealthBench отличается от старых тестов. Вместо использования узких тестов или академических наборов вопросов, он бросает вызов моделям ИИ с помощью реальных задач. К ним относятся выбор лечения, постановка диагноза и принятие решения о том, какие шаги должен предпринять врач. Это делает результаты более релевантными тому, как ИИ может быть фактически использован в больницах и клиниках.

GPT-4 Не справляется с реальными задачами здравоохранения: новый тест HealthBench выявил пробелы image 1

Во всех задачах, GPT-4 показали себя лучше, чем предыдущие модели. Но запаса было недостаточно, чтобы оправдать реальное развертывание. В некоторых случаях, GPT-4 выбирал неправильные методы лечения. В других случаях он давал советы, которые могли задержать лечение или даже увеличить вред. Этот бенчмарк ясно показывает одно: ИИ может казаться умным, но в медицине этого недостаточно.

Реальные задачи, реальные неудачи: где ИИ все еще прорывается в медицине

Один из самых больших вкладов HealthBench — это то, как он тестирует модели. Он включает 14 реальных задач здравоохранения в пяти категориях: планирование лечения, диагностика, координация ухода, управление приемом лекарств и общение с пациентами. Это не выдуманные вопросы. Они взяты из клинических рекомендаций, открытых наборов данных и ресурсов, созданных экспертами, которые отражают, как работает реальное здравоохранение.

На многих задачах большие языковые модели показали постоянные ошибки. Например, GPT-4 часто терпел неудачу при принятии клинических решений, например, при определении того, когда назначать антибиотики. В некоторых случаях он был назначен слишком часто. В других случаях он пропускал важные симптомы. Эти типы ошибок не просто неправильны — они могут нанести реальный вред, если используются в реальном лечении пациентов.

GPT-4 Не справляется с реальными задачами здравоохранения: новый тест HealthBench выявил пробелы image 2

Модели также испытывали трудности со сложными клиническими рабочими процессами. Например, когда их просили рекомендовать последующие шаги после результатов лабораторных исследований, GPT-4 Давал общие или неполные советы. Часто пропускал контекст, не придавал приоритета срочности или не обладал клинической глубиной. Это делает его опасным в случаях, когда время и порядок операций имеют решающее значение.

В задачах, связанных с приемом лекарств, точность снизилась еще больше. Модели часто путали взаимодействия лекарств или давали устаревшие рекомендации. Это особенно тревожно, поскольку ошибки приема лекарств уже являются одной из главных причин предотвратимого вреда в здравоохранении.

GPT-4 Не справляется с реальными задачами здравоохранения: новый тест HealthBench выявил пробелы image 3

Даже когда модели звучали уверенно, они не всегда были правы. Тест показал, что беглость и тон не соответствовали клинической правильности. Это один из самых больших рисков ИИ в здравоохранении — он может «звучать» как человек, будучи фактически неверным.

Почему HealthBench имеет значение: реальная оценка для реального воздействия

До сих пор многие оценки здоровья ИИ использовали академические наборы вопросов, такие как экзамены MedQA или USMLE. Эти контрольные показатели помогали измерять знания, но не проверяли, могут ли модели думать как врачи. HealthBench меняет это, имитируя то, что происходит при фактическом предоставлении медицинской помощи.

Вместо разовых вопросов HealthBench рассматривает всю цепочку принятия решений — от чтения списка симптомов до рекомендации шагов по уходу. Это дает более полную картину того, что может или не может делать ИИ. Например, он проверяет, может ли модель управлять диабетом в течение нескольких визитов или отслеживать тенденции лабораторных показателей с течением времени.

GPT-4 Не справляется с реальными задачами здравоохранения: новый тест HealthBench выявил пробелы image 4

Бенчмарк также оценивает модели по нескольким критериям, а не только по точности. Он проверяет клиническую значимость, безопасность и потенциальную возможность причинения вреда. Это означает, что недостаточно просто правильно ответить на вопрос — ответ также должен быть безопасным и полезным в реальных условиях.

Еще одна сильная сторона HealthBench — прозрачность. Команда, стоящая за ним, опубликовала все подсказки, оценочные рубрики и аннотации. Это позволяет другим исследователям тестировать новые модели, улучшать оценки и развивать работу. Это открытый призыв к сообществу ИИ: если вы хотите заявить, что ваша модель полезна в здравоохранении, докажите это здесь.

GPT-4 и Med-PaLM 2 все еще не готов к клиническим испытаниям

Несмотря на недавнюю шумиху вокруг GPT-4 и другие крупные модели, бенчмарк показывает, что они все еще допускают серьезные медицинские ошибки. В общей сложности, GPT-4 В среднем по всем заданиям удалось достичь только 60–65% правильности. В областях с высокими ставками, таких как решения о лечении и приеме лекарств, оценка была еще ниже.

Med-PaLM 2, модель, настроенная на задачи здравоохранения, показала себя не намного лучше. Она показала немного большую точность в базовом медицинском отзыве, но не справилась с многошаговым клиническим обоснованием. В нескольких сценариях она давала советы, которые не поддержал бы ни один лицензированный врач. К ним относятся неверное определение симптомов-красных флажков и предложение нестандартных методов лечения.

GPT-4 Не справляется с реальными задачами здравоохранения: новый тест HealthBench выявил пробелы image 5

В отчете также подчеркивается скрытая опасность: чрезмерная самоуверенность. Такие модели, как GPT-4 часто дают неверные ответы уверенным, плавным тоном. Это затрудняет обнаружение ошибок пользователями — даже обученными профессионалами. Это несоответствие между лингвистическим блеском и медицинской точностью — один из основных рисков внедрения ИИ в здравоохранение без строгих мер безопасности.

Проще говоря: казаться умным — не то же самое, что быть в безопасности.

Что необходимо изменить, прежде чем ИИ можно будет доверять в здравоохранении

Результаты HealthBench — это не просто предупреждение. Они также указывают на то, что ИИ необходимо улучшить. Во-первых, модели должны обучаться и оцениваться с использованием реальных клинических рабочих процессов, а не только учебников или экзаменов. Это означает включение врачей в процесс — не только как пользователей, но и как дизайнеров, тестировщиков и рецензентов.

GPT-4 Не справляется с реальными задачами здравоохранения: новый тест HealthBench выявил пробелы image 6

Во-вторых, системы ИИ должны быть созданы так, чтобы просить о помощи в случае неуверенности. Сейчас модели часто угадывают вместо того, чтобы сказать: «Я не знаю». Это неприемлемо в здравоохранении. Неправильный ответ может задержать диагностику, увеличить риск или подорвать доверие пациента. Будущие системы должны научиться отмечать неуверенность и передавать сложные случаи людям.

В-третьих, оценки, такие как HealthBench, должны стать стандартом перед реальным развертыванием. Простого прохождения академического теста уже недостаточно. Модели должны доказать, что они могут безопасно принимать реальные решения, или им следует вообще не допускать их в клинические условия.

Путь вперед: ответственное использование, а не шумиха

HealthBench не говорит, что у ИИ нет будущего в здравоохранении. Вместо этого он показывает, где мы находимся сегодня — и как далеко еще предстоит пройти. Большие языковые модели могут помочь с административными задачами, обобщением или общением с пациентами. Но на данный момент они не готовы заменить или даже надежно поддерживать врачей в клинической помощи.

Ответственное использование означает четкие ограничения. Это означает прозрачность оценки, партнерство с медицинскими специалистами и постоянное тестирование в соответствии с реальными медицинскими задачами. Без этого риски слишком высоки.

Создатели HealthBench призывают сообщество ИИ и здравоохранения принять его в качестве нового стандарта. Если все сделать правильно, это может продвинуть область вперед — от шумихи к реальному, безопасному воздействию.

0

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.
APR до 12%. Аирдропы новых токенов.
Внести!