В статье описывается эксперимент, проведённый командой врачей и учёных из Harvard Medical School и Beth Israel Deaconess Medical Center. Было отобрано 76 случаев из отделения неотложной помощи, где два врача‑терапевта ставили диагнозы, а модели OpenAI o1 и 4o предлагали свои варианты, получая ту же информацию из электронных карт пациентов.
Что произошло
Оценка диагнозов проводилась двумя независимыми врачами, не знавшими, чей диагноз — человеческий или машинный. Модель o1 показала более высокий процент точных или почти точных диагнозов, особенно на этапе начального триажа, когда доступно мало информации.
Конкретные показатели: o1 дала точный или почти точный диагноз в 67 % случаев, один врач — в 55 % случаев, второй — в 50 %.
Почему это важно
- Показывает, что большие языковые модели могут работать с ограниченными данными в реальном времени, что важно для экстренной медицины.
- Указывает, что ИИ может стать вспомогательным инструментом для ускорения и уточнения диагностики, снижая нагрузку на врачей.
- Исследователи предупреждают, что текущие модели работают только с текстовым вводом и нуждаются в проверках в реальных условиях, а также в разработке правовых и этических рамок ответственности.
Что дальше
Авторы призывают к проведению проспективных клинических испытаний, чтобы оценить эффективность и безопасность ИИ в реальных сценариях, и к созданию формализованных механизмов подотчётности за алгоритмические диагнозы.